आइए कल्पना करें, मेरे पास एक ही व्यक्ति द्वारा लिखे गए दो अंग्रेजी भाषा ग्रंथ हैं। क्या प्रत्येक का विश्लेषण करने के लिए कुछ मार्कोव चेन एल्गोरिदम लागू करना संभव है: सांख्यिकीय डेटा के आधार पर किसी प्रकार का फिंगरप्रिंट बनाएं, और विभिन्न ग्रंथों से प्राप्त फिंगरप्रिंट की तुलना करें? मान लें, हमारे पास 100 ग्रंथों वाली लाइब्रेरी है। कुछ व्यक्ति ने टेक्स्ट नंबर 1 और कुछ अन्य भी लिखा, और हमें उसकी लेखन शैली का विश्लेषण करके अनुमान लगाने की आवश्यकता है। क्या कोई ज्ञात एल्गोरिदम ऐसा कर रहा है? मार्कोव चेन यहां लागू हो सकते हैं?क्या लेखक की अनूठी "साहित्यिक शैली" का प्रयोग किसी पाठ के लेखक के रूप में करने के लिए किया जा सकता है?
उत्तर
बिल्कुल यह संभव है, और वास्तव में एक पाठ या उसके कुछ हिस्से को दिए गए लेखक की पहचान करने में सफलता का रिकॉर्ड प्रभावशाली है।
प्रतिनिधि अध्ययन के एक जोड़े (चेतावनी: लिंक पीडीएफ फाइलों को कर रहे हैं):
अपने वेब खोज में सहायता के लिए, यह अनुशासन है अक्सर स्टाइलोमेट्री (और कभी-कभी, स्टाइलोजेनेटिक्स)।
तो मुझे लगता है कि दो सबसे महत्वपूर्ण प्रश्न मुझे लगता है: इस उद्देश्य के लिए कौन से क्लासिफायर उपयोगी हैं और क्लासिफायर को कौन सा डेटा खिलाया जाता है?
मुझे अभी भी आश्चर्य की बात है कि बहुत सटीक वर्गीकरण प्राप्त करने के लिए कितना डेटा आवश्यक है। अक्सर डेटा केवल एक शब्द आवृत्ति सूची है। (शब्द आवृत्ति की सूचियों में निर्देशिका ऑनलाइन उपलब्ध here है।)
उदाहरण के लिए, एक डेटा व्यापक रूप से मशीन शिक्षण में उपलब्ध वेब पर स्थानों की एक संख्या से इस्तेमाल किया और सेट, चार लेखकों से डेटा के शामिल है: शेक्सपियर, जेन ऑस्टेन, जैक लंदन, मिल्टन। इन कार्यों को 872 टुकड़ों (लगभग अध्यायों के अनुरूप) में विभाजित किया गया था, दूसरे शब्दों में, चार लेखकों में से प्रत्येक के लिए पाठ के लगभग 220 विभिन्न महत्वपूर्ण टुकड़े; इनमें से प्रत्येक टुकड़ा डेटा सेट में एक डेटा बिंदु बन जाता है। इसके बाद प्रत्येक पाठ पर एक शब्द आवृत्ति स्कैन किया गया था, और अध्ययन के लिए 70 सबसे आम शब्दों का उपयोग किया गया था, आवृत्ति स्कैन के परिणामों के शेष को त्याग दिया गया था। उस 70-शब्द सूची में से पहले 20 यहां दिए गए हैं।
['a', 'all', 'also', 'an', 'and', 'any', 'are', 'as', 'at', 'be', 'been',
'but', 'by', 'can', 'do', 'down', 'even', 'every', 'for', 'from']
प्रत्येक डेटा बिंदु 872 अध्यायों में से प्रत्येक में 70 शब्दों के प्रत्येक शब्द की गणना है।
[78, 34, 21, 45, 76, 9, 23, 12, 43, 54, 110, 21, 45, 59, 87, 59, 34, 104, 93, 40]
इनमें से प्रत्येक डेटा पॉइंट लेखक के साहित्यिक फिंगरप्रिंट का एक उदाहरण है।
प्रत्येक डेटा बिंदु में अंतिम आइटम एक पूर्णांक (1-4) है जो चार लेखकों में से एक का प्रतिनिधित्व करता है जिनके लिए यह पाठ संबंधित है।
हाल ही में, मैंने एक सरल असुरक्षित एमएल एल्गोरिदम के माध्यम से इस डेटासेट को चलाया; परिणाम बहुत अच्छे थे - चार वर्गों के लगभग पूर्ण पृथक्करण, जो आपमें स्टैक ओवरव्लो पर पिछले क्यू में आम तौर पर लेखक पहचान के बजाय एमएल का उपयोग करके टेक्स्ट वर्गीकरण से संबंधित पिछले क्यू में देख सकते हैं।
तो अन्य एल्गोरिदम का उपयोग कैसे किया जाता है? जाहिर है, पर्यवेक्षित श्रेणी में अधिकांश मशीन लर्निंग एल्गोरिदम इस प्रकार के डेटा को सफलतापूर्वक हल कर सकते हैं। इनमें से, बहु-परत प्रतिबिंब (एमएलपी, उर्फ, तंत्रिका नेटवर्क) अक्सर उपयोग किए जाते हैं (Author Attribution Using Neural Networks एक ऐसा अक्सर उद्धृत अध्ययन है)।
के लिए – FRIdSUN
@FRIDSUN यह सुनिश्चित नहीं है कि "एसएनएस" से आपका क्या मतलब है, मुझे लगता है कि यह एक टाइपो है और आपका मतलब एसएमएस है। यदि हां, तो मेरा जवाब नहीं है। इसका कारण यह है कि एसएमएस संदेशों की अपनी (अनौपचारिक) शैली, वाक्यविन्यास, और उपयोग नियम हैं, और वे नियम होंगे। प्रभावी रूप से एक लेखक की साहित्यिक गद्य शैली छुपाएं। तो उदाहरण के लिए, शब्द आवृत्ति को रोकें, अक्सर लेखक शैली का एक मजबूत हस्ताक्षर (यानी, लेखक के ग्रंथों में से कई में संगत) शायद एसएमएस के लिए बेकार है - उदाहरण के लिए, एसएमएस ग्रंथों में शायद ही कभी कोई स्टॉप शब्द होता है ("ए", "ए" , "द") ब्रेवटी के लिए, अक्सर स्टॉप शब्दों ("और" के लिए "और") के बजाय प्रतीकों का उपयोग करें, – doug
एसएनएस = सोशल नेटवर्क सेवा। मेरा मतलब था कि फेसबुक पोस्ट, ट्विटर ट्वीट्स, मध्यम लेख और ऐसी पहचान करने की तरह विश्लेषण करना संभव है। – FRIdSUN
आप Apache Mahout वेबसाइट पर जा सकते हैं। वर्गीकरण और क्लस्टरिंग पर एक विशाल साहित्य है। अनिवार्य रूप से, आप एक क्लस्टरिंग एल्गोरिदम चलाने के लिए चाहते हैं, और फिर आशा करते हैं कि 'कौन सा लेखक' क्लस्टर निर्धारित करता है।
+1 सार्वजनिक एसएनएस ग्रंथों का विश्लेषण करके किसी अज्ञात आलेख को अपने लेखक को ढूंढना संभव है? – thkala
एक प्रसिद्ध उदाहरण है, किसने लिखा [संघीय पत्र] (http://en.wikipedia.org/wiki/Federalist_Papers)? वहां नोट्स 1 9 और 20 देखें। Apach Mahout संदर्भ – denis