क्या लेखक की अनूठी "साहित्यिक शैली" का प्रयोग किसी पाठ के लेखक के रूप में करने के लिए किया जा सकता है?

आइए कल्पना करें, मेरे पास एक ही व्यक्ति द्वारा लिखे गए दो अंग्रेजी भाषा ग्रंथ हैं। क्या प्रत्येक का विश्लेषण करने के लिए कुछ मार्कोव चेन एल्गोरिदम लागू करना संभव है: सांख्यिकीय डेटा के आधार पर किसी प्रकार का फिंगरप्रिंट बनाएं, और विभिन्न ग्रंथों से प्राप्त फिंगरप्रिंट की तुलना करें? मान लें, हमारे पास 100 ग्रंथों वाली लाइब्रेरी है। कुछ व्यक्ति ने टेक्स्ट नंबर 1 और कुछ अन्य भी लिखा, और हमें उसकी लेखन शैली का विश्लेषण करके अनुमान लगाने की आवश्यकता है। क्या कोई ज्ञात एल्गोरिदम ऐसा कर रहा है? मार्कोव चेन यहां लागू हो सकते हैं?क्या लेखक की अनूठी "साहित्यिक शैली" का प्रयोग किसी पाठ के लेखक के रूप में करने के लिए किया जा सकता है?

स्रोत

2011-01-22 Dennis Yurichev

एक प्रसिद्ध उदाहरण है, किसने लिखा [संघीय पत्र] (http://en.wikipedia.org/wiki/Federalist_Papers)? वहां नोट्स 1 9 और 20 देखें। Apach Mahout संदर्भ – denis

बिल्कुल यह संभव है, और वास्तव में एक पाठ या उसके कुछ हिस्से को दिए गए लेखक की पहचान करने में सफलता का रिकॉर्ड प्रभावशाली है।

प्रतिनिधि अध्ययन के एक जोड़े (चेतावनी: लिंक पीडीएफ फाइलों को कर रहे हैं):

अपने वेब खोज में सहायता के लिए, यह अनुशासन है अक्सर स्टाइलोमेट्री (और कभी-कभी, स्टाइलोजेनेटिक्स)।

तो मुझे लगता है कि दो सबसे महत्वपूर्ण प्रश्न मुझे लगता है: इस उद्देश्य के लिए कौन से क्लासिफायर उपयोगी हैं और क्लासिफायर को कौन सा डेटा खिलाया जाता है?

मुझे अभी भी आश्चर्य की बात है कि बहुत सटीक वर्गीकरण प्राप्त करने के लिए कितना डेटा आवश्यक है। अक्सर डेटा केवल एक शब्द आवृत्ति सूची है। (शब्द आवृत्ति की सूचियों में निर्देशिका ऑनलाइन उपलब्ध here है।)

उदाहरण के लिए, एक डेटा व्यापक रूप से मशीन शिक्षण में उपलब्ध वेब पर स्थानों की एक संख्या से इस्तेमाल किया और सेट, चार लेखकों से डेटा के शामिल है: शेक्सपियर, जेन ऑस्टेन, जैक लंदन, मिल्टन। इन कार्यों को 872 टुकड़ों (लगभग अध्यायों के अनुरूप) में विभाजित किया गया था, दूसरे शब्दों में, चार लेखकों में से प्रत्येक के लिए पाठ के लगभग 220 विभिन्न महत्वपूर्ण टुकड़े; इनमें से प्रत्येक टुकड़ा डेटा सेट में एक डेटा बिंदु बन जाता है। इसके बाद प्रत्येक पाठ पर एक शब्द आवृत्ति स्कैन किया गया था, और अध्ययन के लिए 70 सबसे आम शब्दों का उपयोग किया गया था, आवृत्ति स्कैन के परिणामों के शेष को त्याग दिया गया था। उस 70-शब्द सूची में से पहले 20 यहां दिए गए हैं।

['a', 'all', 'also', 'an', 'and', 'any', 'are', 'as', 'at', 'be', 'been', 
    'but', 'by', 'can', 'do', 'down', 'even', 'every', 'for', 'from']

प्रत्येक डेटा बिंदु 872 अध्यायों में से प्रत्येक में 70 शब्दों के प्रत्येक शब्द की गणना है।

[78, 34, 21, 45, 76, 9, 23, 12, 43, 54, 110, 21, 45, 59, 87, 59, 34, 104, 93, 40]

इनमें से प्रत्येक डेटा पॉइंट लेखक के साहित्यिक फिंगरप्रिंट का एक उदाहरण है।

प्रत्येक डेटा बिंदु में अंतिम आइटम एक पूर्णांक (1-4) है जो चार लेखकों में से एक का प्रतिनिधित्व करता है जिनके लिए यह पाठ संबंधित है।

हाल ही में, मैंने एक सरल असुरक्षित एमएल एल्गोरिदम के माध्यम से इस डेटासेट को चलाया; परिणाम बहुत अच्छे थे - चार वर्गों के लगभग पूर्ण पृथक्करण, जो आपमें स्टैक ओवरव्लो पर पिछले क्यू में आम तौर पर लेखक पहचान के बजाय एमएल का उपयोग करके टेक्स्ट वर्गीकरण से संबंधित पिछले क्यू में देख सकते हैं।

तो अन्य एल्गोरिदम का उपयोग कैसे किया जाता है? जाहिर है, पर्यवेक्षित श्रेणी में अधिकांश मशीन लर्निंग एल्गोरिदम इस प्रकार के डेटा को सफलतापूर्वक हल कर सकते हैं। इनमें से, बहु-परत प्रतिबिंब (एमएलपी, उर्फ, तंत्रिका नेटवर्क) अक्सर उपयोग किए जाते हैं (Author Attribution Using Neural Networks एक ऐसा अक्सर उद्धृत अध्ययन है)।

स्रोत

2011-01-28 11:45:49 doug

के लिए – FRIdSUN

@FRIDSUN यह सुनिश्चित नहीं है कि "एसएनएस" से आपका क्या मतलब है, मुझे लगता है कि यह एक टाइपो है और आपका मतलब एसएमएस है। यदि हां, तो मेरा जवाब नहीं है। इसका कारण यह है कि एसएमएस संदेशों की अपनी (अनौपचारिक) शैली, वाक्यविन्यास, और उपयोग नियम हैं, और वे नियम होंगे। प्रभावी रूप से एक लेखक की साहित्यिक गद्य शैली छुपाएं। तो उदाहरण के लिए, शब्द आवृत्ति को रोकें, अक्सर लेखक शैली का एक मजबूत हस्ताक्षर (यानी, लेखक के ग्रंथों में से कई में संगत) शायद एसएमएस के लिए बेकार है - उदाहरण के लिए, एसएमएस ग्रंथों में शायद ही कभी कोई स्टॉप शब्द होता है ("ए", "ए" , "द") ब्रेवटी के लिए, अक्सर स्टॉप शब्दों ("और" के लिए "और") के बजाय प्रतीकों का उपयोग करें, – doug

एसएनएस = सोशल नेटवर्क सेवा। मेरा मतलब था कि फेसबुक पोस्ट, ट्विटर ट्वीट्स, मध्यम लेख और ऐसी पहचान करने की तरह विश्लेषण करना संभव है। – FRIdSUN

आप Apache Mahout वेबसाइट पर जा सकते हैं। वर्गीकरण और क्लस्टरिंग पर एक विशाल साहित्य है। अनिवार्य रूप से, आप एक क्लस्टरिंग एल्गोरिदम चलाने के लिए चाहते हैं, और फिर आशा करते हैं कि 'कौन सा लेखक' क्लस्टर निर्धारित करता है।

स्रोत

2011-01-22 23:30:58 bmargulies

+1 सार्वजनिक एसएनएस ग्रंथों का विश्लेषण करके किसी अज्ञात आलेख को अपने लेखक को ढूंढना संभव है? – thkala

क्या लेखक की अनूठी "साहित्यिक शैली" का प्रयोग किसी पाठ के लेखक के रूप में करने के लिए किया जा सकता है?

उत्तर

संबंधित मुद्दे