2011-01-22 14 views
15

आइए कल्पना करें, मेरे पास एक ही व्यक्ति द्वारा लिखे गए दो अंग्रेजी भाषा ग्रंथ हैं। क्या प्रत्येक का विश्लेषण करने के लिए कुछ मार्कोव चेन एल्गोरिदम लागू करना संभव है: सांख्यिकीय डेटा के आधार पर किसी प्रकार का फिंगरप्रिंट बनाएं, और विभिन्न ग्रंथों से प्राप्त फिंगरप्रिंट की तुलना करें? मान लें, हमारे पास 100 ग्रंथों वाली लाइब्रेरी है। कुछ व्यक्ति ने टेक्स्ट नंबर 1 और कुछ अन्य भी लिखा, और हमें उसकी लेखन शैली का विश्लेषण करके अनुमान लगाने की आवश्यकता है। क्या कोई ज्ञात एल्गोरिदम ऐसा कर रहा है? मार्कोव चेन यहां लागू हो सकते हैं?क्या लेखक की अनूठी "साहित्यिक शैली" का प्रयोग किसी पाठ के लेखक के रूप में करने के लिए किया जा सकता है?

+0

एक प्रसिद्ध उदाहरण है, किसने लिखा [संघीय पत्र] (http://en.wikipedia.org/wiki/Federalist_Papers)? वहां नोट्स 1 9 और 20 देखें। Apach Mahout संदर्भ – denis

उत्तर

12

बिल्कुल यह संभव है, और वास्तव में एक पाठ या उसके कुछ हिस्से को दिए गए लेखक की पहचान करने में सफलता का रिकॉर्ड प्रभावशाली है।

प्रतिनिधि अध्ययन के एक जोड़े (चेतावनी: लिंक पीडीएफ फाइलों को कर रहे हैं):

अपने वेब खोज में सहायता के लिए, यह अनुशासन है अक्सर स्टाइलोमेट्री (और कभी-कभी, स्टाइलोजेनेटिक्स)।

तो मुझे लगता है कि दो सबसे महत्वपूर्ण प्रश्न मुझे लगता है: इस उद्देश्य के लिए कौन से क्लासिफायर उपयोगी हैं और क्लासिफायर को कौन सा डेटा खिलाया जाता है?

मुझे अभी भी आश्चर्य की बात है कि बहुत सटीक वर्गीकरण प्राप्त करने के लिए कितना डेटा आवश्यक है। अक्सर डेटा केवल एक शब्द आवृत्ति सूची है। (शब्द आवृत्ति की सूचियों में निर्देशिका ऑनलाइन उपलब्ध here है।)

उदाहरण के लिए, एक डेटा व्यापक रूप से मशीन शिक्षण में उपलब्ध वेब पर स्थानों की एक संख्या से इस्तेमाल किया और सेट, चार लेखकों से डेटा के शामिल है: शेक्सपियर, जेन ऑस्टेन, जैक लंदन, मिल्टन। इन कार्यों को 872 टुकड़ों (लगभग अध्यायों के अनुरूप) में विभाजित किया गया था, दूसरे शब्दों में, चार लेखकों में से प्रत्येक के लिए पाठ के लगभग 220 विभिन्न महत्वपूर्ण टुकड़े; इनमें से प्रत्येक टुकड़ा डेटा सेट में एक डेटा बिंदु बन जाता है। इसके बाद प्रत्येक पाठ पर एक शब्द आवृत्ति स्कैन किया गया था, और अध्ययन के लिए 70 सबसे आम शब्दों का उपयोग किया गया था, आवृत्ति स्कैन के परिणामों के शेष को त्याग दिया गया था। उस 70-शब्द सूची में से पहले 20 यहां दिए गए हैं।

['a', 'all', 'also', 'an', 'and', 'any', 'are', 'as', 'at', 'be', 'been', 
    'but', 'by', 'can', 'do', 'down', 'even', 'every', 'for', 'from'] 

प्रत्येक डेटा बिंदु 872 अध्यायों में से प्रत्येक में 70 शब्दों के प्रत्येक शब्द की गणना है।

[78, 34, 21, 45, 76, 9, 23, 12, 43, 54, 110, 21, 45, 59, 87, 59, 34, 104, 93, 40] 

इनमें से प्रत्येक डेटा पॉइंट लेखक के साहित्यिक फिंगरप्रिंट का एक उदाहरण है।

प्रत्येक डेटा बिंदु में अंतिम आइटम एक पूर्णांक (1-4) है जो चार लेखकों में से एक का प्रतिनिधित्व करता है जिनके लिए यह पाठ संबंधित है।

हाल ही में, मैंने एक सरल असुरक्षित एमएल एल्गोरिदम के माध्यम से इस डेटासेट को चलाया; परिणाम बहुत अच्छे थे - चार वर्गों के लगभग पूर्ण पृथक्करण, जो आपमें स्टैक ओवरव्लो पर पिछले क्यू में आम तौर पर लेखक पहचान के बजाय एमएल का उपयोग करके टेक्स्ट वर्गीकरण से संबंधित पिछले क्यू में देख सकते हैं।

तो अन्य एल्गोरिदम का उपयोग कैसे किया जाता है? जाहिर है, पर्यवेक्षित श्रेणी में अधिकांश मशीन लर्निंग एल्गोरिदम इस प्रकार के डेटा को सफलतापूर्वक हल कर सकते हैं। इनमें से, बहु-परत प्रतिबिंब (एमएलपी, उर्फ, तंत्रिका नेटवर्क) अक्सर उपयोग किए जाते हैं (Author Attribution Using Neural Networks एक ऐसा अक्सर उद्धृत अध्ययन है)।

+0

के लिए – FRIdSUN

+0

@FRIDSUN यह सुनिश्चित नहीं है कि "एसएनएस" से आपका क्या मतलब है, मुझे लगता है कि यह एक टाइपो है और आपका मतलब एसएमएस है। यदि हां, तो मेरा जवाब नहीं है। इसका कारण यह है कि एसएमएस संदेशों की अपनी (अनौपचारिक) शैली, वाक्यविन्यास, और उपयोग नियम हैं, और वे नियम होंगे। प्रभावी रूप से एक लेखक की साहित्यिक गद्य शैली छुपाएं। तो उदाहरण के लिए, शब्द आवृत्ति को रोकें, अक्सर लेखक शैली का एक मजबूत हस्ताक्षर (यानी, लेखक के ग्रंथों में से कई में संगत) शायद एसएमएस के लिए बेकार है - उदाहरण के लिए, एसएमएस ग्रंथों में शायद ही कभी कोई स्टॉप शब्द होता है ("ए", "ए" , "द") ब्रेवटी के लिए, अक्सर स्टॉप शब्दों ("और" के लिए "और") के बजाय प्रतीकों का उपयोग करें, – doug

+0

एसएनएस = सोशल नेटवर्क सेवा। मेरा मतलब था कि फेसबुक पोस्ट, ट्विटर ट्वीट्स, मध्यम लेख और ऐसी पहचान करने की तरह विश्लेषण करना संभव है। – FRIdSUN

1

आप Apache Mahout वेबसाइट पर जा सकते हैं। वर्गीकरण और क्लस्टरिंग पर एक विशाल साहित्य है। अनिवार्य रूप से, आप एक क्लस्टरिंग एल्गोरिदम चलाने के लिए चाहते हैं, और फिर आशा करते हैं कि 'कौन सा लेखक' क्लस्टर निर्धारित करता है।

+0

+1 सार्वजनिक एसएनएस ग्रंथों का विश्लेषण करके किसी अज्ञात आलेख को अपने लेखक को ढूंढना संभव है? – thkala

 संबंधित मुद्दे

  • कोई संबंधित समस्या नहीं^_^