चूंकि केवल एक ही जवाब रहा है, और बक्षीस की समय सीमा जल्द ही आ रही है, मैंने सोचा कि मुझे आधारभूत उत्तर जोड़ना चाहिए ताकि बक्षीस को उस उत्तर में स्वचालित रूप से सम्मानित न किया जाए जो प्रश्न में क्या नहीं है।
स्पष्ट पहला कदम है कि आप अपने मूल सेटों को सेट करें और कई निर्देशित विश्वकोश ग्राफ बनाने के लिए सभी in_reply_to_status_id
लिंक का पालन करें। ये संबंध आप लगभग 100% निश्चित हो सकते हैं। (आपको उन ट्वीट्स के माध्यम से भी लिंक का पालन करना चाहिए जो मूल सेट में नहीं हैं, जो आप विचार कर रहे स्टेटस अपडेट्स के सेट में जोड़ रहे हैं।)
उस आसान कदम से परे, किसी को " उल्लेख है "। ईमेल थ्रेडिंग के विपरीत, कोई भी विषय पंक्ति जैसी सहायक नहीं है जिस पर कोई मिलान कर सकता है - यह अनिवार्य रूप से बहुत त्रुटि प्रवण होने जा रहा है। मैं जो दृष्टिकोण लेता हूं वह उस स्थिति आईडी के बीच हर संभव रिश्ते के लिए एक फीचर वेक्टर बनाना है जिसे उस ट्वीट में उल्लेख किया जा सकता है, और उसके बाद "नो उत्तर" विकल्प सहित सर्वोत्तम विकल्प का अनुमान लगाने के लिए क्लासिफायर को प्रशिक्षित करना है।
"हर संभव रिश्ते" बिट को काम करने के लिए, प्रत्येक स्थिति अद्यतन पर विचार करके शुरू करें जो एक या अधिक अन्य उपयोगकर्ताओं का उल्लेख करता है और इसमें in_reply_to_status_id
नहीं है। मान लीजिए इन ट्वीट्स की एक का एक उदाहरण है:
@a @b no it isn't lol RT @c Yes, absolutely. /cc @stephenfry
... आप @a
, @b
की समयसीमा में पहले के एक तारीख के साथ इस अद्यतन और हर अद्यतन के बीच के रिश्ते के लिए एक सुविधा वेक्टर बनाना होगा, पिछले सप्ताह (कहें) और उस अपडेट के बीच @c
, और @stephenfry
और एक विशेष "कोई जवाब नहीं" अपडेट। तो फिर तुम एक फीचर वेक्टर बनाने के लिए - आप इस आप चाहते हैं जो कुछ भी करने के लिए जोड़ सकते हैं, लेकिन मैं कम से कम जोड़ने का सुझाव होगा:
- बार हुआ है कि दो अद्यतन के बीच गुजरे - शायद उत्तर अधिक करने के लिए होने की संभावना है हाल के अद्यतन।
- उल्लेख के अनुसार शब्दों के संदर्भ में ट्वीट के माध्यम से मार्ग का अनुपात। जैसे यदि यह पहला शब्द है, तो यह 0 का स्कोर होगा और संभवतः अद्यतन में उल्लेखों के मुकाबले उत्तर देने का अधिक संभावना है।
- उल्लिखित उपयोगकर्ता के अनुयायियों की संख्या - हस्तियां संभावित रूप से स्पैम-उल्लिखित होने की अधिक संभावना है।
- अद्यतनों के बीच सबसे लंबे समय तक सामान्य सबस्ट्रिंग की लंबाई, जो प्रत्यक्ष उद्धरण इंगित कर सकती है।
- क्या "/ सीसी" या अन्य संकेतक से पहले उल्लेख किया गया है जो इंगित करता है कि यह सीधे उस व्यक्ति का उत्तर नहीं है?
- मूल अद्यतन के लेखक के लिए
following/followed
अनुपात।
- आदि
- आदि
इन एक, बेहतर के साथ आ सकता है, क्योंकि वर्गीकारक केवल उन है कि बाहर बारी उपयोगी होने के लिए प्रयोग करेंगे के और अधिक। मैं random forest वर्गीकरण की कोशिश करने का सुझाव दूंगा, जिसे आसानी से Weka में कार्यान्वित किया गया है।
अगला व्यक्ति को प्रशिक्षण सेट की आवश्यकता है। यह पहले छोटा हो सकता है - बस ऐसी सेवा प्राप्त करने के लिए पर्याप्त है जो बातचीत को ऊपर और चलने की पहचान करता है। इस मूल सेवा के लिए, किसी को बेमेल या झूठे लिंक वाले अपडेट को सही करने के लिए एक अच्छा इंटरफ़ेस जोड़ना होगा, ताकि उपयोगकर्ता उन्हें सही कर सकें। इस डेटा का उपयोग करने से कोई बड़ा प्रशिक्षण सेट और एक और सटीक वर्गीकृत बना सकता है।
... जो ट्विटर पर प्रवचन के स्तर के विशिष्ट हो सकता है;)
एक आर टी है नहीं एक उत्तर है, यह एक "रीट्वीट।" है इसका मतलब यह है कि आप किसी और ने कहा है कि एक एट्रिब्यूशन के बाद दोहराया जा रहा है। –
मेरे अनुभव में, यह दोनों के लिए उपयोग किया जाता है। लोग अक्सर अपने जवाब के लिए " आरटी <@name><उद्धरण संदेश जहां तक स्थान अनुमति देता है" प्रारूप का उपयोग करते हैं। –
user85509