मैं डेटा खनन और थोड़ा प्रयोग करने के लिए नया हूँ।अनुयायियों की संख्या द्वारा क्रमबद्ध ट्वीट्स में थीम खोजने के लिए अच्छा एल्गोरिदम?
मान लें कि मेरे पास एन ट्विटर उपयोगकर्ता हैं और मैं को जो विषय ढूंढना चाहता हूं वह है (ट्वीट्स के आधार पर)।
फिर यदि मैं उपयोगकर्ता के उच्च अनुयायियों के पास प्रत्येक विषय को उच्च वजन देना चाहता हूं।
तब मैं सभी विषयों को मर्ज करना चाहता हूं यदि पर्याप्त समान हैं लेकिन अभी भी ट्विटर गणना द्वारा वज़न बनाए रखें।
तो मूल रूप से प्राधिकारी द्वारा स्थान पर रहीं "महत्वपूर्ण" विषयों (उपयोगकर्ता के चहचहाना गिनती)
उदाहरण के लिए, news.google.com की तरह लेकिन रैंकिंग की एक सूची चहचहाना अनुयायियों कि विषय के लिए जिम्मेदार हैं के आधार पर किया जाएगा।
मैं अजगर में कुछ पसंद करूंगा क्योंकि यह वह भाषा है जिसे मैं सबसे ज्यादा परिचित हूं।
कोई विचार?
धन्यवाद
संपादित करें: यहाँ मैं क्या (लेकिन diff डेटा के साथ) http://www.facebook.com/notes/facebook-data-team/whats-on-your-mind/477517358858
मूल रूप से विभिन्न डेटा और एक दूसरे के लिए अपने सह-संबंध का विश्लेषण करने के लिए कोशिश कर रहा हूँ का एक अच्छा उदाहरण है: काम श्रेणियों और इस उदाहरण में प्रत्येक व्यक्ति उम्र या शब्द श्रेणियां और मित्र गणना करते हैं।
मैं इसे हल करने और ऐसे ग्राफ उत्पन्न करने के लिए कहां से शुरू करूंगा?
मैंने पायथन टैग जोड़ा - किसी भी विशेष कारण से आपने इसे 'आर' के साथ टैग क्यों किया? –
केवल इसलिए कि मैंने सोचा था कि आर में किसी भी संभावित समाधान को व्यक्त किया जा सकता है। – Maverick
क्या आप भाषा-अज्ञेयवादी की तलाश नहीं कर रहे हैं, यदि आपके पास काम करने के लिए कोई विशिष्ट भाषा नहीं है? –