मेरे पास टेक्स्ट आइटम्स की श्रृंखला है- एक MySQL डेटाबेस से कच्चे HTML। मैं इन प्रविष्टियों में सबसे आम वाक्यांश ढूंढना चाहता हूं (एकल सबसे आम वाक्यांश नहीं, और आदर्श रूप से, शब्द-शब्द-शब्द मिलान को लागू नहीं करना)।टेक्स्ट प्रविष्टियों की एक श्रृंखला से आम/महत्वपूर्ण वाक्यांशों को निकालने के लिए कैसे करें
मेरे उदाहरण Yelp.com पर किसी भी समीक्षा, किसी दिए गए रेस्तरां की समीक्षा के सैकड़ों से 3 के टुकड़े से पता चलता है कि, स्वरूप में है:
"हैमबर्गर प्रयास करें" (44 समीक्षा में)
जैसे "समीक्षा हाइलाइट" इस पेज के अनुभाग:
http://www.yelp.com/biz/sushi-gen-los-angeles/
मैं NLTK स्थापित किया है और मैं चारों ओर इसके साथ एक सा खेला है, लेकिन ईमानदारी से विकल्पों से अभिभूत हूँ। यह एक आम समस्या की तरह लगता है और मैं यहां खोज करके एक सीधा समाधान खोजने में सक्षम नहीं हूं।
एनएलटीके के साथ, यह बिग्राम और ट्रिग्राम प्राप्त करने में काफी आसान है, लेकिन जो मैं खोज रहा हूं वह वाक्यांश हैं जो लंबाई में 7-8 शब्द अधिक हैं।मुझे पता नहीं है कि एनएलटीके (या कुछ अन्य विधि) को ऐसे 'ऑक्टोग्राम' और ऊपर प्रदान करने के तरीके को कैसे बनाया जाए। – arronsky