2010-12-28 21 views
5

मैं एक कीवर्ड की प्रासंगिकता को संक्षिप्त विवरण टेक्स्ट में गणना करना चाहता हूं। दक्षता और कार्यान्वयन में आसानी के मामले में सबसे अच्छा तरीका क्या होगा। मैं सी ++ का उपयोग कर रहा हूँ?एक कीवर्ड की प्रासंगिकता की गणना करने के लिए एल्गोरिदम एक छोटे से पाठ (50 - 100 शब्द)

उत्तर

6

सरल समाधान: पाठ में शब्द की घटनाओं की गणना करें।

एक अच्छी नौकरी करने के लिए हालांकि एक कठिन समस्या है कि Google जैसी कंपनियां वर्षों से काम कर रही हैं।

  • उपयोग एक शब्दकोश (जैसे WordNet एक आम शब्द
  • के साथ सभी समानार्थी शब्दों को बदलने के लिए इसी तरह के शब्दों का पता लगाने का उपयोग कर: यदि संभव हो तो, आप using their technology

    विस्तार करने के लिए पर एक नज़र लेने के लिए चाहते हो सकता है, निम्न प्रयास करें Levenshtein distance

कि अभी तक केवल आप अब तक हो रहा है। आप क्या विवरण के बारे में कई tex के बीच अंतर करना है कुछ प्राकृतिक भाषा संसाधन प्रदर्शन करने के लिए सही मायने में समझने के लिए की आवश्यकता होगी टीएस में कीवर्ड को एक ही संख्या में शामिल किया गया है।

+0

धन्यवाद! लेवेनशेटिन दूरी वह चीज थी जिसे मैं याद करने की कोशिश कर रहा था :) मेरे मामले में मुझे किसी कट्टर प्रसंस्करण की आवश्यकता नहीं है। वास्तव में एक संक्षिप्त विवरण पाठ के लिए बस 100 से अधिक स्कोर प्राप्त करना चाहते हैं। – fgungor