गैर-शब्द टोकन वाले टेक्स्ट में शब्दों को कैसे पहचानें?

मैं वर्तमान में मेल का एक समूह पार्स कर रहा हूं और शब्दों और अन्य रोचक टोकन को मेल से बाहर करना चाहता हूं (यहां तक कि वर्तनी त्रुटियों या अक्षरों और अक्षरों के संयोजन के साथ, जैसे "ज़ेबरा 21" या "ग्राहक 242")। लेकिन मैं कैसे जान सकता हूं कि "0013lCnUieIquYjSuIA" और "anr5Brru2lLngOiEAVk1BTjN" शब्द नहीं हैं और प्रासंगिक नहीं हैं? शब्दों को निकालने और टोकन को छोड़ने के लिए जो त्रुटियों को एन्कोडिंग करते हैं या पीजीपी हस्ताक्षर के हिस्सों या जो कुछ भी हमें मेल में मिलता है और पता है कि हम उन लोगों में कभी दिलचस्पी नहीं लेंगे?गैर-शब्द टोकन वाले टेक्स्ट में शब्दों को कैसे पहचानें?

स्रोत

2010-01-03 zebra

आपको किसी शब्द के लिए पर्याप्त पर्याप्त मानदंडों पर निर्णय लेने और नियमित अभिव्यक्ति या इसे लागू करने के लिए मैन्युअल लिखने की आवश्यकता है।
कुछ नियम है कि अपने उदाहरण से वाग्विस्तार जा सकता है:

शब्द एक पूंजी पत्र के साथ शुरू या सभी बड़े अक्षरों हो सकता है लेकिन आप और अधिक हो, तो कहते हैं की तुलना में, 2 बड़े अक्षरों का है और एक के अंदर अधिक से अधिक 2 छोटे अक्षरों शब्द, यह एक शब्द
नहीं है आप शब्द के अंदर नंबर हैं, तो यह एक शब्द
अगर यह लंबे समय तक की तुलना में कहना है, 20 वर्ण

कोई जादू चाल है नहीं है। आपको यह तय करने की ज़रूरत है कि आप नियम क्या चाहते हैं और उन्हें कैसे करें।

अल वैकल्पिक तरीका किसी प्रकार की छिपी मार्कोव-मॉडल प्रणाली को शब्दों की तरह लगने वाली चीजों को पहचानने के लिए प्रशिक्षित करना है, लेकिन मुझे लगता है कि यह आप जो करना चाहते हैं उसके लिए एक ओवरकिल है।

स्रोत

2010-01-03 12:59:32 shoosh

सलाह के लिए धन्यवाद, मैंने इस तरह से शुरू किया, मैंने एनआरलेटर टोडिगिट चेंज और एनआरएलओवर टॉपर चैनेज की गणना की तुलना में और मैंने वर्तमान में एनआरएलओवर टॉउपर चेनेज के लिए अलग-अलग शब्दों के "स्तर" बनाए हैं <= 1 और NrLetterToDigitChanges <= 1 पहला स्तर है और यदि इसका योग दो 8 से अधिक है यह एक शब्द नहीं है, इसलिए मैं कुछ स्तरों को और परिभाषित कर दूंगा और देखें कि मेरे लिए सबसे अच्छा क्या काम करता है, धन्यवाद – zebra

सुनिश्चित करें कि आप सभ्य दस्तावेज लिखते हैं क्योंकि इन नामों का आकस्मिक पाठक के लिए बहुत कुछ नहीं है। – shoosh

http://en.wikipedia.org/wiki/English_words_with_uncommon_properties
आप नियमों है कि इन 'असामान्य गुण' के साथ कुछ भी अस्वीकार एक प्रणाली है कि सबसे वास्तविक शब्द

स्रोत

2010-01-03 13:04:59

हालांकि मैं आम तौर पर shoosh के जवाब से सहमत स्वीकार करता है निर्माण करने के लिए कर सकते हैं, अपने दृष्टिकोण यह आसान प्राप्त करने के लिए बनाता है उच्च याद, लेकिन कम परिशुद्धता, यानी आपको लगभग सभी वास्तविक शब्द मिलेंगे लेकिन बहुत सारे शब्द भी होंगे। यदि शब्द की आपकी परिभाषा बहुत ही सीमित है, तो यह दूसरी तरफ है, लेकिन यह तब भी नहीं है जब आप चाहते हैं तो आप 'zebra123' जैसे मामलों को याद करेंगे।

यह के बारे में अगर आप यह समझ सकते हैं क्या एक ईमेल के कुछ हिस्सों मुख्य पाठ के हैं और जो पीजीपी हस्ताक्षर की तरह पाद हैं worthwile सोच हो सकता है: तो यहाँ कैसे परिशुद्धता में सुधार करने के बारे में कुछ विचार कर रहे हैं। मुझे यकीन है कि कुछ साधारण ह्यूरिस्टिक्स ढूंढना संभव है जो ज्यादातर मामलों से मेल खाते हैं, उदा। एक रेखा के नीचे सबकुछ काट जिसमें केवल '-'-वर्ण' होते हैं।
अपने प्रदर्शन मानदंडों के आधार पर आप यह जांचना चाहेंगे कि कोई शब्द वास्तविक शब्द है या एक साधारण शब्द सूची के विरुद्ध मिलान करके वास्तविक शब्द है या नहीं। वेब पर Englisch शब्दों की काफी विस्तृत सूचियां ढूंढना आसान है, और आप बड़े और साफ टेक्स्ट कॉर्पस से शब्दों को निकालने के द्वारा खुद को संकलित भी कर सकते हैं।
एक व्याख्यात्मक विश्लेषक का उपयोग करके, आप प्रत्येक टोकन को फ़िल्टर कर सकते हैं जिसे अज्ञात के रूप में चिह्नित किया गया है।
कुछ सरल आंकड़े बता सकते हैं कि यह कितना संभव है कि कुछ शब्द है। टोकन जो उच्च आवृत्ति के साथ होते हैं शायद वे शब्द होते हैं। टोकन जो केवल एक बार दिखाई देते हैं या जिनकी संख्या एक निश्चित दहलीज से नीचे है, शायद वे शब्द नहीं हैं। सामान्य वर्तनी त्रुटियों को एक से अधिक बार प्रकट होना चाहिए और असामान्य लोगों को अनदेखा किया जा सकता है।

कुछ अगर ये सुझाव स्पष्ट रूप से 'zebra123' जैसे मामलों के लिए काम नहीं करते हैं। दोबारा, बस शब्दों को अलग करना, या विभाजित करना, चाल संख्याएं चाल कर सकती हैं।

मेरा सामान्य दृष्टिकोण सबसे पहले टोकन की पहचान करना होगा जो निश्चित रूप से शब्द हैं (ऊपर दिए गए सुझावों का उपयोग करके), फिर टोकन की पहचान करें जो निश्चित रूप से शब्द नहीं हैं (नियमित अभिव्यक्ति का उपयोग करके), और फिर कुछ (अपनी आंखों के साथ) देखें इन्हें अलग से संभालने के लिए सामान्य विशेषताओं को खोजने के लिए सौ या हजार शेष टोकन।

स्रोत

2010-01-04 08:39:49 ferdystschenko

गैर-शब्द टोकन वाले टेक्स्ट में शब्दों को कैसे पहचानें?

उत्तर

संबंधित मुद्दे