सीधे अपने प्रश्न का उत्तर देते हुए, आप यह जांचकर शुरू करते हैं कि दिया गया टोकन संख्यात्मक, अल्फान्यूमेरिक या वर्णमाला है (आप यहां रेगेक्स का उपयोग कर सकते हैं) और फिर आप इसे वर्गीकृत करते हैं। आम तौर पर, जिस दृष्टिकोण को आप ढूंढ रहे हैं उसे टोकन या पदानुक्रमित विशेषता चयन (Google इसे) के सामान्यीकरण पदानुक्रम कहा जाता है। मूल विचार यह है कि आप प्रत्येक टोकन को एक अलग तत्व के रूप में देख सकते हैं, लेकिन यह सबसे अच्छा तरीका नहीं है क्योंकि आप उन्हें सभी [*] को कवर नहीं कर सकते हैं। इसके बजाए, आप टोकन के बीच सामान्य विशेषताओं का उपयोग करते हैं (उदाहरण के लिए, 2000
और 1981
अलग टोकन हैं लेकिन वे 4 अंकों की संख्या और संभवतः वर्षों की एक सामान्य विशेषता साझा करते हैं)।फिर आपके पास चार अंक संख्याओं के लिए एक वर्ग है, दूसरा अल्फान्यूमेरिक के लिए, और इसी तरह। सामान्यीकरण की यह प्रक्रिया आपको अपने वर्गीकरण दृष्टिकोण को सरल बनाने में मदद करती है।
अक्सर, यदि आप टोकन की एक स्ट्रिंग के साथ शुरू करते हैं, तो आपको उन्हें प्रीप्रोसेस करना होगा (उदाहरण के लिए, विराम चिह्न या विशेष प्रतीकों को हटाएं, उन शब्दों को हटाएं जो प्रासंगिक नहीं हैं, स्टेमिंग आदि)। लेकिन हो सकता है कि आप कुछ प्रतीकों का उपयोग कर सकें (कहें, शहरों और देशों के बीच विराम चिह्न - उदाहरण के लिए Melbourne, Australia
), इसलिए आप अन्य प्रतीक (#
) पर उपयोगी विराम चिह्नों के सेट को असाइन करते हैं और इसे संदर्भ के रूप में उपयोग करते हैं (इसलिए अगली बार जब आप अज्ञात पाते हैं एक ज्ञात देश के बगल में एक अल्पविराम के बगल में शब्द, आप यह ज्ञान मान सकते हैं कि अज्ञात शब्द एक शहर है।
वैसे भी, यह एक ऑटोलॉजी (शर्तों की वर्गीकरण के आधार पर) वर्गीकरण के पीछे सामान्य विचार है। तुम भी part-of-speech tagging के बारे में पढ़ सकते हैं।
वैसे, अगर आप केवल 3 श्रेणियों (संख्यात्मक, अक्षरांकीय, वर्णमाला), एक व्यवहार्य विकल्प edit distance उपयोग करने के लिए (क्या अधिक होने की संभावना है कि UA4E30 संबंधित है होगा करना चाहते हैं एस अल्फान्यूमेरिक या न्यूमेरिक श्रेणी में, यह मानते हुए कि यह प्रीफिक्स्ड न्यूमेरिक तारों के पारंपरिक प्रारूप से मेल नहीं खाता है?)। तो, आप प्रत्येक ऑपरेशन (सम्मिलन, हटाना, प्रतिस्थापन) के लिए एक लागत मानते हैं जो आपके अज्ञात टोकन को किसी ज्ञात में बदल देता है।
अंत में, हालांकि आपने कहा है कि आप अपने ऑटोलॉजी बनाने के लिए प्रोटेज (जिसका उपयोग नहीं किया है) का उपयोग कर रहे हैं, तो आप WordNet देख सकते हैं।
[*] संभाव्य दृष्टिकोण हैं जो अज्ञात टोकन के लिए संभावना निर्धारित करने में आपकी सहायता करते हैं, इसलिए ऐसी घटना की संभावना शून्य नहीं है। आमतौर पर, यह छिपे हुए मार्कोव मॉडल के संदर्भ में किया जाता है। असल में, यह etov द्वारा दिए गए सुझाव को बेहतर बनाने के लिए उपयोगी हो सकता है।
एक स्ट्रिंग शहर का नाम और देश का नाम दोनों हो सकता है (अच्छी तरह से, अवधारणात्मक रूप से अब तक दिए गए तथ्यों पर आधारित)। एक ऑन्टोलॉजी को एकल विरासत की आवश्यकता नहीं होती है। –