मैंने एक पेपर पढ़ा है जो वर्गीकरण के लिए सुविधा के रूप में ngram गणना का उपयोग करता है, और मैं सोच रहा था कि इसका क्या अर्थ है।एनजीआरके का उपयोग करके एनजीआरएम गणना और कार्यान्वयन कैसे करें?
उदाहरण पाठ: यह पाठ है, जहां मैं परिभाषित करने के लिए है से बाहर "Lorem Ipsum मातम AMET बैठते हैं, consetetur sadipscing elitr, SED व्यास"
मैं unigrams बना सकते हैं, Bigrams, Trigrams, आदि जो "स्तर पर "इन unigrams बनाने के लिए। "स्तर" चरित्र, अक्षर, शब्द, ...
तो ऊपर दिए गए वाक्य से यूनिग्राम बनाने से बस सभी शब्दों की एक सूची बनाई जाएगी?
बिग्राम बनाने के परिणामस्वरूप शब्द जोड़े एक दूसरे को अनुसरण करने वाले शब्दों को एक साथ लाएंगे?
तो अगर पेपर एनजीआरएम मायने रखता है, तो यह टेक्स्ट से बाहर यूनिग्राम, बिग्राम, ट्रिग्राम इत्यादि बनाता है, और यह गणना करता है कि कितनी बार ngram होता है?
क्या Python के nltk पैकेज में कोई मौजूदा विधि है? या क्या मुझे अपने संस्करण को लागू करना है?
तुम्हारा एक आम व्याख्या है देता है, लेकिन "ग्राम" इकाई हो सकता है जैसे बाइट्स या अक्षर भी। तो यदि आप एक स्लाइडिंग विंडो का उपयोग करते हैं तो "लोरेम" का चरित्र 3-ग्राम "लॉर" और "एम" या यहां तक कि "लॉर", "अयस्क", "रीम" हो सकता है। – tripleee