में एन-ग्राम आवृत्ति की गणना करना मेरे पास निम्न कोड है। मुझे पता है कि मैं आवृत्ति गणना से कम कोलेक्शन को फ़िल्टर करने के लिए apply_freq_filter
फ़ंक्शन का उपयोग कर सकता हूं। हालांकि, मुझे नहीं पता कि एक दस्तावेज में सभी एन-ग्राम टुपल्स (मेरे मामले में द्वि-ग्राम) की आवृत्तियों को कैसे प्राप्त किया जाए, इससे पहले कि मैं तय करता हूं कि फ़िल्टरिंग के लिए कौन सी आवृत्ति सेट की गई है। जैसा कि आप देख सकते हैं कि मैं nltk collocations क्लास का उपयोग कर रहा हूं।पाइथन nltk
import nltk
from nltk.collocations import *
line = ""
open_file = open('a_text_file','r')
for val in open_file:
line += val
tokens = line.split()
bigram_measures = nltk.collocations.BigramAssocMeasures()
finder = BigramCollocationFinder.from_words(tokens)
finder.apply_freq_filter(3)
print finder.nbest(bigram_measures.pmi, 100)
आप 'finder.ngram_fd.viewitems की कोशिश की है()'? –
धन्यवाद finder.ngram_fd.viewitems() काम करता है! – Rkz