मैं शब्द आवृत्तियों को गिनने के लिए अपनी परियोजना को तेज़ करने की कोशिश कर रहा हूं। मेरे पास 360+ टेक्स्ट फाइलें हैं, और मुझे शब्दों की कुल संख्या और शब्दों की दूसरी सूची से प्रत्येक शब्द की संख्या प्राप्त करने की आवश्यकता है। मुझे पता है कि यह एक पाठ फ़ाइल के साथ कैसे करें।पायथन - टेक्स्ट फ़ाइल में शब्दों की सूची की शब्द आवृत्तियों को ढूंढना
>>> import nltk
>>> import os
>>> os.chdir("C:\Users\Cameron\Desktop\PDF-to-txt")
>>> filename="1976.03.txt"
>>> textfile=open(filename,"r")
>>> inputString=textfile.read()
>>> word_list=re.split('\s+',file(filename).read().lower())
>>> print 'Words in text:', len(word_list)
#spits out number of words in the textfile
>>> word_list.count('inflation')
#spits out number of times 'inflation' occurs in the textfile
>>>word_list.count('jobs')
>>>word_list.count('output')
'मुद्रास्फीति', 'नौकरियां', 'आउटपुट' व्यक्ति की आवृत्तियों को प्राप्त करने के लिए यह बहुत कठिन है। क्या मैं इन शब्दों को एक सूची में डाल सकता हूं और एक ही समय में सूची में सभी शब्दों की आवृत्ति पा सकता हूं? पाइथन के साथ मूल रूप से this।
उदाहरण: इस के बजाय:
>>> word_list.count('inflation')
3
>>> word_list.count('jobs')
5
>>> word_list.count('output')
1
मैं ऐसा करना चाहते हैं (मैं जानता हूँ कि यह असली कोड नहीं है, यह है कि मैं क्या पर मदद के लिए पूछ रहा हूँ है):
>>> list1='inflation', 'jobs', 'output'
>>>word_list.count(list1)
'inflation', 'jobs', 'output'
3, 5, 1
शब्दों की मेरी सूची में 10-20 शब्द होने जा रहे हैं, इसलिए मुझे केवल पायथन को शब्दों की सूची की ओर ध्यान देने में सक्षम होना चाहिए। यह भी अच्छा होगा अगर उत्पादन स्तंभों के रूप में शब्दों और पंक्तियों
के रूप में आवृत्तियों के साथ एक एक्सेल स्प्रेडशीट में नकल हो + पेस्ट करने में सक्षम थाउदाहरण:
inflation, jobs, output
3, 5, 1
और अंत में, किसी को भी मदद कर सकते हैं के लिए इस को स्वचालित सभी टेक्स्टफाइल? मुझे लगता है कि मैं सिर्फ पायथन को फ़ोल्डर की ओर इंगित करता हूं और यह 360+ टेक्स्ट फ़ाइलों में से प्रत्येक के लिए नई सूची से उपर्युक्त शब्द को गिन सकता है। काफी आसान लगता है, लेकिन मैं थोड़ा फंस गया हूँ। कोई मदद?
इस प्रकार की उत्पादन शानदार होगा: Filename1 मुद्रास्फीति, रोजगार, उत्पादन 3, 5, 1
Filename2
inflation, jobs, output
7, 2, 4
Filename3
inflation, jobs, output
9, 3, 5
धन्यवाद!
मैं अब कई घंटों तक काउंटर के साथ बेवकूफ बनाना किया गया है, और अभी भी यह नहीं मिल सकता है। – CoS
उपरोक्त उदाहरण मुझे मेरे टेक्स्टफाइल (मेरे मामले में 3000 से अधिक अद्वितीय शब्द) के सभी अद्वितीय शब्दों का मिलान करने जा रहा है। मुझे केवल टेक्स्टफाइल में 10-20 विशिष्ट शब्दों के लिए टैली की आवश्यकता है। – CoS
मुझे लगता है कि सूची के लिए काम करेगा, बहुत धन्यवाद! मैंने काउंटर पेज पर घंटों के लिए घंटे – CoS