मैं मैलेट 2.0.7 के साथ एलडीए विषय मॉडलिंग करने की कोशिश कर रहा हूं। मैं एक एलडीए मॉडल को प्रशिक्षित कर सकता हूं और प्रशिक्षण सत्र से आउटपुट के आधार पर अच्छे नतीजे प्राप्त कर सकता हूं। इसके अलावा, मैं उस प्रक्रिया में निर्मित इंफ्रेंसर का उपयोग कर सकता हूं और मेरी प्रशिक्षण फ़ाइल को फिर से संसाधित करते समय समान परिणाम प्राप्त कर सकता हूं। हालांकि, अगर मैं बड़े प्रशिक्षण सेट से एक व्यक्तिगत फाइल लेता हूं, और इसे इंफ्रेंसर के साथ संसाधित करता हूं तो मुझे बहुत अलग परिणाम मिलते हैं, जो अच्छे नहीं होते हैं।दस्तावेज़ों के एकल और बैच के लिए MALLET विषय अनुमान के साथ अलग-अलग परिणाम क्यों प्राप्त हो रहे हैं?
मेरी समझ यह है कि इनफ्रेंसर को एक निश्चित मॉडल का उपयोग करना चाहिए, और केवल उस दस्तावेज़ के लिए स्थानीय सुविधाएं हैं, इसलिए मुझे समझ में नहीं आता कि मुझे 1 फ़ाइल या 1k को अपने प्रशिक्षण सेट से 1k संसाधित करते समय कोई अलग परिणाम क्यों मिलेगा। मैं फ्रीक्वेंसी कटऑफ नहीं कर रहा हूं जो एक वैश्विक ऑपरेशन प्रतीत होता है जिसके इस प्रकार का असर होगा। आप नीचे दिए गए आदेशों में उपयोग कर रहे अन्य पैरामीटर देख सकते हैं, लेकिन वे अधिकतर डिफ़ॉल्ट हैं। 0 या 100 के पुनरावृत्तियों में से # को बदलने से मदद नहीं मिली।
आयात डेटा:
bin/mallet import-dir \
--input trainingDataDir \
--output train.data \
--remove-stopwords TRUE \
--keep-sequence TRUE \
--gram-sizes 1,2 \
--keep-sequence-bigrams TRUE
ट्रेन:
time ../bin/mallet train-topics
--input ../train.data \
--inferencer-filename lda-inferencer-model.mallet \
--num-top-words 50 \
--num-topics 100 \
--num-threads 3 \
--num-iterations 100 \
--doc-topics-threshold 0.1 \
--output-topic-keys topic-keys.txt \
--output-doc-topics doc-topics.txt
विषय विशेष रूप से एक फाइल करने के लिए प्रशिक्षण के दौरान सौंपा, # 14 शराब जो सही है के बारे में है:
998 file:/.../29708933509685249 14 0.31684981684981683
> grep "^14\t" topic-keys.txt
14 0.5 wine spray cooking car climate top wines place live honey sticking ice prevent collection market hole climate_change winery tasting california moldova vegas horses converted paper key weather farmers_market farmers displayed wd freezing winter trouble mexico morning spring earth round mici torrey_pines barbara kinda nonstick grass slide tree exciting lots
भागो पूरे ट्रेन बैच पर अनुमान:
../bin/mallet infer-topics \
--input ../train.data \
--inferencer lda-inferencer-model.mallet \
--output-doc-topics inf-train.1 \
--num-iterations 100
ट्रेन पर
निष्कर्ष स्कोर - बहुत समान:
998 /.../29708933509685249 14 0.37505087505087503
केवल कि 1 txt फ़ाइल के शामिल एक और प्रशिक्षण डेटा फ़ाइल पर भागो निष्कर्ष:
../bin/mallet infer-topics \
--input ../one.data \
--inferencer lda-inferencer-model.mallet \
--output-doc-topics inf-one.2 \
--num-iterations 100
निष्कर्ष एक दस्तावेज़ पर विषय 80 का उत्पादन और 36, जो बहुत अलग हैं (14 0 स्कोर के पास दिए गए हैं):
0 /.../29708933509685249 80 0.3184778184778185 36 0.19067969067969068
> grep "^80\t" topic-keys.txt
80 0.5 tips dog care pet safety items read policy safe offer pay avoid stay important privacy services ebay selling terms person meeting warning poster message agree sellers animals public agree_terms follow pets payment fraud made privacy_policy send description puppy emailed clicking safety_tips read_safety safe_read stay_safe services_stay payment_services transaction_payment offer_transaction classifieds_offer