2012-11-13 52 views
7

मेरे पास है पर ध्यान नहीं देता दो निम्नलिखित DTM-s:आर DocumentTermMatrix नियंत्रण सूची से काम नहीं कर, चुपचाप अज्ञात मापदंडों

dtm <- DocumentTermMatrix(t) 

dtmImproved <- DocumentTermMatrix(t, 
       control=list(minWordLength = 4, minDocFreq=5)) 

जब मैं यह लागू, मैं देख रहा हूँ दो बराबर DTM-एस और अगर मैं dtmImproved खोलते हैं, तो देखते हैं 3 प्रतीकों के साथ शब्द। minWordLength पैरामीटर क्यों काम नहीं करता है? धन्यवाद!

> dtm 
A document-term matrix (591 documents, 10533 terms) 

Non-/sparse entries: 43058/6181945 
Sparsity   : 99% 
Maximal term length: 135 
Weighting   : term frequency (tf) 
> dtmImproved 
A document-term matrix (591 documents, 10533 terms) 

Non-/sparse entries: 43058/6181945 
Sparsity   : 99% 
Maximal term length: 135 
Weighting   : term frequency (tf) 
+0

इसके अलावा, जब मैं में कुछ भी जोड़ने "सूची (...)" कुछ नहीं होता, कोई चेतावनी वरना sth –

उत्तर

23
dtmImproved <- DocumentTermMatrix(t, control=list(wordLengths=c(4, 15), 
            bounds = list(global = c(5,Inf)))) 

यह समस्या हल करती है! उचित दस्तावेज़ीकरण की कमी वास्तव में मुझे नीचे लाती है (:

+1

कौन सा के संस्करण 'tm' प्रयोग कर रहे हैं। 'TermDocumentMatrix' के लिए सहायता वैश्विक विकल्पों को निर्धारित करती है और स्थानीय विकल्पों को एक लिंक देती है। 'minWordLength' को कभी भी एक विकल्प के रूप में सूचीबद्ध नहीं किया गया है, लेकिन 'शब्द लम्बाई' का विस्तार से वर्णन किया गया है। प्रलेखन अच्छी तरह लिखित और पालन करने में आसान प्रतीत होता है। – mnel

+0

हाँ, वह मदद करने वाला था, दुर्भाग्य से गुगलिंग से नहीं मिला, लेकिन यह मेरी गलती की तरह है) –

+1

@mnel: यह चुपचाप किसी भी पैरामीटर को अनदेखा करता है जिसे पहचान नहीं है, यहां तक ​​कि उदा। '(नियंत्रण = सूची (सीमाएं = सूची (सी (0, आईईएफ))) '' के बजाय '(नियंत्रण = सूची (सीमाएं = सूची (वैश्विक = सी (0, इंफ)))'। यह एक बड़ा दर्द है। क्या आपने लापता लेबल 'ग्लोबल' को खोजा था? मैंने नहीं किया ... – smci

0

यदि उपलब्ध हो तो स्रोत कोड को पढ़ना हमेशा अच्छा विचार है। वर्डक्लाउड फ़ंक्शन @ गीटहब का स्रोत कोड पढ़ें, यह कहता है:
# लेखक :
.....
ianfellows अगर (min.freq> अधिकतम (freq))
min.freq < - 0

अपने DocumentTermMatrix

तो, एक अधिकतम (freq) लौटे < min.freq बाध्य है कि आप सेट करते हैं, यानी आपके द्वारा सेट किए गए min.freq बाध्य से अधिक शर्तों में से कोई भी नहीं दिखाई देता है।

आशा इस मदद करता है MJJ