मैंने एक दस्तावेज़TermMatrix बनाया है जिसमें 185 9 दस्तावेज़ (पंक्तियां) और 25722 (कॉलम) शामिल हैं। इस मैट्रिक्स पर और गणना करने के लिए मुझे इसे नियमित मैट्रिक्स में बदलने की आवश्यकता है। मैं as.matrix()
कमांड का उपयोग करना चाहता हूं। हालांकि, यह निम्न त्रुटि देता है: आकार 364.8 एमबी के वेक्टर आवंटित नहीं कर सकता है।टीएम पैकेज त्रुटि "वेक्टर बहुत बड़ा है, इसलिए वेक्टर टर्ममैट्रिक्स को सामान्य मैट्रिक्स में परिवर्तित नहीं कर सकते हैं"
> corp
A corpus with 1859 text documents
> mat<-DocumentTermMatrix(corp)
> dim(mat)
[1] 1859 25722
> is(mat)
[1] "DocumentTermMatrix"
> mat2<-as.matrix(mat)
Fehler: kann Vektor der Größe 364.8 MB nicht allozieren # cannot allocate vector of size 364.8 MB
> object.size(mat)
5502000 bytes
किसी कारण से ऑब्जेक्ट का आकार नाटकीय रूप से बढ़ता प्रतीत होता है जब भी यह नियमित मैट्रिक्स में परिवर्तित हो जाता है। इससे कैसे बचा जा सकता है?
या क्या DocumentTermMatrix पर नियमित मैट्रिक्स संचालन करने का कोई वैकल्पिक तरीका है?
त्वरित उत्तर के लिए धन्यवाद की कोशिश की है। दुर्भाग्यवश स्पैर्सएम ऐसा प्रतीत नहीं होता है कि यह मददगार होगा क्योंकि मुझे लाइनों की प्रत्येक जोड़ी के बीच जैककार्ड समानता की गणना करने की आवश्यकता है। मैं vegan पैकेज से vegdist() फ़ंक्शन का उपयोग कर ऐसा करता हूं। यह एक स्पैर मैट्रिक्स पर काम नहीं करता है। – Christian