पर पीसीए लागू करें मैं आर के साथ एक टेक्स्ट वर्गीकरण कार्य कर रहा हूं, और मुझे 120,000 तक आकार 224 9 0 (केवल 4 मिलियन गैर-शून्य प्रविष्टियां, 1% प्रविष्टियों से कम) के साथ एक दस्तावेज़-अवधि मैट्रिक्स प्राप्त होता है। अब मैं पीसीए (प्रिंसिपल कंपोनेंट एनालिसिस) का उपयोग करके आयाम को कम करना चाहता हूं। दुर्भाग्यवश, आर इस विशाल मैट्रिक्स को संभाल नहीं सकता है, इसलिए मैं पीसीए करने के लिए कुछ अन्य तकनीकों का उपयोग करने की उम्मीद करते हुए, "मैट्रिक्स मार्केट फॉर्मेट" में एक फ़ाइल में इस स्पैर मैट्रिक्स को स्टोर करता हूं।बहुत बड़े स्पैस मैट्रिक्स
तो किसी को भी मुझे उपयोगी पुस्तकालयों के लिए कुछ संकेत (जो भी प्रोग्रामिंग भाषा) है, जो आसानी से इस बड़े पैमाने पर मैट्रिक्स के साथ पीसीए कर सकता है, या अपने आप के द्वारा एक पूरे अक्षरों में लिखावट पीसीए कर दूसरे शब्दों में,, गणना दे सकता है पहले covariance मैट्रिक्स, और फिर covariance मैट्रिक्स के लिए eigenvalues और eigenvectors की गणना।
क्या मैं चाहता हूँ calculate सभी पीसी (120,000) के लिए केवल शीर्ष N पीसी, जो 90% विचरण के लिए खातों है, और चुनें। जाहिर है, इस मामले में, मुझे कुछ बहुत ही भिन्न भिन्नता मानों को 0 (कोविरेन्स मैट्रिक्स में) सेट करने के लिए एक थ्रेसहोल्ड देना होगा, अन्यथा, कॉन्वर्सिस मैट्रिक्स स्पैस नहीं होगा और इसका आकार 120,000 तक 120,000 होगा, जो कि है एक मशीन के साथ संभालना असंभव है। इसके अलावा, लोडिंग (eigenvectors) बहुत बड़ा होगा, और स्पैस प्रारूप में संग्रहीत किया जाना चाहिए।
किसी भी मदद के लिए बहुत बहुत धन्यवाद!
नोट: मैं 24 जीबी रैम और 8 सीपीयू कोर के साथ एक मशीन का उपयोग कर रहा हूं।
मुझे यकीन नहीं है कि यह 100% सही है, लेकिन मुझे लगता है कि मैटलैब नौकरी कर सकता है। – Anton
यदि आपको यहां कोई खुशी नहीं मिलती है, तो http://stats.stackexchange.com/ – NPE
@aix पर पूछने के लायक हो सकता है आपकी सलाह के लिए धन्यवाद, मैंने इसे कम्प्यूटेशनल साइंस बीटा में ले जाया है, और कुछ उपयोगी पाएं संकेत। आप इस [यूआरएल] पर भी इसका अनुसरण कर सकते हैं (http://scicomp.stackexchange.com/questions/2313/apply-pca-on-very-large-sparse-matrix) –