के बीच कोसाइन समानता की कुशलतापूर्वक गणना कैसे करें मुझे सूची में तारों के बीच कोसाइन समानता की गणना करने की आवश्यकता है। उदाहरण के लिए, मेरे पास 10 मिलियन से अधिक तारों की एक सूची है, प्रत्येक स्ट्रिंग को सूची में स्वयं और हर दूसरे स्ट्रिंग के बीच समानता निर्धारित करना है। इस तरह के कार्य को कुशलतापूर्वक और तेज़ी से करने के लिए मैं सबसे अच्छा एल्गोरिदम क्या उपयोग कर सकता हूं? विभाजन और एल्गोरिदम जीत लागू है?लाखों तारों
संपादित
मैं जो निर्धारित तार एक दिया स्ट्रिंग के लिए सबसे समान हैं और समानता के साथ जुड़े एक उपाय/स्कोर करने में सक्षम होना चाहता हूँ। मुझे लगता है कि मैं जो करना चाहता हूं वह क्लस्टरिंग के साथ आता है जहां क्लस्टर की संख्या शुरू में नहीं जाती है।
आपकी समस्या की परिभाषा के अनुसार, आपके पास कोसाइन समानता गणना के ओ (एन²) निष्पादन की जटिलता होगी। – Xion345
@ Xion345 हां, क्या यह इतना बड़ा डेटा के लिए स्वीकार्य है? मुझे नहीं लगता कि यह – Kennedy
है जिसके लिए आपको गतिशील प्रोग्रामिंग नियोजित करना है। देखें *** [यह] (http://en.wikipedia.org/wiki/Approximate_string_matching) *** लिंक –