मैंने दो दस्तावेजों के टीएफ/आईडीएफ मूल्यों की गणना की।कोसाइन समानता
1.txt
0.0
0.5
2.txt
0.0
0.5
दस्तावेजों की तरह हैं:
1.txt = > dog cat
2.txt = > cat elephant
मैं इन मूल्यों का उपयोग कैसे कोज्या समानता की गणना कर सकते हैं निम्नलिखित tf/आईडीएफ मान रहे हैं?
मुझे पता है कि मुझे डॉट उत्पाद की गणना करनी चाहिए, फिर दूरी ढूंढें और इसके द्वारा डॉट उत्पाद को विभाजित करें। मैं अपने मूल्यों का उपयोग करके इसकी गणना कैसे कर सकता हूं?
एक और प्रश्न: क्या यह महत्वपूर्ण है कि दोनों दस्तावेज़ों में समान संख्या में शब्द हो?
def dot(a,b):
n = length(a)
sum = 0
for i in xrange(n):
sum += a[i] * b[i];
return sum
def norm(a):
n = length(a)
for i in xrange(n):
sum += a[i] * a[i]
return math.sqrt(sum)
def cossim(a,b):
return dot(a,b)/(norm(a) * norm(b))
हाँ:
में रुचि हो सकती इस अधिक http://mathoverflow.net के लिए उपयुक्त नहीं है /? –
इसकी एक सूचना पुनर्प्राप्ति कार्य है, कुछ शुद्ध गणित व्यक्ति –
पर ध्यान नहीं देगा कृपया mathoverflow.net की सिफारिश करना बंद करें - यह गंभीर गणितीय प्रश्नों के लिए है। –