2008-10-07 13 views
19

नॉलेज बेस (उदाहरण के लिए) में आलेखों का डेटाबेस विकसित करते समय - उपयोगकर्ताओं के प्रश्न के सबसे प्रासंगिक उत्तरों को क्रमबद्ध और प्रदर्शित करने के सर्वोत्तम तरीके क्या हैं?खोज रैंकिंग/प्रासंगिकता एल्गोरिदम

क्या आप अतिरिक्त डेटा जैसे कीवर्ड वेटिंग का उपयोग करते हैं, इस पर आधारित है कि पिछले उपयोगकर्ताओं को सहायता का आलेख मिला है या क्या आपको पर्याप्त कीवर्ड मिलान करने वाला एल्गोरिदम पर्याप्त है?

उत्तर

2

यह एक कठिन सवाल है, और Google जैसी कंपनियां इस प्रश्न को हल करने के लिए बहुत सारे प्रयासों को दबा रही हैं। Google Enterprise Search Appliance या Exalead Enterprise Search पर एक नज़र डालें।

फिर, व्यक्तिगत राय के रूप में, मुझे नहीं लगता कि किसी भी "बेवकूफ" दृष्टिकोण दस्तावेजों पर विचारों की संख्या से निष्पक्ष कीवर्ड खोज और ऑर्डरिंग की तुलना में परिणाम में सुधार करने जा रहा है।

यदि आपके पास वेब पर अपना ज्ञान आधार बेनकाब करने की संभावना है, तो बस इसे करें, और अपने पसंदीदा खोज इंजन को आपके लिए खोज को संभालने दें। के रूप में Joannes कहना खोज

0

कीवर्ड मिलान नहीं पर्याप्त जब सवालों से निपटने के लिए, आप मंशा समझने की जरूरत है, है। ऐसी कई तकनीकें हैं जिनका आप उपयोग कर सकते हैं। इनमें से कई डेटा के अन्य टुकड़ों द्वारा संचालित होते हैं। आप निश्चित रूप से Lucene का उपयोग कर सकते हैं और अपनी खुद की अनुक्रमणिका बना सकते हैं। ल्यूसीन के लिए कई भाषाओं के लिए बाइंडिंग हैं। वहां जाकर Solr प्रोजेक्ट भी है जो ल्यूसीन के आसपास कई टूल और अतिरिक्त कार्यक्षमता के साथ है। जो आप खोज रहे हैं उसके साथ यह और भी हो सकता है।

इरादा मुश्किल है और अधिकांश आधुनिक खोज इंजन परिणामों के क्रम में सहायता के लिए सांख्यिकीय मंशा पर भरोसा करते हैं। आप हमेशा इस आलेख को उपयोगी बटन प्राप्त कर सकते हैं और क्वेरी टेक्स्ट स्टोर कर सकते हैं जो उपयोगी दस्तावेज़ों की ओर जाता है। इसके बाद आप विशिष्ट शब्दों या वाक्यांशों को बढ़ावा देने के लिए सूचकांक में जानकारी की एक परत जोड़ सकते हैं और उन्हें कुछ दस्तावेज़ों को इंगित करने में मदद कर सकते हैं।

कुछ चीजों के बारे में सोचने के लिए ... कितने दस्तावेज़? औसत लंबाई क्या है? क्या वे अक्सर अद्यतन होते हैं? दस्तावेज़ दस्तावेजों के साथ क्या करते हैं? दस्तावेजों के लिए अद्वितीय शब्दों का प्रसार कैसा दिखता है? (सामान्य अनन्य विशेषताओं के आधार पर एक विशिष्ट दस्तावेज़ (ओं) के साथ एक क्वेरी से मेल करना आसान है।)

यदि यह वेब पर है तो आप हमेशा एक Google कस्टम सर्च इंजन बना सकते हैं जो आपकी साइट को खोजता है हालांकि आप यह कई कारणों से उप-इष्टतम हो सकता है।

आप हमेशा एक साधारण सूचकांक से शुरू कर सकते हैं और धीरे-धीरे उपयोगकर्ताओं के साथ बात करके और डेटा कैप्चर करके इसे अधिक परिष्कृत बना सकते हैं।

2

में एक बहुत गर्म विषय अपने सटीक समस्या का एक छोटे से अधिक विशिष्टता अच्छा होगा

10

शायद सबसे आसान और सबसे अनुभवहीन दृष्टिकोण दे देंगे कि तुरंत उपयोगी परिणाम *tf-idf लागू करने के लिए होगा: tf-आईडीएफ भार योजना के

बदलाव अक्सर स्कोरिंग में एक केंद्रीय उपकरण के रूप में खोज इंजन द्वारा उपयोग किया जाता है और किसी उपयोगकर्ता की क्वेरी के अनुसार किसी दस्तावेज़ की प्रासंगिकता को रैंकिंग करना। टीएफ-आईडीएफ का सफलतापूर्वक पाठ सारांशकरण और वर्गीकरण समेत विभिन्न विषय क्षेत्रों में स्टॉप-शब्द फ़िल्टरिंग के लिए उपयोग किया जा सकता है।

मेरा एक हाल ही में संबंधित सवाल में यहाँ मैं इस विषय पर एक उत्कृष्ट मुक्त पुस्तक है जो आप डाउनलोड या पढ़ सकते हैं ऑनलाइन का पता चला:

An Introduction to Information Retrieval

1

मैं कोण यहाँ लगता है पुनर्प्राप्ति स्वयं नहीं है ... इसे पुनर्प्राप्त जानकारी की एक रिलीज (एक और प्रतिक्रियाशील और निष्क्रिय दृष्टिकोण) को स्कोर करने के बारे में है जिसे बाद में खोज इंजन में सुधार के लिए उपयोग किया जा सकता है।

मुझे लगता है कि आप की कोशिश कर सकते हैं -

  1. इन पुनः प्राप्त जानकारी एक relevency टैगिंग जानकारी पुन: प्राप्त

  2. हाथ के लिए tfidf पर KNN

  3. स्कोर फिर एक के लिए स्कोर भविष्यवाणी करने के लिए कि स्कोर निकासी अनजान खोज परिणाम और इसे सॉर्ट करें।

बस एक सोचा ...

तीसरा बिंदु वास्तव में Rocchio एल्गोरिथ्म पर आधारित है। आप इसे देख सकते हैं here