पर एक वैकल्पिक वेब क्रॉलर मैं एक विशेष खोज इंजन वेबसाइट बनाने की कोशिश कर रहा हूं जो सीमित संख्या में वेब साइटों को अनुक्रमणित करता है। समाधान मैं के साथ आया है:नच
- Nutch वेब क्रॉलर के रूप में उपयोग करते हुए,
- Solr खोज इंजन के रूप में उपयोग,
- सामने के अंत और साइट पर तर्क विकेट के साथ कोडित है।
समस्या यह है कि मुझे नच काफी जटिल लगता है और यह एक विस्तृत दस्तावेज (किताबें, हालिया ट्यूटोरियल .. आदि) मौजूद नहीं है, इस तथ्य के बावजूद यह अनुकूलित करने के लिए सॉफ्टवेयर का एक बड़ा टुकड़ा है।
अब सवाल:
- साइट के छेद विचार के बारे में कोई रचनात्मक आलोचना?
- क्या नच के लिए एक अच्छा अभी तक आसान विकल्प है (साइट के क्रॉलिंग हिस्से के रूप में)?
धन्यवाद
सालों से हमने eveything की कोशिश की है: नच, हेरिट्रिक्स, तूफान क्रॉलर, क्रॉलर 4j, हमारे अपने घर में क्रॉलर ...हालांकि, वहां केवल एक ही वास्तव में प्रभावशाली विकल्प है कि हमारी पूरी टीम द्वारा शपथ ली जाती है: मिक्सोड। –