nutch

    8गर्मी

    5उत्तर

    मैं नच और हडूप के साथ कुछ परीक्षण कर रहा हूं और मुझे बड़ी मात्रा में डेटा चाहिए। मैं 20 जीबी के साथ शुरू करना चाहता हूं, 100 जीबी, 500 जीबी पर जाएं और अंततः 1-2 टीबी तक पहुंचें। समस्या यह है कि मेरे प

    5गर्मी

    1उत्तर

    डेटा पढ़ने और जोड़ने के बाद मैंने हाल ही में अपाचे नच को देखना शुरू कर दिया। मैं नच के साथ अपनी रुचि के वेब पृष्ठों को क्रॉल करने और सक्षम करने में सक्षम हो सकता था। मुझे इस डेटा को पढ़ने के तरीके पर

    6गर्मी

    1उत्तर

    सेट करने के लिए मैं सिचविन के साथ नच चलाने की कोशिश कर रहा हूं। मुझे JAVA_HOME सेट करने में समस्याएं आ रही हैं। $ export JAVA_HOME='/cygdrive/f/program files/java/jdk1.6.0_21' जब मैं Nutch आदेश $ bi

    10गर्मी

    1उत्तर

    मैं आलेखों को पकड़ने के लिए एक ढांचे की तलाश में हूं, फिर मुझे नच 2.1 मिल गया। यहाँ प्रत्येक में मेरी योजना और सवाल है: यूआरएल में लेख सूची पृष्ठों जोड़ें/seed.txt यहाँ एक समस्या है। जो मैं वास्तव में

    6गर्मी

    2उत्तर

    मैं खिड़कियों वातावरण लेकिन हर बार मैं इस साइट Nutch Tuorial Apache में दी गई प्रक्रिया मैं हमेशा निम्न अपवादों के साथ अंत के अनुसार चलाने की कोशिश से Nutch 1.6 उपयोग करने के लिए कोशिश कर रहा हूँ: Exc

    8गर्मी

    1उत्तर

    मैं अपाचे नच 2.1 के साथ कुछ साइट क्रॉल करता हूं। क्रॉल करते समय मुझे कई पेजों पर निम्न संदेश दिखाई देता है: पूर्व। http://www.domainname.com/news/subcategory/111111/index.html छोड़ना; अलग बैच आईडी (शू

    6गर्मी

    2उत्तर

    क्या bin/nutch solrindex कमांड में पैरामीटर है जो इंगित करने के लिए कि कौन सा सोलर कोर इंडेक्स है?

    8गर्मी

    1उत्तर

    द्वारा क्रॉल किए गए सोलर डेटा में अनुक्रमण करते समय त्रुटि मैंने नच और सोलर के साथ काम करना शुरू कर दिया है और मुझे नच के साथ सोलर को एकीकृत करने में समस्या है। http://wiki.apache.org/nutch/NutchTutor

    6गर्मी

    1उत्तर

    मैं Nutch का उपयोग शुरू कर दिया है और सब कुछ ठीक था, जब तक मैं एक IOException अपवाद का सामना करना पड़ा, $ ./nutch crawl urls -dir myCrawl -depth 2 -topN 4 cygpath: can't convert empty path solrUrl i

    5गर्मी

    2उत्तर

    में सभी लिंक क्रॉल नहीं करता है मुझे अपनी साइट को क्रॉल करने में समस्या है ... दो ड्रॉप-डाउन सूचियों वाला एक रूप है .... और जब मैं क्रॉल करना शुरू करता हूं, क्रॉलर केवल फ़ॉर्म से लिंक का हिस्सा लेता ह