डेटा पढ़ने और जोड़ने के बाद मैंने हाल ही में अपाचे नच को देखना शुरू कर दिया। मैं नच के साथ अपनी रुचि के वेब पृष्ठों को क्रॉल करने और सक्षम करने में सक्षम हो सकता था। मुझे इस डेटा को पढ़ने के तरीके पर काफी समझ नहीं है। मैं मूल रूप से प्रत्येक पृष्ठ के डेटा को कुछ मेटाडेटा (अब के लिए कुछ यादृच्छिक डेटा) से जोड़ना चाहता हूं और उन्हें स्थानीय रूप से स्टोर करना चाहता हूं जिसे बाद में खोज (अर्थात्) के लिए उपयोग किया जाएगा। क्या मुझे इसके लिए सोलर या ल्यूसीन का उपयोग करने की ज़रूरत है? मैं इन सभी के लिए नया हूँ। अब तक मुझे पता है कि नच का उपयोग वेब पेजों को क्रॉल करने के लिए किया जाता है। क्या यह क्रॉल किए गए डेटा में मेटाडेटा जोड़ने जैसी कुछ अतिरिक्त सुविधाएं कर सकता है?नच: मेटाडेटा
5
A
उत्तर
3
उपयोगी आदेश।
क्रॉल शुरू
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
क्रॉल यूआरएल
bin/nutch readdb crawl/crawldb -stats
पढ़ें खंड के आंकड़े प्राप्त करें
bin/nutch readseg -dump crawl/segments/* segmentAllContent
पढ़ें खंड (वेब पृष्ठों से सभी डेटा हो जाता है) (केवल पाठ हो जाता है फ़ील्ड)
bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate - noparse -noparsedata
प्रत्येक यूआरएल के ज्ञात लिंक की सभी सूची प्राप्त करें, जिसमें स्रोत यूआरएल और लिंक के एंकर टेक्स्ट दोनों शामिल हैं।
bin/nutch readlinkdb crawl/linkdb/ -dump linkContent
सभी यूआरएल क्रॉल प्राप्त करें। यह भी अन्य जानकारी देता है जैसे कि इसे लाया गया था, समय, संशोधित समय इत्यादि।
bin/nutch readdb crawl/crawldb/ -dump crawlContent
दूसरे भाग के लिए। यानी नया क्षेत्र जोड़ने के लिए मैं इंडेक्स-अतिरिक्त प्लगइन का उपयोग करने या कस्टम प्लगइन लिखने की योजना बना रहा हूं।
देखें:
हाय सीआरएस, आप 'अर्थ-वेब' मुझे लगता है कि आप (या तो माइक्रोफ़ॉर्मेट पृष्ठों को आप क्रॉल करना चाहते से कुछ संरचित डेटा निकालना चाहते हैं के साथ अपने प्रश्न में चिह्नित के बाद से, आरडीएफए और/या माइक्रोोडाटा)। यदि ऐसा है, तो यह किसी भी 23 (http://incubator.apache.org/any23/) को देखकर बहुत समय बचाएगा (जिसे नच के साथ एकीकृत किया जा सकता है और शायद कोई पहले से ही ऐसा करने की कोशिश कर रहा है या इसे पहले से ही कर रहा है)। – castagna
प्रतिक्रिया के लिए धन्यवाद। मैं Any23 पर एक नज़र डालेगा। मैं वास्तव में "सामान्य" वेबपृष्ठों को क्रॉल कर रहा हूं। यह किसी मेटाडेटा से जुड़ा नहीं है। हमारे पास कुछ एल्गोरिदम हैं जो इन वेबपृष्ठों से टेक्स्ट से मेटाडेटा की गणना करते हैं। यह मेटाडेटा वेबपृष्ठ की स्थानीय प्रति में जोड़ा जाना चाहिए। तो मैं एक क्रॉलर की तलाश में हूं जो वेबपृष्ठों को क्रॉल करता है और सामग्री निकालता है और फिर वेबपृष्ठों की स्थानीय प्रतिलिपि में मेटाडेटा डालता है। – CRS