नच: मेटाडेटा

डेटा पढ़ने और जोड़ने के बाद मैंने हाल ही में अपाचे नच को देखना शुरू कर दिया। मैं नच के साथ अपनी रुचि के वेब पृष्ठों को क्रॉल करने और सक्षम करने में सक्षम हो सकता था। मुझे इस डेटा को पढ़ने के तरीके पर काफी समझ नहीं है। मैं मूल रूप से प्रत्येक पृष्ठ के डेटा को कुछ मेटाडेटा (अब के लिए कुछ यादृच्छिक डेटा) से जोड़ना चाहता हूं और उन्हें स्थानीय रूप से स्टोर करना चाहता हूं जिसे बाद में खोज (अर्थात्) के लिए उपयोग किया जाएगा। क्या मुझे इसके लिए सोलर या ल्यूसीन का उपयोग करने की ज़रूरत है? मैं इन सभी के लिए नया हूँ। अब तक मुझे पता है कि नच का उपयोग वेब पेजों को क्रॉल करने के लिए किया जाता है। क्या यह क्रॉल किए गए डेटा में मेटाडेटा जोड़ने जैसी कुछ अतिरिक्त सुविधाएं कर सकता है?नच: मेटाडेटा

स्रोत

2012-05-27 CRS

हाय सीआरएस, आप 'अर्थ-वेब' मुझे लगता है कि आप (या तो माइक्रोफ़ॉर्मेट पृष्ठों को आप क्रॉल करना चाहते से कुछ संरचित डेटा निकालना चाहते हैं के साथ अपने प्रश्न में चिह्नित के बाद से, आरडीएफए और/या माइक्रोोडाटा)। यदि ऐसा है, तो यह किसी भी 23 (http://incubator.apache.org/any23/) को देखकर बहुत समय बचाएगा (जिसे नच के साथ एकीकृत किया जा सकता है और शायद कोई पहले से ही ऐसा करने की कोशिश कर रहा है या इसे पहले से ही कर रहा है)। – castagna

प्रतिक्रिया के लिए धन्यवाद। मैं Any23 पर एक नज़र डालेगा। मैं वास्तव में "सामान्य" वेबपृष्ठों को क्रॉल कर रहा हूं। यह किसी मेटाडेटा से जुड़ा नहीं है। हमारे पास कुछ एल्गोरिदम हैं जो इन वेबपृष्ठों से टेक्स्ट से मेटाडेटा की गणना करते हैं। यह मेटाडेटा वेबपृष्ठ की स्थानीय प्रति में जोड़ा जाना चाहिए। तो मैं एक क्रॉलर की तलाश में हूं जो वेबपृष्ठों को क्रॉल करता है और सामग्री निकालता है और फिर वेबपृष्ठों की स्थानीय प्रतिलिपि में मेटाडेटा डालता है। – CRS

उपयोगी आदेश।

क्रॉल शुरू

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

क्रॉल यूआरएल

bin/nutch readdb crawl/crawldb -stats

पढ़ें खंड के आंकड़े प्राप्त करें

bin/nutch readseg -dump crawl/segments/* segmentAllContent

पढ़ें खंड (वेब पृष्ठों से सभी डेटा हो जाता है) (केवल पाठ हो जाता है फ़ील्ड)

bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate -  noparse -noparsedata

प्रत्येक यूआरएल के ज्ञात लिंक की सभी सूची प्राप्त करें, जिसमें स्रोत यूआरएल और लिंक के एंकर टेक्स्ट दोनों शामिल हैं।

bin/nutch readlinkdb crawl/linkdb/ -dump linkContent

सभी यूआरएल क्रॉल प्राप्त करें। यह भी अन्य जानकारी देता है जैसे कि इसे लाया गया था, समय, संशोधित समय इत्यादि।

bin/nutch readdb crawl/crawldb/ -dump crawlContent

दूसरे भाग के लिए। यानी नया क्षेत्र जोड़ने के लिए मैं इंडेक्स-अतिरिक्त प्लगइन का उपयोग करने या कस्टम प्लगइन लिखने की योजना बना रहा हूं।

देखें:

this और this

स्रोत

2012-05-29 06:47:34 CRS

उत्तर

संबंधित मुद्दे