2011-04-21 30 views
6

मैं एल्गोरिदम की तलाश में हूं जो वेबसाइटों से टेक्स्ट निष्कर्षण की अनुमति देता है। मेरा मतलब यह नहीं है कि "स्ट्रिप एचटीएमएल", या सैकड़ों पुस्तकालयों की अनुमति है जो इसे अनुमति देते हैं।वेबसाइटों से बॉडी टेक्स्ट निष्कर्षण उदा। केवल लेख शीर्षक और पाठ निकालें साइट पर सभी पाठ

तो उदाहरण के लिए एक समाचार लेख के लिए मैं शीर्षक और सभी पाठ की पहचान करना चाहता हूं, लेकिन टिप्पणी अनुभाग नहीं और इसी तरह।

क्या वहां के लिए कोई एल्गोरिदम हैं? धन्यवाद!

+1

मुझे लगता है कि वाक्यांश आप देख रहे हैं "वेब scraping" – StriplingWarrior

उत्तर

6

कंप्यूटर विज्ञान साहित्य में इस समस्या को आम तौर पर पेज विभाजन या विवाद करनेवाला प्लेट का पता लगाने समस्या के रूप में जाना जाता है। रिपोर्ट Boilerplate Detection using Shallow Text Features और इसकी संबंधित blog पोस्ट देखें। इसके अलावा, मेरे पास कुछ रिपोर्ट और सॉफ़्टवेयर साइटें हैं bookmarked जो समस्या का समाधान करती हैं। इसके अलावा, this स्टैक ओवरफ्लो प्रश्न देखें।

+0

धन्यवाद है! यही वही है जो मुझे चाहिए :) – Scoox

+0

Thanx ... बहुत मदद की थी! – faisal00813

1

जो आप करने की कोशिश कर रहे हैं उसे "सामग्री निष्कर्षण" कहा जाता है। यह अच्छी तरह से हल करने के लिए एक आश्चर्यजनक रूप से कठिन समस्या साबित हो जाता है, और कई बेवकूफ समाधान काफी बुरी तरह से करते हैं।

Instapaper और Readability दोनों को इसे हल करना है, और आप उनके समाधानों को देखने से कुछ सीख सकते हैं। वे दोनों सेवाएं प्रदान करते हैं जिन्हें आप लाभ लेने में सक्षम हो सकते हैं - शायद आप उनकी समस्या को आउटसोर्स कर सकते हैं और उनके एपीआई को इसकी देखभाल कर सकते हैं। :)

विफल होने पर, "html content extraction" की खोज इस विषय पर कई कागजात सहित उपयोगी परिणामों का एक बड़ा सौदा देती है।

1

कुछ खुले स्रोत उपकरण उपलब्ध हैं जो समान लेख निष्कर्षण कार्य करते हैं। https://github.com/jiminoc/goose जो Gravity.com

द्वारा ओपन सोर्स था, इसमें विकी के साथ-साथ स्रोत भी है जो आप देख सकते हैं। दर्जनों यूनिट परीक्षण हैं जो विभिन्न लेखों से निकाले गए पाठ को दिखाते हैं।

0

"सामग्री निष्कर्षण" एक बहुत ही कठिन विषय है। "मुख्य लेख" सामग्री की पहचान करने के लिए कोई सामान्य मानक नहीं है (क्रॉलर के लिए HTML को आसानी से पढ़ने के लिए कई दृष्टिकोण हैं, उदाहरण के लिए schema.org, लेकिन इनमें से कोई भी बहुत लोकप्रिय रूप से उपयोग नहीं किया जाता है)।

तो यह पता चला है कि यदि आप अच्छे नतीजे चाहते हैं, तो संभव है कि प्रत्येक (समाचार) वेबसाइट जिसे आप स्क्रैप करना चाहते हैं, के लिए अपने XPath चयनकर्ताओं को परिभाषित करना सबसे अच्छा है। यद्यपि HTML सामग्री निष्कर्षण के लिए कुछ एपीआई हैं, लेकिन जैसा कि मैंने कहा है कि प्रत्येक साइट के लिए काम करने वाले एल्गोरिदम विकसित करना बहुत मुश्किल है।

कुछ एपीआई आप इस्तेमाल कर सकते हैं:

alchemyapi.com
diffbot.com
boilerpipe-web.appspot.com
aylien.com
textracto.com