मैं एक सामान्य प्रयोजन एपीआई/वेब सेवा/उपकरण के लिए देख रहा हूँ/आदि ... कि एक RDF ग्राफ यथासंभव विशिष्ट करने के लिए किसी दिए गए HTML पृष्ठ परिवर्तित (संभवत: एक पीठ की हड्डी सत्तामीमांसा का उपयोग कर की अनुमति देता है और/या मैपर)।RDF
RDF
उत्तर
मैंने वेब पृष्ठों के दिए गए सेट से डेटा निकालने के लिए XQuery का उपयोग किया। मुझे वेब पृष्ठों के लिए कस्टम प्रश्न लिखना पड़ा। मुझे लगता है कि एचटीएमएल फाइलों के एक विशिष्ट सेट के लिए यह सबसे आसान आगे दृष्टिकोण है। हालांकि, यह सामान्य मामले के लिए स्पष्ट रूप से अच्छा नहीं है। वेब पृष्ठों के एक अलग सेट के लिए अन्य कस्टम प्रश्नों को लिखने की आवश्यकता है।
क्या आपने GRDDL साबित किया है?
GRDDL RDF एक्सएमएल दस्तावेजों से और विशेष XHTML पृष्ठ में डेटा प्राप्त करने के लिए एक तकनीक है।
मैंने HTML से डेटा को स्क्रैप करने के लिए JSoup का उपयोग किया। यह एचटीएमएल डोम से पूछताछ की jQuery शैली का उपयोग करता है, जिसमें मैं पहले से ही famirial था, तो यह मेरे लिए उपयोग करने के लिए वास्तव में सरल उपकरण था। मैं इसे काफी मजबूत भी फंड करता हूं लेकिन मुझे केवल 3 डेटा स्रोतों को स्क्रैप करने की आवश्यकता है, इसलिए मुझे अभी तक इस टूल के साथ समृद्ध अनुभव नहीं है। jsoup
क्या आपके पास HTML दस्तावेज़ की सामग्री पर कोई नियंत्रण है? या क्या यह कोई यादृच्छिक दस्तावेज होना चाहिए? – Scott
यह कोई HTML दस्तावेज़ हो सकता है। मुझे HTML दस्तावेज़ की संरचना को आरडीएफ ग्राफ में निकालने की आवश्यकता है। यदि रूपांतरण रीढ़ की हड्डी के मानचित्र/ऑटोलॉजी का उपयोग करता है तो यह भी बेहतर होता है। – jaxvy
ऐसा लगता है कि एक्सएसपीएआरक्यूएल एक ऑटोलॉजी के अनुसार लिखी गई कस्टम क्वेरी के साथ इसे प्राप्त कर सकता है ... – jaxvy