2009-06-17 19 views
5

गूगल के वित्त एपीआई के दायरे से बाहर है से वित्तीय डेटा प्राप्त अधूरा है - जैसे एक पृष्ठ पर आंकड़े के कई:Google वित्त जो एपीआई

http://www.google.com/finance?fstype=ii&q=NYSE:GE

एपीआई के माध्यम से उपलब्ध नहीं हैं।

मुझे ग्रीनब्लैट के सूत्र के अनुसार कनाडाई स्टॉक एक्सचेंजों पर कंपनियों को रैंक करने के लिए इस डेटा की आवश्यकता है, जो "ग्रीनब्लैट इंडेक्स स्कैन" के लिए Google खोज के माध्यम से उपलब्ध है।

मेरा प्रश्न: इन वेबपृष्ठों पर डेटा तक पहुंचने और संसाधित करने का सबसे बुद्धिमान/साफ/कुशल तरीका क्या है। क्या इस मामले में कठिन दृष्टिकोण वास्तव में जरूरी है, और यदि हां, तो इसके बारे में जाने का सबसे अच्छा तरीका क्या है? मैं वर्तमान में इस से संबंधित परियोजनाओं के लिए पायथन सीख रहा हूं। और फिर xpath का उपयोग कर नोड्स है कि आप में रुचि रखते हैं चलना

उत्तर

4

आप लापता एपीआई प्रदान करने के लिए Google से पूछने का प्रयास कर सकते हैं। अन्यथा, आप screen scraping के साथ फंस गए हैं, जो कभी भी मजेदार नहीं है, नोटिस के बिना तोड़ने का अनुमान है, और Google की सेवा की शर्तों का उल्लंघन करने की संभावना है।

लेकिन, यदि आप अभी भी एक स्क्रीन स्क्रैपर लिखना चाहते हैं, तो mechanize और BeautifulSoup के संयोजन को हरा करना मुश्किल है। सुंदर सूप एक HTML पार्सर है और मैकेनाइजेशन एक पायथन आधारित वेब ब्राउज़र है जो आपको लॉग इन करने, कुकीज़ स्टोर करने और आम तौर पर किसी भी अन्य वेब ब्राउज़र की तरह नेविगेट करने देगा।

0

वेब पृष्ठों हमेशा बेकार स्क्रैप करना, लेकिन मैं उन्हें एक्सएमएल को बदलने (> एक्सएमएल कार्यक्रम सुथरा या कुछ अन्य एचटीएमएल के माध्यम से) की सिफारिश करेंगे। पाइथन

के साथ HTML पार्सिंग की पसंदीदा विधि बनें क्या आपने Google (जैसे याहू फाइनेंस एपीआई) के अलावा विकल्पों में देखा है?

3
+0

धन्यवाद, मैं सुंदर सूप में देखूंगा। आप सही हैं कि याहू फाइनेंस एपीआई अधिक पूर्ण है - दुर्भाग्यवश, कनाडा के शेयरों की बात आने पर याहू के पास आवश्यक डेटा नहीं है। – Marco