2013-02-23 37 views
10

में उपलब्ध वेब पेज स्क्रैपिंग रत्न/उपकरण मैं रूबी स्क्रिप्ट में वेब पेजों को स्क्रैप करने की कोशिश कर रहा हूं जिस पर मैं काम कर रहा हूं। परियोजना का उद्देश्य यह दिखाने के लिए है कि कौन से ईटीएफ और स्टॉक म्यूचुअल फंड मूल्य निवेश दर्शन के साथ सबसे अधिक अनुकूल हैं।रूबी

पृष्ठों के कुछ उदाहरणों मैं स्क्रैप करना चाहते हैं कर रहे हैं:

http://finance.yahoo.com/q/pr?s=SPY+Profile 
http://finance.yahoo.com/q/hl?s=SPY+Holdings 
http://www.marketwatch.com/tools/mutual-fund/list/V 

क्या वेब scraping उपकरण आपको रूबी के लिए सिफारिश करते हैं, और क्यों? ध्यान रखें कि वहां हजारों स्टॉक फंड हैं, इसलिए मेरे द्वारा उपयोग किए जाने वाले किसी भी उपकरण को काफी तेज़ होना चाहिए।

मैं रूबी के लिए नया हूं, लेकिन मुझे पाइथन (https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py) में वेब पृष्ठों को स्क्रैप करने के लिए lxml का उपयोग करने का अनुभव है। एक बार 5000+ स्टॉक पर पेज डाउनलोड हो जाने के बाद, एलएक्सएमएल उन्हें कुछ ही मिनटों में स्क्रैप कर सकता है। (मैं BeautifulSoup की कोशिश कर रहा है, लेकिन यह याद खारिज क्योंकि यह बहुत धीमी थी।)

+1

याहू फाइनेंस में वास्तव में कई एपीआई उपलब्ध हैं, तो आप उनमें से एक का उपयोग करना चाहिए। – pguardiario

उत्तर

22

वहाँ Hpricot, Nokogiri और इतने सारे की तरह Ruby में इतने सारे scraping gems उपलब्ध हैं। static web pages को स्क्रैप करने के लिए मैं Nokogiri की अनुशंसा करता हूं। यदि आप dynamic web pages स्क्रैप कर रहे हैं (जिसका अर्थ है बटन क्लिक, फ़ॉर्म सबमिट करें आदि ..)। मैं Mechanize की अनुशंसा करता हूं जो आंतरिक रूप से Nokogiri का उपयोग करता है।

+0

हैप्रिकॉट अब एक रखरखाव नहीं है। मैं नोकोगिरी का उपयोग करने की सिफारिश करता हूं :) – Jake88

1

मुझे https://www.ruby-toolbox.com/categories/html_parsing.html पर HTML पार्सिंग समाधान की एक सूची दिखाई देती है। मैं नोकोगिरी के साथ जा रहा हूं क्योंकि यह एकमात्र ऐसा है जो अभी भी सक्रिय है।

 संबंधित मुद्दे

  • कोई संबंधित समस्या नहीं^_^