में उपलब्ध वेब पेज स्क्रैपिंग रत्न/उपकरण मैं रूबी स्क्रिप्ट में वेब पेजों को स्क्रैप करने की कोशिश कर रहा हूं जिस पर मैं काम कर रहा हूं। परियोजना का उद्देश्य यह दिखाने के लिए है कि कौन से ईटीएफ और स्टॉक म्यूचुअल फंड मूल्य निवेश दर्शन के साथ सबसे अधिक अनुकूल हैं।रूबी
पृष्ठों के कुछ उदाहरणों मैं स्क्रैप करना चाहते हैं कर रहे हैं:
http://finance.yahoo.com/q/pr?s=SPY+Profile
http://finance.yahoo.com/q/hl?s=SPY+Holdings
http://www.marketwatch.com/tools/mutual-fund/list/V
क्या वेब scraping उपकरण आपको रूबी के लिए सिफारिश करते हैं, और क्यों? ध्यान रखें कि वहां हजारों स्टॉक फंड हैं, इसलिए मेरे द्वारा उपयोग किए जाने वाले किसी भी उपकरण को काफी तेज़ होना चाहिए।
मैं रूबी के लिए नया हूं, लेकिन मुझे पाइथन (https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py) में वेब पृष्ठों को स्क्रैप करने के लिए lxml का उपयोग करने का अनुभव है। एक बार 5000+ स्टॉक पर पेज डाउनलोड हो जाने के बाद, एलएक्सएमएल उन्हें कुछ ही मिनटों में स्क्रैप कर सकता है। (मैं BeautifulSoup की कोशिश कर रहा है, लेकिन यह याद खारिज क्योंकि यह बहुत धीमी थी।)
याहू फाइनेंस में वास्तव में कई एपीआई उपलब्ध हैं, तो आप उनमें से एक का उपयोग करना चाहिए। – pguardiario