मैं रूबी में एक पार्सर विकसित कर रहा हूं जो कुछ गैर-वर्दी टेक्स्ट डेटा को पार करता है। क्या कोई मुझे बता सकता है, जहां मैं इसके लिए सादे टेक्स्ट डेटा प्राप्त कर सकता हूं?पार्सिंग प्रयोग के लिए सादे टेक्स्ट डेटा की बड़ी मात्रा
उत्तर
यहाँ आप कई की एक सूची मिल जाएगा:
http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public
और मेरे fav है:
http://ftp.sunet.se/mirror/archive/ftp.sunet.se/pub/tv+movies/imdb/
आप Wikipedia (या बस इसे का एक समूह के माध्यम से चलाने खुरच कर सकता है lynx -dump
)। इससे आपको गैर-अंग्रेजी पाठ का विशाल स्रोत भी मिल जाएगा। Project Gutenberg सादा पाठ की बड़ी मात्रा का एक और अच्छा स्रोत होगा।
गुटेनबर्ग के लिए +1। – Phrogz
@ प्रागोज़: मैं अपने "पाम पायलट और बस पर आने" दिनों में एक गुटेनबर्ग व्यसन करता था। –
परियोजना गुटेनबर्ग एक बहुत सख्त बॉट नीति के रूप में, वे एक दिन में एक ही आईपी पते से 100 से अधिक यात्राओं की अनुमति नहीं देते हैं। –
जब तक अमेज़ॅन हमें-पूर्व-1 डी ऊपर है :) – Wes