2011-04-26 27 views
6

मैं रूबी में एक पार्सर विकसित कर रहा हूं जो कुछ गैर-वर्दी टेक्स्ट डेटा को पार करता है। क्या कोई मुझे बता सकता है, जहां मैं इसके लिए सादे टेक्स्ट डेटा प्राप्त कर सकता हूं?पार्सिंग प्रयोग के लिए सादे टेक्स्ट डेटा की बड़ी मात्रा

उत्तर

4

आप Wikipedia (या बस इसे का एक समूह के माध्यम से चलाने खुरच कर सकता है lynx -dump)। इससे आपको गैर-अंग्रेजी पाठ का विशाल स्रोत भी मिल जाएगा। Project Gutenberg सादा पाठ की बड़ी मात्रा का एक और अच्छा स्रोत होगा।

+0

गुटेनबर्ग के लिए +1। – Phrogz

+0

@ प्रागोज़: मैं अपने "पाम पायलट और बस पर आने" दिनों में एक गुटेनबर्ग व्यसन करता था। –

+0

परियोजना गुटेनबर्ग एक बहुत सख्त बॉट नीति के रूप में, वे एक दिन में एक ही आईपी पते से 100 से अधिक यात्राओं की अनुमति नहीं देते हैं। –