मैं किसी भी चीज़ को हटाने के लिए python2.7 का उपयोग करना चाहता हूं जो EDGAR फाइलिंग से दस्तावेज़ों का पाठ नहीं है (जो .txt फ़ाइलों के रूप में ऑनलाइन उपलब्ध हैं)। क्या फाइलों की तरह लग रही का एक उदाहरण यहाँ है:पार्सिंग EDGAR फाइलिंग
मेरा कार्यक्रम के पहले भाग हो जाता है:
एडगर इस फ़ाइल का पेज 48 से शुरू होने वाले अपने दस्तावेज़ प्रकार परिभाषाएं प्रदान करता है EDGAR ऑनलाइन डेटाबेस से .txt फ़ाइल को स्थानीय फ़ाइल में "parseme.txt" नाम दिया गया है। मैं क्या जानना चाहता हूं कि .txt फ़ाइल को पार्स करने के लिए डीटीडी का उपयोग कैसे करें। मैं नौकरी के लिए सुंदर सूप जैसे डिब्बाबंद पार्सिंग मॉड्यूल का उपयोग करूंगा, लेकिन ईडीजीएआर का प्रारूप अद्वितीय दिखाई देता है, और मुझे नौकरी पाने के लिए एक बड़ी रेगेक्स से बचने की उम्मीद है।
import os
filename = 'parseme.txt'
with open(filename) as f:
lines = f.readlines()
मेरा प्रश्न Parse SGML with Open Arbitrary Tags in Python 3 और Use lxml to parse text file with bad header in Python पर प्रश्न से संबंधित है, लेकिन मैं अलग मानना है के रूप में मेरे सवाल python2.7 से संबंधित है और मैं शीर्ष लेख के साथ संबंध नहीं कर रहा हूँ कर रहा है - मैं तो बस के पाठ के साथ चिंतित हूँ फ़ाइल।
मुझे नहीं लगता कि पाइथन का संस्करण यहां बहुत मायने रखता है। क्या आपने लिंक किए गए सवालों के जवाब में दिए गए किसी भी विचार को आजमाया था? आप वास्तव में कहाँ अटक गए हैं? – mzjn