का उपयोग करते हुए कौज़ल वाक्य निष्कर्षण मैं पानी पर दुर्घटना रिपोर्ट से कारण वाक्य निकाल रहा हूं। मैं यहां एक उपकरण के रूप में एनएलटीके का उपयोग कर रहा हूं। मैंने 20 कारण वाक्य संरचनाओं को ले कर मैन्युअल रूप से अपना regExp व्याकरण बनाया [नीचे उदाहरण देखें]। निर्माण व्याकरण प्रकारएनएलटीके पायथन
grammar = r'''Cause: {<DT|IN|JJ>?<NN.*|PRP|EX><VBD><NN.*|PRP|VBD>?<.*>+<VBD|VBN>?<.*>+}'''
अब व्याकरण परीक्षण सेट पर 100% याद है की है, लेकिन एक कम सटीक (मैं 50 कारण और 50 गैर कारण वाक्य के साथ अपने ही खिलौना डाटासेट बनाया गया)। मैं के बारे में पूछना चाहते हैं:
- कैसे NLTK प्रशिक्षित करने के लिए regexp व्याकरण वाक्य का विशेष प्रकार निकालने के लिए स्वचालित रूप से निर्माण करने के लिए।
क्या किसी ने कभी भी मौलिक वाक्यों को निकालने का प्रयास किया है। उदाहरण कारण वाक्य हैं:
गांव में खराब स्वच्छता था, एक परिणाम के रूप में, वह स्वास्थ्य समस्या थी।
पानी अपने गांव में अशुद्ध था, इस कारण से, उसे परजीवी से का सामना करना पड़ा।
गांव में खराब स्वच्छता के कारण उन्हें स्वास्थ्य समस्याएं थीं। मैं केवल बड़े टेक्स्ट से उपरोक्त प्रकार के वाक्यों को निकालना चाहता हूं। , Mr.Jacob पर्किन्स "NLTK 2.0 कुकबुक साथ अजगर पाठ प्रसंस्करण":