मैं नामांकित इकाई पहचान के लिए प्रशिक्षित करने के लिए एक सिस्टम के लिए एक मुफ्त टैग की गई कॉर्पस की तलाश में हूं। मुझे लगता है कि ज्यादातर (जैसे न्यूयॉर्क टाइम्स एक) महंगे हैं और खुले नहीं हैं। क्या कोई मदद कर सकता है?नामांकित इकाई पहचान के लिए नि: शुल्क टैग की गई कॉर्पस
उत्तर
dbPediaखुला और
dbPedia विकिपीडिया से बनाया गया है और यह एक बहुत बड़ा कोष है। सभी dbPedia titles dump पर rdfs:label
से जुड़े ट्रिपल पर ल्यूसीन इंडेक्स बनाएं।
अन्य उत्तरों में से एक के रूप में, डीबीपीडिया एक टैग किए गए कॉर्पस नहीं है। –
2012 में (और आज) मेरी टिप्पणी सच थी, लेकिन यह भविष्य में बदल सकता है। यदि आप डीबीपीडिया आधारित कॉर्पस में रूचि रखते हैं तो आप विकिपीडिया टेक्स्ट से डीबीपीडिया के लिए एनआईएफ आउटपुट उत्पन्न करने के लिए ओपन एक्सट्रैक्शन चैलेंज (http://wiki.dbpedia.org/textext) का पालन करना चाहेंगे। –
Python NLTKnltk.corpus.conll2000
कॉर्पस तक पहुंच है। कॉलिंग conll2000.iob_words()
(शब्द, अंश-भाषण, आईओबी) ट्रिपल की एक सूची देता है, जहां आईओबी अंदरूनी इकाई/बाहरी इकाई/प्रारंभिक इकाई प्रारूप में एक टैग है।
न्यूजवायर-शैली संदर्भ में लगभग 250k कुल शब्द हैं।
क्या हम किसी अन्य टूल पर इसका उपयोग करने के लिए डेटासेट को भी डंप कर सकते हैं? जैसे कि [** टैगर **] (https://github.com/glample/tagger) GLample द्वारा। – user1412066
CONLL2000 नामित इकाइयों को चिह्नित नहीं करता है। – alexis
http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html
CoNLL 2003 कोष है, जो कि सूची में है पर कॉर्पोरा की एक सूची नहीं है, नि: शुल्क है और NIST (पाठ) http://www.cnts.ua.ac.be/conll2003/ner/ (एनोटेशन) से उपलब्ध है और है।
क्या हमें फॉर्म भरने की प्रक्रिया का पालन करना है, इस [** लिंक **] (http://trec.nist.gov/data/reuters/reuters.html) में बताए गए डेटासेट प्राप्त करने के लिए एनआईएसटी को आवेदन भेजना है। ? या कुछ विकल्प है? – user1412066
http://pendata.stackexchange.com/q/7250/1652 (जहां यह बंद नहीं है) पर एक ही सवाल पूछा गया था –