मैं जावा और स्टैनफोर्ड एनएलपी टूलकिट के साथ एक नौसिखिया हूं और एक परियोजना के लिए उनका उपयोग करने की कोशिश कर रहा हूं। विशेष रूप से, मैं एक टेक्स्ट (नेटबीन्स के साथ और कमांड लाइन के साथ) को एनोटेट करने के लिए स्टैनफोर्ड कोरनलप टूलकिट का उपयोग करने की कोशिश कर रहा हूं और मैंने http://nlp.stanford.edu/software/corenlp.shtml#Usage (स्टैनफोर्ड कोरएनएलपी एपीआई का उपयोग करके) पर दिए गए कोड का उपयोग करने का प्रयास किया .. सवाल यह है: क्या कोई मुझे बता सकता है कि कैसे मैं एक फाइल में आउटपुट प्राप्त कर सकता हूं ताकि मैं इसे आगे संसाधित कर सकूं?स्टैनफोर्ड कोर एनएलपी जावा आउटपुट
मैंने सामग्री देखने के लिए ग्राफ़ और कंसोल को वाक्य प्रिंट करने का प्रयास किया है। यह काम करता है। असल में मुझे जो चाहिए वह एनोटेटेड दस्तावेज़ को वापस करना है, ताकि मैं इसे अपने मुख्य वर्ग से कॉल कर सकूं और एक टेक्स्ट फ़ाइल आउटपुट कर सकूं (यदि यह संभव है)। मैं स्टैनफोर्ड कोरनलप के एपीआई में देखने की कोशिश कर रहा हूं, लेकिन मुझे वास्तव में पता नहीं है कि इस तरह की जानकारी वापस करने का सबसे अच्छा तरीका क्या है, अनुभव की कमी के कारण।
यहाँ कोड है:
Properties props = new Properties();
props.put("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref");
StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
// read some text in the text variable
String text = "the quick fox jumps over the lazy dog";
// create an empty Annotation just with the given text
Annotation document = new Annotation(text);
// run all Annotators on this text
pipeline.annotate(document);
// these are all the sentences in this document
// a CoreMap is essentially a Map that uses class objects as keys and has values with custom types
List<CoreMap> sentences = document.get(SentencesAnnotation.class);
for(CoreMap sentence: sentences) {
// traversing the words in the current sentence
// a CoreLabel is a CoreMap with additional token-specific methods
for (CoreLabel token: sentence.get(TokensAnnotation.class)) {
// this is the text of the token
String word = token.get(TextAnnotation.class);
// this is the POS tag of the token
String pos = token.get(PartOfSpeechAnnotation.class);
// this is the NER label of the token
String ne = token.get(NamedEntityTagAnnotation.class);
}
// this is the parse tree of the current sentence
Tree tree = sentence.get(TreeAnnotation.class);
// this is the Stanford dependency graph of the current sentence
SemanticGraph dependencies = sentence.get(CollapsedCCProcessedDependenciesAnnotation.class);
}
// This is the coreference link graph
// Each chain stores a set of mentions that link to each other,
// along with a method for getting the most representative mention
// Both sentence and token offsets start at 1!
Map<Integer, CorefChain> graph =
document.get(CorefChainAnnotation.class);
मैं, रेखांकन और कंसोल के लिए सजा मुद्रण की कोशिश की है केवल सामग्री को देखने के लिए: वस्तुतः, यहाँ एक सरल पूर्ण उदाहरण है कि फ़ाइलों के लिए भेजा (यदि आप इसे उचित कमांड लाइन तर्क देना) उत्पादन से पता चलता है । यह काम करता है। असल में मुझे जो चाहिए वह एनोटेटेड दस्तावेज़ को वापस करना है, ताकि मैं इसे अपने मुख्य वर्ग से कॉल कर सकूं और एक टेक्स्ट फ़ाइल आउटपुट कर सकूं (यदि यह संभव है)। मैं स्टैनफोर्ड कोरनलप के एपीआई में देखने की कोशिश कर रहा हूं, लेकिन मुझे वास्तव में पता नहीं है कि इस तरह की जानकारी वापस करने का सबसे अच्छा तरीका क्या है, अनुभव की कमी के कारण .. अग्रिम में धन्यवाद – SophieM
@ सोफी एम मैंने जोड़ा है सवाल के लिए वह जानकारी। भविष्य में, संपादन के माध्यम से स्वयं को ऐसा करने में संकोच न करें (आपको बैज भी मिलता है!) – SomeKittens
धन्यवाद! @ सोमकिटेंस – SophieM