है, मैं आर में टीएम पैकेज का उपयोग करके सादा पाठ दस्तावेजों के कॉर्पस में दस्तावेजों को स्टेम करना चाहता हूं। जब मैं कॉर्पस के सभी दस्तावेजों में स्नोबॉलस्टेमर फ़ंक्शन लागू करता हूं, तो प्रत्येक दस्तावेज़ का अंतिम शब्द केवल होता है उपजी।स्नोबॉल स्टेमर केवल अंतिम शब्द
library(tm)
library(Snowball)
library(RWeka)
library(rJava)
path <- c("C:/path/to/diretory")
corp <- Corpus(DirSource(path),
readerControl = list(reader = readPlain, language = "en_US",
load = TRUE))
tm_map(corp,SnowballStemmer) #stemDocument has the same problem
मुझे लगता है कि यह दस्तावेजों को कॉर्पस में पढ़ने के तरीके से संबंधित है। कुछ सरल उदाहरण के साथ इस उदाहरण देकर स्पष्ट करने के लिए:
> vec<-c("running runner runs","happyness happies")
> stemDocument(vec)
[1] "running runner run" "happyness happi"
> vec2<-c("running","runner","runs","happyness","happies")
> stemDocument(vec2)
[1] "run" "runner" "run" "happy" "happi" <-
> corp<-Corpus(VectorSource(vec))
> corp<-tm_map(corp, stemDocument)
> inspect(corp)
A corpus with 2 text documents
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame are:
MetaID
[[1]]
run runner run
[[2]]
happy happi
> corp2<-Corpus(DirSource(path),readerControl=list(reader=readPlain,language="en_US" , load=T))
> corp2<-tm_map(corp2, stemDocument)
> inspect(corp2)
A corpus with 2 text documents
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame are:
MetaID
$`1.txt`
running runner runs
$`2.txt`
happyness happies
स्नोबॉल के लिए आर इंटरफ़ेस नहीं है? इसलिए आपको लाइब्रेरी (सिस्टम) चाहिए और tm_map (corp, wordStem) आज़माएं। –
टिप्पणी के लिए धन्यवाद। मैंने कोशिश की और परिणाम एक ही थे। मैं समस्या को और अधिक स्पष्ट करने के लिए ऊपर एक बेहतर उदाहरण शामिल करूंगा। – Christian