2012-07-20 20 views
6

में रिक्त स्थान को कैसे पतन करें मेरे पास वाक्यों का वेक्टर है जो हस्तलिखित दस्तावेज़ों से स्कैन किया गया था। इस प्रक्रिया में इस तरह की कुछ रिक्ति समस्याओं थे:आर रेगेक्स/जीएसयूबी: स्ट्रिंग

The d og is br own. 

अगर वहाँ एक तरीका था करने के लिए सामान्य रूप से '_x_' या अंतरिक्ष चरित्र अंतरिक्ष के साथ किसी भी पैटर्न लेने के लिए और इस तरह दूसरी अंतरिक्ष पतन मैं उत्सुक था:

The d og is br own. --> The dog is br own. 

मैं केवल रिक्त स्थान ('_x_' नहीं '_xx_') के बीच एक ही चरित्र के बारे में चिंतित हूं।

कोई सुझाव?

+1

मुझे नहीं पता कि आप कैसे निर्धारित कर सकते हैं कि "डी ओजी" एक कॉर्पस के बिना "कुत्ता" या "द ओड" होना चाहिए। –

+0

@ जोशुआउलिच: सहमत, मैं यह देखने की कोशिश कर रहा हूं कि उनमें से सभी पर पहली या दूसरी जगह को समान रूप से ध्वस्त करने का कोई तरीका है, तो स्पेलचेकर को यह देखने दें और देखें कि यह कैसे निकलता है। – screechOwl

+0

ओह, दुह ... उस भाग को याद किया। मान लीजिए कि यह कुछ नींद के लिए समय है। –

उत्तर

4

शायद

> x<-"The d og is br own." 
> gsub(" (.) "," \\1",x) 
[1] "The dog is br own." 

या

gsub(" ([[:alnum:]]) "," \\1",x) 

(.) कुछ भी मेल खाता है ([[:alnum:]]) मैचों अक्षरांकीय अक्षर केवल।

+0

ऐसा किया, बहुत बहुत धन्यवाद! – screechOwl