में यूटीएफ -8 फ़ाइल आउटपुट मैं विंडोज 7 64-बिट पर आर 2.15.0 का उपयोग कर रहा हूं। मैं एक फ़ाइल में यूनिकोड (सीजेके) पाठ आउटपुट करना चाहता हूं।आर
निम्न कोड दिखाता है कि एक यूनिकोड वर्ण एक UTF-8 फ़ाइल कनेक्शन पर लिखने के लिए के रूप में काम नहीं करता भेजा (आई) की उम्मीद:
Read 1 item
[1] "<U+5728>"
:
rty <- file("test.txt",encoding="UTF-8")
write("在", file=rty)
close(rty)
rty <- file("test.txt",encoding="UTF-8")
scan(rty,what=character())
close(rty)
स्कैन के उत्पादन द्वारा दिखाए गए
फ़ाइल यूटीएफ चरित्र के साथ ही नहीं लिखी गई थी, लेकिन कुछ प्रकार के एएनएसआई-अनुरूप फॉलबैक। क्या मैं इसे पहली बार सही तरीके से काम कर सकता हूं (यानी एक टेक्स्ट फ़ाइल के साथ जिसमें "इसमें" है), या क्या मैं कोड स्ट्रिंग को बदलने वाले उचित चरित्र के साथ आउटपुट को यूनिकोड में परिवर्तित करने के लिए कुछ अतिरिक्त जादू कर सकता हूं?
धन्यवाद।
[अधिक जानकारी: एक ही कोड ठीक से सिग्विन, आर 2.14.2 में व्यवहार करता है, जबकि Win7 पर 2.14.2 भी टूटा हुआ है। मेरी अंत पर इस कहीं है?]
[बेले गए अपडेट] मुद्दे एन्कोडिंग के बजाय * लोकेल * के साथ होते हैं। मैंने अस्थायी रूप से लोकेल को कुछ "उचित" में बदलकर गड़बड़ी के आउटपुट मुद्दों का समाधान किया है। यदि आपके पास एक से अधिक लोकेल से भाषा डेटा है तो भगवान आपकी मदद करते हैं। – Patrick
शायद यह [पोस्ट] (http://stackoverflow.com/questions/11069908/r-extracting-clean-utf-8-text-from-a-web-page-scraped-with-rcurl?lq=1) मदद। – DJJ