मेरे पास यूटीएफ -16 में एन्कोडेड एक सीएसवी टेक्स्ट फ़ाइल है (ताकि यूनिकोड वर्णों को संरक्षित किया जा सके जब अन्य एक्सेल का उपयोग करें) लेकिन पांडस 0.9.0 के साथ read_csv करते समय, मुझे यह गुप्त त्रुटि मिलती है:पांडस read_csv और यूटीएफ -16
df = pd.read_csv('data.txt',encoding='utf-16',sep='\t',header=0)
Exception Traceback (most recent call last)
<ipython-input-18-85da1383cd9e> in <module>()
----> 1 df = pd.read_csv('candidates-spanish.txt',encoding='utf-16',sep='\t',header=0)
2 df.head()
/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/pandas/io/parsers.pyc in read_csv(filepath_or_buffer, sep, dialect, header, index_col, names, skiprows, na_values, keep_default_na, thousands, comment, parse_dates, keep_date_col, dayfirst, date_parser, nrows, iterator, chunksize, skip_footer, converters, verbose, delimiter, encoding, squeeze, **kwds)
248 kdict['delimiter'] = sep
--> 250 return _read(TextParser, filepath_or_buffer, kdict)
252 @Appender(_read_table_doc)
/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/pandas/io/parsers.pyc in _read(cls, filepath_or_buffer, kwds)
198 return parser
--> 200 return parser.get_chunk()
202 @Appender(_read_csv_doc)
/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/pandas/io/parsers.pyc in get_chunk(self, rows)
853 elif not self._has_complex_date_col:
854 index = self._get_simple_index(alldata, columns)
--> 855 index = self._agg_index(index)
857 elif self._has_complex_date_col:
/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/pandas/io/parsers.pyc in _agg_index(self, index, try_parse_dates)
980 arr, _ = _convert_types(arr, col_na_values)
981 arrays.append(arr)
--> 982 index = MultiIndex.from_arrays(arrays, names=self.index_name)
983 return index
/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/pandas/core/index.pyc in from_arrays(cls, arrays, sortorder, names)
1571 return MultiIndex(levels=levels, labels=labels,
-> 1572 sortorder=sortorder, names=names)
1574 @classmethod
/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/pandas/core/index.pyc in __new__(cls, levels, labels, sortorder, names)
1254 assert(len(levels) == len(labels))
1255 if len(levels) == 0:
-> 1256 raise Exception('Must pass non-zero number of levels/labels')
1258 if len(levels) == 1:
Exception: Must pass non-zero number of levels/labels
में पंक्ति-दर-पंक्ति csv.reader साथ this example के आधार पर संकेत मिलता है कि अपने डेटा का प्रारूप गलत नहीं किए गए डेटा पढ़ना:
from io import BytesIO
import csv
with open('data.txt','rb') as f:
r = f.read().decode('utf-16').encode('utf-8')
for l in csv.reader(BytesIO(r),delimiter='\t'):
print l
['Country', 'State/City', 'Title', 'Date', 'Catalogue', 'Wikipedia Election Page', 'Wikipedia Individual Page', 'Electoral Institution in Country', 'Twitter', 'CANDIDATE NAME 1', 'CANDIDATE NAME 2']
['Venezuela', 'N/A', 'President', '10/7/12', 'Hugo Rafael Chavez Frias', 'Hugo Ch\xc3\xa1vez', 'Hugo Ch\xc3\xa1vez', 'Hugo Chavez', 'Hugo Ch\xc3\xa1vez Fr\xc3\xadas', 'Hugo Chavez', 'Hugo Ch\xc3\xa1vez']
['Venezuela', 'N/A', 'President', '10/7/12', 'Henrique Capriles Radonski', 'Henrique Capriles Radonski', 'Henrique Capriles Radonski', 'Henrique Capriles Radonski', 'Henrique Capriles R.', 'Henrique Capriles', '']
वहाँ कुछ पूर्व प्रसंस्करण read_csv में एक अतिरिक्त विकल्प है, , या कि pandas.read_csv से पहले किया जाना चाहिए कुछ और एक UTF-16 फ़ाइल पढ़ सकते हैं? धन्यवाद!
आप पोस्ट/पाठ फ़ाइल का एक संस्करण ईमेल कर सकते हैं? मैं एक नजर मार लूगां। –
http://www.brianckeegan.com/data/candidates-spanish.txt –