怎样解决编码问题？

2018-09-06 10:29:35 +08:00

acone2003

我计算机本地有一个 CSV 文件，表头汉字编码格式是 ASCII，我用 spider(pyton 3.6)的 pandas 读取的时候显示 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc9 in position 3: invalid continuation byte
问一下该怎么解决？

2018 次点击

所在节点

Python

7 条回复

chenstack

2018-09-06 10:55:51 +08:00

csv 也是文本文件，要么手动处理成 utf-8 编码的再读取，要么用 pandas read_csv 时指定 encoding

glacer

2018-09-06 11:12:15 +08:00

reload(sys)
sys.setdefaultencoding('utf8')

holajamc

2018-09-06 11:14:24 +08:00

@glacer python3 已经没有这个函数了：）

bmos

2018-09-06 11:31:25 +08:00

我用比较笨的方法，直接指定编码方式，open,然后 readlines，list 再转化成其他格式。。占个座看看有没有好的方法。

Cooky

2018-09-06 11:35:13 +08:00

@bmos iconv 一条命令的事情，少写点代码（

acone2003

2018-09-06 11:36:12 +08:00

谢谢 chenstack，搞定！同时也谢谢楼上两位

raysonx

2018-09-06 11:40:09 +08:00

你说的汉字编码是 GB 吧，ASCII 不支持中文。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/486646

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.