请教一个 Python pandas 数据编码的问题

2021-12-13 22:29:25 +08:00
 zxCoder

出错代码:


try:
    num_unique = data.nunique()
except UnicodeEncodeError:
    print(type(data))
    for i,v in data.items():
        print(i,v)

data 是很多个 pandas Series 中的一个

总是跑到某个 data ,就在这里出错,报错是

UnicodeEncodeError: 'utf-8' codec can't encode characters in position 41-42: surrogates not allowed

而且也无法打印出这个 data 的数据,这是为什么呢?不知道怎么解决

589 次点击
所在节点    问与答
1 条回复
3dwelcome
2021-12-13 23:45:06 +08:00
不懂 py, 但我知道 surrogates 的意思。是指普通 UNICODE 扩展后,四字节的 UNICODE 片区。

通常范围是 U+D800 - U+DFFF ,可以考虑把数据过滤一次,utf8->unicode 双字节,遍历一次,把范围内的 surrogates 全部干掉就可以了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/821975

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX