dataframe 对含中文的字符串按字符位切片

2018-02-26 15:55:48 +08:00
 yeyu1989
需要对 dataframe 中的字符串数据切片,字符串按字符位切片(一个中文占 2 个字符)。
举例:
columnA
I'm 中国, so
You are 中国人
...

取 columnA 每个字符串的第 9 位到第 10 位,则结果应为
,s


假设不存在中文字符被分割的情况,应该怎么写?

我理解的方式是:
df.str.decode('gb18030').str.slice(8,10).str.encode('gb18030')

但是 decode 之后的 Series 就不是 str 了,后面调用的 str.slice 等就会报错
3928 次点击
所在节点    Python
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/432803

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX