这是一个创建于 2455 天前的主题,其中的信息可能已经有所发展或是发生改变。
需要对 dataframe 中的字符串数据切片,字符串按字符位切片(一个中文占 2 个字符)。
举例:
columnA
I'm 中国, so
You are 中国人
...
取 columnA 每个字符串的第 9 位到第 10 位,则结果应为
,s
中
假设不存在中文字符被分割的情况,应该怎么写?
我理解的方式是:
df.str.decode('gb18030').str.slice(8,10).str.encode('gb18030')
但是 decode 之后的 Series 就不是 str 了,后面调用的 str.slice 等就会报错