Python处理中英文混合字符串, 每20个字符换一行, 应该如何计算呢?

本来用到 textwrap.wrap(text, width=20) 这个方法, 纯中文和纯英文的都没问题, 但是中英混合字符串就不行.
原因就是中英文字符的lenth计算不一样, 求解.

ljbha007

2013-04-27 16:34:46 +08:00

text = text.decode('utf-8')
将字符串转为unicode字符串这样计数就如你的预期了

spark

2013-04-27 16:39:04 +08:00

这种方法不行哦, 中文算成一个字符了...

默认编码: utf-8
Python版本: 2.7.4

>>> msg = "中文123"
>>> msg = msg.decode('utf-8')
>>> len(msg)
5

swulling

2013-04-27 16:47:22 +08:00

@spark 用gbk编码：msg.decode('utf-8').encode('gbk')

因为在gbk里，中文是2个字符

spark

2013-04-27 17:13:35 +08:00

@swulling 还是不行，继续报错.
https://gist.github.com/yandongxu/5472452#file-gistfile1-py

swulling

2013-04-27 17:17:02 +08:00

@spark 你这个例子和2楼不一样，msg一个是unicode，一个是utf8

当然会报错

swulling

2013-04-27 17:17:55 +08:00

@spark 只有在你理解给字符串前面加u""代表了什么，你再去加。。

spark

2013-04-27 17:20:36 +08:00

@swulling 我是在尝试不加u""之前报错, 才加上去的, 两种方法都报错... - -|||

2013-04-27 17:28:59 +08:00

简单的按字节算肯定会出现一个字一半在上一行，一半在下一行的bug

按字算才是对的，出现上下行宽度不一样归根到底是字体宽度问题

还是自己根据文字的unicode范围定制一个字长表(比如英文1, 中文2)写个textwrap吧

swulling

2013-04-27 17:34:42 +08:00

@spark 你这样直接写死20字节，会把汉子拆成两半的。。

spark

2013-04-27 17:53:23 +08:00

@swulling 我把msg中多余的空格手动删掉了, 然后就好用了... 我猜可能是我复制到了看不到的换行符, 在中文部分加入隐藏的换行或者\n, gbk理解不了.

那么, 新的问题又来了, 我如果想在msg中加入换行应该怎么做呢? 我在中文部分加入\n或\r会报错, 在英文部分加入又只会显示空格.

<script src="https://gist.github.com/yandongxu/5472551.js"></script>

ljbha007

2013-04-27 19:15:55 +08:00

@spark
你到底是想要20个字符换行
还是英文字符 * 1 + 中文字符 * 2 = 20的时候换行？

如果是后一种情况肯定会出现汉字被分成两段的情况出现结果就是那个字变成两个乱码