python里面越晚从unicode转换成string越好吗?

2013-07-08 10:32:45 +08:00
 ufo22940268
我现在在做一个项目,用BeautifulSoup从网上抓一些数据。虽然BeautifulSoup的构造方法里面有一个fromencoding的参数,但是我也不知道是不是指定了这个参数之后获得的unicode是不是就是"utf-8"了。

然后我曾经在python的文档里面看到,python内部处理的时候应该用unicode来处理,而不是string,换句话说越晚调用encode("utf-8")越好。那我就比较费解了,如果说这个unicode对象有可能是utf-8的,也可能是gbk的,那么在程序里面越后面的代码就越难区别这个unicode的编码是什么?那这个问题怎么解决呢?如果及早地转换成string就不存在这个问题。
2957 次点击
所在节点    问与答
4 条回复
ufo22940268
2013-07-08 10:40:17 +08:00
ritksm
2013-07-08 10:43:33 +08:00
unicode对象怎么可能是gbk的 只有bytes(也就是所谓string呗)才能说是“用gbk编码的”吧
swulling
2013-07-08 10:50:19 +08:00
你应该先了解下Python2中的Unicode,就不会说 Unicode可能是gbk了。。。
ufo22940268
2013-07-08 11:36:41 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/75108

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX