立即停止在 Python 中使用 setdefaultencoding('utf-8')，以及为什么

http://blog.ernest.me/post/python-setdefaultencoding-unicode-bytes

我看了下现在（包括 V2EX 上）还在使用 sys.setdefaultencoding('utf-8') 来解决中文编码问题的有很多，而且很多人在使用的时候压根没有意识到带来的 bug。特写此文与大家讨论。

florije

2016-02-01 12:03:39 +08:00

一点都没说到点上，建议搜下 v2 历史，有个帖子说到了，建议好好看看再 append 。

zjq426

2016-02-01 12:04:08 +08:00

1. 这么用确实方便
2. 这么用确实用 dict 的时候遇到过问题
3. 这么用确实有诡异的疑似 bug 出现，或者说，出现了一些和 naive 理解上偏差

好吧我以后不这么用了，我错了。
所有 text string 都应该是 unicode 类型，而不是 str

zjq426

2016-02-01 12:09:30 +08:00

然而你就不能利用 python2 提供的 unicode=>ascii 转换的便利了

aivier

2016-02-01 12:26:12 +08:00

隔壁 NodeJS 路过看看→_→...GBK 也是比较麻烦的事，要用 iconv

nooper

2016-02-01 12:45:21 +08:00

80 ％以上的代码是不良习惯， 10 是 hacking code 。 10 编的是实质性的代码。奇怪的 hacking code 为什么要写大家一向是 badu 出来的

ernest

2016-02-01 13:56:41 +08:00

@florije 我刚搜索了下，没找到专门对这块做解释的帖子，如你方便还有劳告知。多谢！

ernest

2016-02-01 14:35:58 +08:00

@florije 能告知那篇帖子的地址或者关键词吗，我来找来读下。谢谢！
关键点并不在 print 上吧？任何涉及到 encode/decode 的操作都会出问题。

ernest

2016-02-01 14:41:41 +08:00

@FrankFang128 也还好，能按照最佳实践来不会出问题。只能说 Python 给的糖太多了。

tt0411

2016-02-01 14:44:02 +08:00

python2 脚本开头习惯性添加：
from __future__ import unicode_literals

glasslion

2016-02-01 15:32:41 +08:00

@ernest 支持。我早就想写篇报道，把 setdefaultencoding 批判一番了。可惜，太懒...

ernest

2016-02-01 15:38:47 +08:00

@tt0411 这么做会有一个兼容性问题：

demo1.py
```python
# encoding: utf-8
hello = '你好'

```

demo2.py
```python
# encoding: utf-8
from __future__ import unicode_literals
import demo1
world = '世界'
print demo1.hello + world

```
这时就会有错。

而控制自己的代码都引入是没问题的，但第三方库就没法控制了。

因此还是走最佳实践的几条建议比较妥当。

florije

2016-02-01 15:53:52 +08:00

@ernest 首先三个概念：
1. str is for bytes, NOT strings
2. unicode is for strings
3. UTF-8, UTF-16, and UTF-32 are serialization formats — NOT Unicode
然后尽量别用 print 打印比较。
然后再看看上面的兼容性问题~以及博客里面说的内容~

florije

2016-02-01 16:00:03 +08:00

@ernest 然后你再看看你所说的 encode ， decode 是什么情况？
encode(): Gets you from Unicode -> bytes
decode(): Gets you from bytes -> Unicode
so ，这么来看问题都一点点解决了吧？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/254744

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

立即停止在 Python 中使用 setdefaultencoding('utf-8')， 以及为什么

立即停止在 Python 中使用 setdefaultencoding('utf-8')，以及为什么