html 文件以 utf-8 编码储存了 \u6211\u5728\u5317\u4eac 这样字符，现在需要在 Python 中将这些解码为 utf-8 ，应该怎么做？

2012-06-13 13:37:48 +08:00

INT21H

5484 次点击

所在节点

4 条回复

fengluo

2012-06-13 13:45:43 +08:00

print u'\u6211\u5728\u5317\u4eac'.encode('utf-8')

INT21H

2012-06-13 14:02:00 +08:00

@fengluo 问题是是个 html 文件，基本上都是这种 href=\"javascript:void(0);\">\u8f6c\u53d1<\/a> ，所以需要先 re 匹配到 \uXXXX 然后才能 encode ，该怎么做呢。。

cute

2012-06-13 14:07:18 +08:00

'\u6211\u5728\u5317\u4eac'.decode('raw_unicode_escape')

INT21H

2012-06-13 14:11:25 +08:00

@cute 十分感谢！

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.