请问为什么抓取数据时字符会a变b,双引号变#号等

2013-07-29 11:13:50 +08:00
 csx163
在使用urllib2抓取数据时, 对方是gbk编码先转编码

str=decode('gb18030').encode('utf8')
MySQLdb.escape_string(str)

其他无任何处理了

最后用utf8存入了mysql

但每几千条会碰到一个字符错误,不是a变成b,就是"号变为#号,由于是xml,就变得根本无法解析

请问问题出在哪里呢?
3745 次点击
所在节点    Python
3 条回复
yautou
2013-07-29 12:23:13 +08:00
我以前是傻傻的正则替换,然后忘了现在正确的解决办法=。=
jerntseedee
2013-08-21 12:03:11 +08:00
你好,我在一篇关于portal认证的帖子中看到了你的回复。想请问你对创业有没有兴趣?我的英雄帖,不妨关注下哈:http://www.v2ex.com/t/79537
GordianZ
2013-08-21 12:44:50 +08:00
@jerntseedee 请不要劫持主题,警告一次。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/77297

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX