抓取网页时,在 url 里 replace 搜索中文关键词之后服务器返回的关键词编码不正确

2016-08-17 12:06:11 +08:00
 ikaros
比如:

http://news.sogou.com/news?&query=site:finance.qq.com+恒生银行&sort=1&mode=2

返回的页面里提示:

本站内没有找到与“ 鎭掔敓阈惰� ”相关的新闻。
似乎是 utf-8 编码,所以是服务器不支持 utf-8 的问题么?
2552 次点击
所在节点    程序员
4 条回复
zerowxxyf
2016-08-17 12:13:39 +08:00
换成 gbk 编码
anyforever
2016-08-17 13:59:20 +08:00
先 url encode 啊
anuxs
2016-08-17 14:03:28 +08:00
URL 是 base64 编码。直接替换写进去当然不对。可以使用其他 http 工具库,替换中文也没事,会给你自动编码。
ikaros
2016-08-17 15:35:27 +08:00
@zerowxxyf
@anyforever
@anuxs thx,用 gbk encode 之后正常了~~~

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/299851

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX