谷歌的蜘蛛要爬那么多国家语言和地区的网页,可以做到识别网页编码方式 100%准确吗?

2017-11-29 11:38:31 +08:00
 miniyao
写的爬虫程序经常会遇到编码错误,想想谷歌蜘蛛要爬那么多国家语言的网页,是怎么保证网页编码的正确呢?

自己用的方法就是用 Nchardet 这样的工具先检测下,再者解析 ContentType,最后是强制 utf-8 解析下,搞不定就 pass。做不到 100%的可靠。

毕竟中文网页常用的就那么几个编码方式,谷歌爬虫要解析那么多国家语言的网页,可以做到 100%准确识别网页编码方式吗?
1731 次点击
所在节点    问与答
7 条回复
yu099
2017-11-29 11:46:16 +08:00
你网页打开是怎么识别编码的?别人可是有搞 chrome 的。
ynyounuo
2017-11-29 11:53:50 +08:00
@yu099 刚想说
fiht
2017-11-29 12:18:22 +08:00
哪啥...试试 tika...
我觉得应该是都可以识别的...
billion
2017-11-29 12:36:46 +08:00
Google 的工程师来自全球各个国家。而你只是一个中国人。
imn1
2017-11-29 12:57:16 +08:00
其实这个问题如果预设错误就显得很“无知”“幼稚”了
怎么能把 google 的爬虫预设跟一般人写的爬虫一样呢?

如果用中国大陆境内的服务器,爬境内的网站,简繁英以外的编码占比多少?需要所有编码逐个试一遍么?
除了 GeoIP 外,优化的方法还有很多
binux
2017-11-29 13:24:20 +08:00
直接用 chrome 就好了,如果爬虫看到的是乱码,用户看到的也是。那还爬它做什么?
rogwan
2017-11-29 14:45:45 +08:00
谷歌没有楼主想像的那么完美,Chrome 对没有设定 charset 的页面,一样会解出乱码。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/410431

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX