谷歌的蜘蛛要爬那么多国家语言和地区的网页，可以做到识别网页编码方式 100%准确吗？

2017-11-29 11:38:31 +08:00

miniyao

写的爬虫程序经常会遇到编码错误，想想谷歌蜘蛛要爬那么多国家语言的网页，是怎么保证网页编码的正确呢？

自己用的方法就是用 Nchardet 这样的工具先检测下，再者解析 ContentType，最后是强制 utf-8 解析下，搞不定就 pass。做不到 100%的可靠。

毕竟中文网页常用的就那么几个编码方式，谷歌爬虫要解析那么多国家语言的网页，可以做到 100%准确识别网页编码方式吗？

1731 次点击

所在节点

问与答

7 条回复

yu099

2017-11-29 11:46:16 +08:00

你网页打开是怎么识别编码的？别人可是有搞 chrome 的。

ynyounuo

2017-11-29 11:53:50 +08:00

@yu099 刚想说

fiht

2017-11-29 12:18:22 +08:00

哪啥...试试 tika...
我觉得应该是都可以识别的...

billion

2017-11-29 12:36:46 +08:00

Google 的工程师来自全球各个国家。而你只是一个中国人。

imn1

2017-11-29 12:57:16 +08:00

其实这个问题如果预设错误就显得很“无知”“幼稚”了
怎么能把 google 的爬虫预设跟一般人写的爬虫一样呢？

如果用中国大陆境内的服务器，爬境内的网站，简繁英以外的编码占比多少？需要所有编码逐个试一遍么？
除了 GeoIP 外，优化的方法还有很多

binux

2017-11-29 13:24:20 +08:00

直接用 chrome 就好了，如果爬虫看到的是乱码，用户看到的也是。那还爬它做什么？

rogwan

2017-11-29 14:45:45 +08:00

谷歌没有楼主想像的那么完美，Chrome 对没有设定 charset 的页面，一样会解出乱码。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/410431

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.