为什么某些网站还在用 gbk 作为网页编码

2020-03-31 12:36:54 +08:00
 crella
为什么某些网站还在用 gbk 作为网页编码?

给某个基于 php 的论坛用 ruby 做爬虫,存进数据库再导出来发现其中一部分中文乱码了……

在知乎某贴看到用 gbk 编码网页比用 utf-8 编码省带宽。但是现在大一点的网站不都是注重敏捷开发和百万并发的吗,用 gbk 编码的网页在修改的时候不会造成明显的麻烦的吗?
2426 次点击
所在节点    问与答
9 条回复
qiayue
2020-03-31 12:41:44 +08:00
因为这些网站是十年前开发的,没必要去重构改个编码就为了让爬虫好爬。

另外,搞不定编码的爬虫,怕是还没入门吧
crella
2020-03-31 14:13:29 +08:00
@qiayue 所以你认为的“爬虫入门”需要达到怎样的水平呢?
b821025551b
2020-03-31 14:19:10 +08:00
@crella #2 至少不会吐槽编码
westoy
2020-03-31 14:27:45 +08:00
固定的网站可以写死编码

不是的话
先从 http 头 content-type 里取编码, 没有就去 html 里找 meta content-type 标签取编码
没有 or 用得到的编码解码出错, 就调用 chardet 、enca 之类的库猜编码
tigerstudent
2020-03-31 14:33:13 +08:00
哪有那么多百万并发的站


4 楼说得对。
Gakho
2020-03-31 15:10:43 +08:00
@westoy #4 人家说了,做的 ruby 爬虫 ……
jugelizi
2020-03-31 15:21:27 +08:00
我也觉得 做图像识别 亚洲人还好
非拉的就不行 人类不能都黄皮肤吗
crella
2020-03-31 15:28:07 +08:00
@Gakho 其实并不是什么大事,一时分不清网页编码而已。

我正在试着用 ruby 的中文分词插件,rmmseg-cpp 返回的中文文本可以打印出正确的中文,但是既不是 ascii-8bit,也不是 gbk 或 utf-8,这个更加坑爹。不过想想也是七八年前的库了,没人维护也就算了。

目前在用 jieba_rb,感觉没什么大坑。

nlpir 的 euby 插件的 win 版本与 ruby2.6 的 fiddler 不兼容。
qq292382270
2020-03-31 15:34:36 +08:00
discuz 论坛程序,十几年了,还有 gbk 版本.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/657895

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX