[php] 寻求一个高效完美的字符编码自动识别转换方法

2014-10-11 16:06:19 +08:00

Doubear

写小偷程序经常遇到这种坑爹问题
国内的网站还有很多都是GBK编码的
对于用惯了UTF8的我来说
这就是个坑
抓取的数据采用iconv()+//IGNORE来转换编码都还是会遇到问题，比如转换失败后一堆乱码
网上查的mb_detect_encoding函数有的环境不支持
艾玛、、求大神给支个招啊
弄个完美点的
拜谢！！！！！

2886 次点击

所在节点

问与答

9 条回复

xiaokai

2014-10-11 16:33:46 +08:00

判断这个不就行了？ <meta charset="UTF-8" />

feiyuanqiu

2014-10-11 16:36:11 +08:00

@xiaokai 想听下思路...

vibbow

2014-10-11 16:40:32 +08:00

@feiyuanqiu 如果网站没有标明meta charset，按GB2312算
如果标明了，那就按标明的算

Doubear

2014-10-11 17:13:19 +08:00

@xiaokai 可惜这不是QQ，不然我肯定发个吐血的表情给你我要的是自动判断后的转换转换编码才是重点啊~~~~

oott123

2014-10-11 17:18:41 +08:00

「有的环境不支持」不是你选择其它方案的理由…毕竟配个 mb 扩展相当之容易。
另外，我建议的方案是，你看看 utf8 或者 gb2312 里汉字的编码范围，用 Unicode 正则检查一下文件里是不是有那些字符。

nilai

2014-10-11 17:23:27 +08:00

头像不错。。。。。。。。。。。。。

xiaokai

2014-10-11 17:40:41 +08:00

@Doubear 都拿到目标网页的编码了转码还存在什么问题？

fising

2014-10-11 17:41:53 +08:00

用 Unicode 正则检查一下文件里是不是有那些字符
--------------------------------------------------------------------
这个正解

BGLL

2014-10-11 18:50:21 +08:00

Mozilla的 universalchardet
FF用这个来预判网页编码

http://www-archive.mozilla.org/projects/intl/UniversalCharsetDetection.html

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/138317

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.