PHP 抓取网页 Title 中文乱码

2014-05-07 09:41:48 +08:00
 gangsta
StackOverflow上找了一大圈,这个似乎是最靠谱的,但有点不符国情

function getPageTitle($url){
$doc = new DOMDocument();
@$doc->loadHTMLFile($url);
$xpath = new DOMXPath($doc);
return $xpath->query('//title')->item(0)->nodeValue;
}

大部分网站的title都可以抓到
有一部分会乱码,比如淘宝(因为charset是gbk的缘故?),除了英文字符外汉字全是乱码
有什么解决办法吗?
3628 次点击
所在节点    PHP
11 条回复
tension
2014-05-07 09:47:54 +08:00
转码!
catfan
2014-05-07 10:27:15 +08:00
mb_convert_encoding($title, 'UTF-8')
Actrace
2014-05-07 11:24:13 +08:00
mb_convert_encoding实际上不是一个比较好的方案。
alex321
2014-05-07 11:48:50 +08:00
检测一下编码,然后尝试对应转换,不要直接用 mb_convert_encoding。
kamal
2014-05-07 12:44:50 +08:00
检测网页内容编码,然后转码,不要只检测head声明的编码。
有可能head声明编码与内容实际编码不一致。
shiny
2014-05-07 12:47:37 +08:00
应该尽量模拟浏览器的识别:
1、识别 header 中的 content_type 附带的 charset 设置
2、如果没有,识别 meta 中的编码声明
3、html 里的 head 后面增加一个编码的声明,方便 DOMDocument 识别。

通过这些操作后,title 乱码的情况基本消灭。
代码在这里 https://github.com/shiny/PandaOpenNode/blob/master/upload/title.php
gangsta
2014-05-07 13:04:10 +08:00
@shiny
试了下,很不错,大部分乱码都解决了

淘宝店铺首页好像抓不了~~
shiny
2014-05-07 13:58:15 +08:00
@gangsta 试了下是可以抓的,你可以在 http://baidu.pandaidea.com/ 测试标题有没有正常抓取到,代码就是 github 上的。
gangsta
2014-05-07 14:11:06 +08:00
@shiny 打不开,被墙了?
shiny
2014-05-07 14:18:17 +08:00
@gangsta 没被墙吧。
这样,我做了个最小化的例子
你说的店铺首页应该就是一个店的首页吧?

http://monitor.shiguanglu.com/demo/?url=http%3A%2F%2Fhztyhy.taobao.com
gangsta
2014-05-07 14:24:01 +08:00
@shiny

你那边是OK的,我再检查下,再次感谢.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/111444

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX