PHP 抓取网页 Title 中文乱码

StackOverflow上找了一大圈,这个似乎是最靠谱的,但有点不符国情

function getPageTitle($url){
$doc = new DOMDocument();
@$doc->loadHTMLFile($url);
$xpath = new DOMXPath($doc);
return $xpath->query('//title')->item(0)->nodeValue;
}

大部分网站的title都可以抓到
有一部分会乱码,比如淘宝(因为charset是gbk的缘故?),除了英文字符外汉字全是乱码
有什么解决办法吗?

Actrace

2014-05-07 11:24:13 +08:00

mb_convert_encoding实际上不是一个比较好的方案。

alex321

2014-05-07 11:48:50 +08:00

检测一下编码，然后尝试对应转换，不要直接用 mb_convert_encoding。

kamal

2014-05-07 12:44:50 +08:00

检测网页内容编码，然后转码，不要只检测head声明的编码。
有可能head声明编码与内容实际编码不一致。

shiny

2014-05-07 12:47:37 +08:00

应该尽量模拟浏览器的识别：
1、识别 header 中的 content_type 附带的 charset 设置
2、如果没有，识别 meta 中的编码声明
3、html 里的 head 后面增加一个编码的声明，方便 DOMDocument 识别。

通过这些操作后，title 乱码的情况基本消灭。
代码在这里 https://github.com/shiny/PandaOpenNode/blob/master/upload/title.php

gangsta

2014-05-07 13:04:10 +08:00

@shiny
试了下,很不错,大部分乱码都解决了

淘宝店铺首页好像抓不了~~

shiny

2014-05-07 13:58:15 +08:00

@gangsta 试了下是可以抓的，你可以在 http://baidu.pandaidea.com/ 测试标题有没有正常抓取到，代码就是 github 上的。

shiny

2014-05-07 14:18:17 +08:00

@gangsta 没被墙吧。
这样，我做了个最小化的例子
你说的店铺首页应该就是一个店的首页吧？

http://monitor.shiguanglu.com/demo/?url=http%3A%2F%2Fhztyhy.taobao.com

gangsta

2014-05-07 14:24:01 +08:00

@shiny

你那边是OK的,我再检查下,再次感谢.

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/111444

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.