基于浏览器内核的采集

不是很懂curl这样的采集，不知道能不能完全模拟浏览器的特征，像cookie啥的。
如果能有基于浏览器内核的采集，像定时执行firebug那样的去采集，感觉可以降低很多门槛。
比如淘宝商品页的商品介绍图片，可以轻松的拿下了

binux

2013-01-05 18:18:38 +08:00

对于采集这件事来说，curl无所不能
浏览器内核？干的是渲染的活

sohoer

2013-01-05 18:20:22 +08:00

就算是浏览器还有兼容性问题呢，所以只要满足大部份的采集需求就行了

xing393939

2013-01-05 18:26:59 +08:00

比如 http://item.taobao.com/item.htm?id=162446389 ，想抓取它的商品介绍图片，还得熟悉它的js如何实现的，太费周折了

cxh116

2013-01-05 18:29:29 +08:00

Watir,主要用来搞浏览器自动化测试,也可以用来采集

cxh116

2013-01-05 18:31:19 +08:00

之前用过Watir抓取过淘宝联盟的数据,运行久了会失去响应,必须的kill进程,再重启
另外,同时启动多个浏览器,也会出现未知异常,这个得自己多折腾

xing393939

2013-01-05 18:37:41 +08:00

guolin

2013-01-06 12:48:16 +08:00

@reusFork 有没有连webkit都不启动，只执行js和解析dom的。因为已启动webkit消耗就大了。

luztak

2013-01-06 14:59:15 +08:00

@guolin 考虑下自己改v8?
[路过打酱油

guolin

2013-01-06 18:48:33 +08:00

@clowwindy 晚上回家试试，比如抓取奇艺的视频，如果用解析js的方式就可以完全仿真的抓取地址。如果用其他方式，如果奇艺的规则变了就没法抓了。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.