基于浏览器内核的采集

2013-01-05 18:11:39 +08:00
 xing393939
不是很懂curl这样的采集,不知道能不能完全模拟浏览器的特征,像cookie啥的。
如果能有基于浏览器内核的采集,像定时执行firebug那样的去采集,感觉可以降低很多门槛。
比如淘宝商品页的商品介绍图片,可以轻松的拿下了
3460 次点击
所在节点    问与答
14 条回复
binux
2013-01-05 18:18:38 +08:00
对于采集这件事来说,curl无所不能
浏览器内核?干的是渲染的活
sohoer
2013-01-05 18:20:22 +08:00
就算是浏览器还有兼容性问题呢,所以只要满足大部份的采集需求就行了
xing393939
2013-01-05 18:26:59 +08:00
比如 http://item.taobao.com/item.htm?id=162446389 ,想抓取它的商品介绍图片,还得熟悉它的js如何实现的,太费周折了
cxh116
2013-01-05 18:29:29 +08:00
Watir,主要用来搞浏览器自动化测试,也可以用来采集
cxh116
2013-01-05 18:31:19 +08:00
之前用过Watir抓取过淘宝联盟的数据,运行久了会失去响应,必须的kill进程,再重启
另外,同时启动多个浏览器,也会出现未知异常,这个得自己多折腾
xing393939
2013-01-05 18:37:41 +08:00
reusFork
2013-01-05 18:38:01 +08:00
Phantomjs
xing393939
2013-01-05 19:04:26 +08:00
@reusFork 爱你!
guolin
2013-01-06 12:48:16 +08:00
@reusFork 有没有连webkit都不启动,只执行js和解析dom的。因为已启动webkit消耗就大了。
reusFork
2013-01-06 13:21:33 +08:00
@guolin 不知道
luztak
2013-01-06 14:59:15 +08:00
@guolin 考虑下自己改v8?
[路过打酱油
vitohe
2013-01-06 15:30:43 +08:00
clowwindy
2013-01-06 16:20:04 +08:00
@guolin jsdom
guolin
2013-01-06 18:48:33 +08:00
@clowwindy 晚上回家试试, 比如抓取奇艺的视频,如果用解析js的方式就可以完全仿真的抓取地址。如果用其他方式,如果奇艺的规则变了就没法抓了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/56669

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX