有哪些推荐的浏览器级爬虫工具/框架/平台?

2018-11-26 17:00:24 +08:00
 mytry
现在有些网站的数据都是前端动态生成的,用传统爬接口的方式很难获取,只能通过浏览器级的自动化工具,先对页面进行渲染然后再获取数据。

目前主流的工具,除了 PhantomJS、WebDriver、Puppeteer 还有哪些?

有些网站为了保护数据,需要有用户行为才能进一步渲染数据,所以还需要模拟真实的用户行为。不知现在是否有比较成熟的模拟行为的爬虫平台(收费也可以)?
2048 次点击
所在节点    程序员
3 条回复
flybird
2018-11-26 17:19:15 +08:00
要啥自行车? Puppeteer 已经是目前为止爬虫辅助的最牛逼的工具了!
myhot21
2018-11-26 17:57:25 +08:00
用 selenium+代理 ip,目前除了因为复杂验证码原因外,还未遇到过不能抓取的网站。
1010543618
2018-11-26 18:55:33 +08:00
PhantomJS 都不更新了吧,感觉还是得靠 FF,Chrome 的无界面模式

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/511661

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX