现在爬虫对付脚本构造的网页还有什么方法,除了 selenium

2021-04-03 17:04:20 +08:00
 imn1
前情,爬 baidu image,搜些图片玩玩 learning,发现不少轮子都废了,查了下页面源码,基本是 js 输出数据
之前就遇到 douban movie 用 js 构造问题,还好爬的东西不多,不急切,弄个 selenium 扔后台降低频率跑就是了

现在感觉越来越多网页 js 的作用很大,总以调起浏览器方式作用不大,也不好玩(没满足感🐶)
看看现在有什么新技能,可以纯命令行完成
5036 次点击
所在节点    Python
21 条回复
rekulas
2021-04-07 21:43:20 +08:00
@imn1 浏览器可以禁用更新的,你也可以下载 portable 版本,爬虫浏览器基本不需要更新,配置一次就一直可用,楼上提到的 rod 也自带了全套工具直接 docker 即可使用无需考虑环境了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/767807

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX