有人喜欢写爬虫用浏览器扩展来实现的吗?

33 天前
 s2555

要爬网页的时候,每次用 python 写都是容易跳出验证,有些要登录的更麻烦,后来我发现写浏览器扩展,直接操作当前的页面好像不用考虑那么多情况,爬到的数据直接发到接口处理。所以问下大家,我这个是 Python 用得不好,技能点歪了吗?

3106 次点击
所在节点    Python
42 条回复
cyhlnj
33 天前
扩展怎么写的
aladd
33 天前
同策略,因为我不会写代码,过验证对我来说太难了,外加我维护的小玩具难度太低了,有结果就行。
所以我一直这么玩的,并很满意!
callmejoejoe
33 天前
看需求,简单少量的数据爬取用扩展也可以,就是速度慢,还得开着电脑浏览器不休眠
fidcz123
33 天前
想问下有些页面 js 调用 click 不生效,这个怎么处理?
尝试过事件以及网上大部分操作都无效

对于多页之类的总不可能一个个手动点
815979670
33 天前
写扩展也麻烦 可以写油猴插件 JS 就能操作
AFOX
33 天前
@fidcz123 加一个 delay 试试
lisxour
33 天前
无头啊,浏览器扩展不觉得很受限嘛?完全吃力不讨好
TimePPT
33 天前
playwright+无头浏览器,解决 80%问题
tool2dx
33 天前
@lisxour cf 防火墙访问限制开高的话,无头很难爬,动不动就跳验证。
yahon
33 天前
简单的我一般用这个插件 https://tenrabbits.github.io/user-js-css-docs/
irever
33 天前
简单使用的话可以试试 WebScraper
picone
33 天前
量少的话确实很方便,直接兼容所有反爬策略,验证码除外。 我喜欢用 automa 这个插件,不用自己手写。
mc2tap
33 天前
确实,经常用 puppeteer 做
sofukwird
33 天前
https://www.v2ex.com/t/1028977#reply50
把页面资源通过 http proxy 代理暴露出来
hanssx
33 天前
不是,你扩展怎么就能过 cf 了吗?还是说你手动过了 cf ,扩展再工作,那你这顶多半自动化。
kkk1234567
33 天前
selenium ,直接用浏览器爬
Vegetable
33 天前
没歪,这样挺好的。
包括使用 MITM 代理+手动翻页,都是可行的方案。前提是看你什么需求。

对自动化要求高、规模大的当然不行,但很多爬虫其实不是这样的需求。
lisxour
33 天前
@tool2dx 那也可以直接 playwright 自动化控制浏览器啊,本质就是跟自己打开浏览器一样的,啥方案不比浏览器扩展强
mumbler
33 天前
无头浏览器才是正确姿势
freewind
33 天前
C# + webview2 自己做浏览器爬

扩展限制了很多权限

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1112944

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX