郁闷,折腾了一周的爬虫

78 天前
 guoguobaba

辛辛苦苦解码 js ,绕开反爬机制,结果他认证的时候加了个手机实名,我艸。

4557 次点击
所在节点    Python
28 条回复
ccloving
78 天前
用影刀
littleG
78 天前
爬虫写的好,牢饭少不了。
ospider
78 天前
国内的网站还是别搞了,现在已经完全没有任何法治可言了,惹急了人家给上边塞点钱,你这就是破坏计算机信息系统安全罪。
guoguobaba
78 天前
@ospider 我做的是 rpa ,客户自己存用户名密码啊
ospider
78 天前
@guoguobaba #4 so ?我的意思就是现在你讲道理已经讲不明白了……
privateproxies
78 天前
哈哈 1 千头 草泥马 汹涌而来
julyclyde
78 天前
@ospider 你觉得“不想被爬”是违法的吗?
yanw
78 天前
@guoguobaba 可以了解下相关判例
macaodoll
78 天前
手机号注册吗?好多家接码平台,随便搞的
yb2313
78 天前
人家隔几天规则一换, 你又要重新搞, 爬虫, 最没有成就感的工作, 应该让 ai 来做 js 逆向
happybabys
78 天前
高端的食材只需要简单的烹饪
somebody1
78 天前
到解码 js 的时候就该用 playwright ,selenium 这种快速搞定,自己的时间比机器的资源值钱
guoguobaba
78 天前
@somebody1 selenium 也需要解 js 啊,瑞数了解一下
somebody1
78 天前
@guoguobaba #13
不用你解,直接从页面抓取结果
xinghusp
78 天前
@guoguobaba 兄弟 别搞了。我正在经历这破事,甚至于对方公司都没有报案也不愿意配合作证,这帮人为了 KPI 还是硬要定罪。我这还是公开接口调用,也无反爬机制。
fbichijing
78 天前
@yb2313 我倒觉得适度的爬虫是很有存在的必要性的,至少对个人来说是这样,可以节省很多劳力和时间。至于 js 逆向花的时间就感觉意义较低。验证码我就觉得根本没时间和精力去搞它,客观上都跟不上它的变化速度。这种过于被动的东西就极其难以提起欲望。
jianchang512
78 天前
国内即便你遵守 robots.txt, 也一样可能吃牢饭
NoOneNoBody
78 天前
最近在重拾前端做自动化,一些网页或网站打开就自动提取信息
不过倒不是爬大量页面,就是打开哪个是哪个,减少一顿 select ctrl-c open ctrl-v close 的手工操作而已

爬虫还是要找些机器一起爬才行,单机单 ip 遇到 5 秒反爬确实搞不了,我以前都是爬外站多,没什么线下问题,最多把我“升级”称为“中国黑客”,笑
zeusho871
78 天前
不要实名的话 这个框架好一点 drissionpage
playwright selenium 有特征 不用去特征版本的就会被检测
WeaPoon
78 天前
@xinghusp #15 哎。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1067921

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX