花式反爬之某众点评网

2019-04-25 11:50:00 +08:00
 Northxw

  某众点评网的反爬措施是真的🐮,但误伤率也比较高。如果没有加农炮(加强型爬虫代理 IP ),获取到的数据量会少之又少。

  除此之外,该网站设置了多种反爬措施,多种数据逻辑障碍等来 ban 爬虫,是我目前为止碰到的最难缠的网站。

  但是如果你真的造完该站点的爬虫程序,你会发现维护很累,基本上一天一个样(可能有点夸张)。但是作为训练目标,真的很有收获。

https://github.com/Northxw/Dianping 项目已提交 github,欢迎提交 issue。

8642 次点击
所在节点    Python
54 条回复
PP
2019-04-25 12:01:55 +08:00
我记得在一篇文章里面读到过一个说法,反爬不是为了阻止爬虫,而是为了增加爬虫难度,所以要一天一个样,比的就是勤勉。

有谁能够讲一讲爬虫和反爬的道理?论理不论事。请不吝赐教!
Klingon
2019-04-25 12:09:13 +08:00
#1 "比的就是勤勉" 🐂
lhx2008
2019-04-25 12:13:36 +08:00
只要能被用户看到,理论上就可以被爬,但是大规模的爬已经有很多方法控制,现在就是小规模爬取上面打游击战
@PP
dcalsky
2019-04-25 12:22:02 +08:00
楼主有研究过登录吗?登录接口需要带 cookie 才能成功的那种,而 cookie 的获取方式需要在页面上触发 click 事件从而发 http request。
ml1344677
2019-04-25 12:25:21 +08:00
@dcalsky 所以 cookie 池出现了
dot2017
2019-04-25 12:25:57 +08:00
点评是真的变态,我现在网页版基本就处于没法用的状态,打开一家餐厅就验证,验证以后还不会自动跳转
lithiumii
2019-04-25 12:31:54 +08:00
点评我网页版也经常用不了,后来才知道是反爬……
n329291362
2019-04-25 12:32:49 +08:00
爬客户端协议🌚
Northxw
2019-04-25 12:47:51 +08:00
@n329291362

@lithiumii 哈哈,被坑了吧

@dot2017 公认的反爬比较变态的一家站点。

@dcalsky 登录如果只要 cokkies 而没有加密参数,应该很 easy 的,但是不清楚你说的具体情况是什么

@lhx2008 确实,但是当反爬成本比较高的时候,比如大众点评,维护费用真的很高的。

@PP 没有真正的反爬,只有难度的加深,最终....
ml1344677
2019-04-25 12:53:07 +08:00
@PP 高德的反爬从来不会限制你 IP 对服务器的访问,我需要抓取的数据里面有一个 list,顺序很重要。高德的反爬是将这个 list 的排序打乱,而你又要花计算成本去计算这个 list 是否正确。所以根本不是反爬虫,而增加了爬虫成本。
PP
2019-04-25 12:59:47 +08:00
@lhx2008 谢谢指点!祝好!

@Northxw 您和那篇文章作者有同样的看法,看来高手在一些问题是是有很强的共识的。

@vcinex 借地回复。您两天前 @ 我的信息今天才到,而且那篇文章我没有权限看到。根据文章的标题和您提出的问题,我大致猜测了一下事由,尝试回复和探讨一下。对于二次 clone 后再分享,要拆开,二次 clone 没问题,再分享会因为缺少授权而受到法律限制。在理论法律环境下,可能会因为不满足立案条件或难以评估损失而无法追责。现实中,口袋罪。我不是律师,信口开河,当不得真。
PP
2019-04-25 13:01:50 +08:00
@ml1344677 似乎可以理解为增加重复性成本?受教!感谢!祝好!
Ultraman
2019-04-25 13:07:12 +08:00
@PP 感谢大佬指点。
另,长见识了才知道还有口袋罪这么个说法…
l0wkey
2019-04-25 13:14:19 +08:00
17 年时候学习 pyspider 框架时候练手爬过, 爬了 1200w+的页面,基本没感受到反爬😂...
TheBestSivir
2019-04-25 14:01:35 +08:00
别光爬啊,多用用我司产品啊。再爬就给你们爬倒闭了呀
stephenliubp
2019-04-25 14:18:32 +08:00
看看我的这个 Web 端反爬虫方案 : https://github.com/FantasticLBP/Anti-WebSpider
Northxw
2019-04-25 14:22:26 +08:00
@stephenliubp 可以的

@l0wkey 哈哈 都过时了

@TheBestSivir 哎吆。。
dcalsky
2019-04-25 14:38:37 +08:00
@Northxw 获取 cookie 很麻烦,需要真实的浏览器环境才行。
Aliennnnnn
2019-04-25 14:55:21 +08:00
@dcalsky 用 puppeteer 呀
JCZ2MkKb5S8ZX9pq
2019-04-25 15:09:21 +08:00
说到某团我就来气。
去年我们好好地爬着 x 红书,给客户做媒体方案,顶多限制 ip 频次,但也能用。

然后大众 X 评 tm 就整个爬了 x 红书,把一堆现成的帖子评论放自己产品里,结果 x 红书立刻升级了反爬……
大众 X 评自己嘛坑得一逼,贼当久了看谁都像贼。网页版正常访问,开一个页面都要验证至少两次。
已经删了,偶尔用下小程序。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/558529

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX