Python +selenium 爬虫遇到诡异反扒

2019-10-12 15:54:48 +08:00
 ITheihu

不同的账号登入同一个网址,登陆进去后标签的 id 属性值自动改变,怎么做到批量爬取。(不然一个程序只能爬一个账号,换个账号因为 id 属性值的改变就无法爬取) 头都大了......!

4032 次点击
所在节点    Python
15 条回复
kran
2019-10-12 16:13:35 +08:00
结构不变就用标签?
yidinghe
2019-10-12 16:17:53 +08:00
可能前端纯粹是为了方便把用户 ID 拼到里面,没想到成了反扒手段
Hopetree
2019-10-12 16:22:29 +08:00
重要的是结构,不是 ID,这种根本不能算反爬,你为啥非要用 ID 去定位?? xpath 选择器,selecter 选择器哪个限定了只能用 ID 吗
nullboy
2019-10-12 16:24:03 +08:00
楼上+1
linvaux
2019-10-12 16:27:43 +08:00
楼上已经给出答案了
ClericPy
2019-10-12 16:37:49 +08:00
这太难猜了, 给个 HTML 例子让人测测选择器也好啊
ITheihu
2019-10-12 16:59:55 +08:00
不知道怎么描述!全网站禁止右键功能,层层都有 iframe,头大啊
cwjokaka
2019-10-12 17:08:10 +08:00
不用 id 选择就行了啊
crab
2019-10-12 17:11:59 +08:00
正则,或者找出账号和 id 关系。
Rubbly
2019-10-12 17:13:33 +08:00
这根本不算反爬+1.
禁止右键,但是查看源代码的方法有很多啊。F12 或者先开一个 DevTool window 再导航过去或者油猴弄个脚本都能解决的。
dji38838c
2019-10-12 17:20:45 +08:00
标题党呀,这算什么“诡异反扒”

看标题,期待的是:网站把你本机给爬了,那才叫做真“诡异”
Juszoe
2019-10-12 17:56:07 +08:00
楼主技术不过关啊,禁止右键都绕不过
515576745
2019-10-12 17:58:26 +08:00
技术问题吧, 练多就好了
inoizyz
2019-10-12 18:12:39 +08:00
1.这网页不是我做的。
2.我经常干这事,偷懒不用 cookie。
3.我不是前端。
locoz
2019-10-12 18:50:29 +08:00
根本算不上问题的问题...结合早上那个贴子看效果更佳 水文太多了,小白连这么基础的东西都没搞清楚。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/608653

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX