懂 Python selenium 的大神进,请教个问题

2016-08-15 13:04:36 +08:00
 kukuwhu

Python selenium 的 webdriver 如何可以获取到一个 url get 请求下的所有子资源的请求?比如图片, js,jsoup 之类的; 需求是想做爬虫,但有些信息在页面上并不显示,只有在子请求返回的 jsoup 里才有,我要找到这个 jsoup 的 url 请求,然后再单独发起一次 get 即可获取到我想要的数据;不要问为什么不直接 F12 从 network 里抓包找到对应的 http 接口,这个接口带有签名,只有通过 selenium 访问生成签名后,再基于带有签名的 url 去拿数据,这也是为什么要用 selenium 的原因。 我目前的思路有两个:

  1. 基于 scapy 抓包,找到对应的 url ,再单独发起请求。 2.打开 chrome://net-internals/#events 进行监听找到对应的 url 。 这两个方法都比较麻烦,不知道 selenium 有没有自带的接口可以获取到所有 url 的请求, get_log () 里也没找到。 或者说 selenium 如果能直接捕获到子 url 请求的结果也可以,比如某个子请求的 url 返回的 jsoup 。理论上一定是捕获到了的,要不然后无法生成最终页面,只是不知道如何单独提取出来。
2730 次点击
所在节点    Python
8 条回复
ziXiong
2016-08-15 13:13:25 +08:00
不太明白为什么要找到 url 后单独发请求。 直接通过 selenium 模拟行为,触发你想要的页面加载不可以吗
billion
2016-08-15 13:16:51 +08:00
首先你需要知道那个子请求时怎么触发的,例如屏幕往下滚动,还是点某个按钮。

通过调用 webdriver 接口,或者的直接执行 javascript 来模拟这些触发条件。
billzhuang
2016-08-15 13:46:22 +08:00
有同样的需求,真巧
lxy
2016-08-15 13:52:55 +08:00
找到他生成签名的方式。
kukuwhu
2016-08-15 14:09:36 +08:00
@ziXiong 页面显示的内容不完整,比如 jsoup 里有5个字段,页面中只用了3个,另外两个通过页面无法抓取。
kukuwhu
2016-08-15 14:11:45 +08:00
@billion 并不是通过外部控件触发,而是类似 ajax ,自动发起的。
lisztli
2016-08-15 18:47:34 +08:00
不一定非得跟 selenium 过不去,使用 twisted 或者 tornado 给出的 demo 中的 proxy 的例子,将经过 proxy 的全部流量都写到磁盘上,然后请求结束后,去对应的文件中找你需要的信息去。
zeq
2016-08-16 00:03:24 +08:00
有个东西叫 splash 能满足你的要求

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/299371

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX