如何爬取数据源 url 动态变化的网址?

2018-05-05 20:35:41 +08:00
 smallQ

无意间发现一个网站 七麦数据
咦~这数据好像还蛮有意思的,尝试爬取一波。 这也太简单了吧,不就是 XHR 加载的嘛,数据都给我装好了 https://api.qimai.cn/rank/indexPlus/brand_id/2?analysis=dDB4Fi8wUEF1J2VAfndkQy8II0YHIn8WUT1xCVAEVlp5Rx4TAwpcGlENVFFLY11MEkoHRwQLVTxZARxUchVSBgpdBlFUUQEMDiMTBQ%3D%3D&brand=all&country=cn&device=iphone&genre=36&date=2018-05-05&page=1
有个参数 analysis,这么大一串,怕是有问题,多请求几次,,果然,这个参数在变化,而且前面的链接也失效了 Q_Q..
好吧,定位到这个文件夹 static.qimai.cn/static/js/app.5aed8c28e91d77a9f578.js ,,无奈 js 是个渣渣。。
想问下这种网页的话,除了 selenium 和分析 js,还有没有什么方法?分析 js 的话,有没有什么小技巧?
跪等大神分享

5355 次点击
所在节点    Python
16 条回复
des
2018-05-05 20:38:55 +08:00
还是上 selenium 吧
smallQ
2018-05-05 20:39:37 +08:00
@des emmm...
des
2018-05-05 20:46:57 +08:00
@smallQ 之前做煎蛋的反加密,是把 js 下载下来,然后调用关键解密函数,手工分析加密太麻烦,而且指不定什么时候又改了
locoz
2018-05-05 20:47:34 +08:00
分析不了就 selenium 之类的吧
smallQ
2018-05-05 20:52:35 +08:00
@des 好吧,tks
lxy
2018-05-06 00:05:43 +08:00
可以请教一下你的前端同事,这种分析对他们来说应该不难
xiaobai987
2018-05-07 08:56:31 +08:00
你还别说 这网页挺复杂的 有时间分析下
helloiac
2018-05-07 10:33:53 +08:00
无非是 js 中有个函数生成了一个加了时间戳的密钥,然后过几分钟失效,把 js 格式化一下找找,应该不难定位函数。
yixiugegegege
2018-09-17 17:48:46 +08:00
问一下 我连 analysis 参数都搜不到了,请问下怎么搜到这个参数名呢
smallQ
2018-09-17 18:08:02 +08:00
@yixiugegegege 全局搜索,ctrl+shift+f
smallQ
2018-09-17 18:08:58 +08:00
@yixiugegegege 好久没碰了,不知道页面改版没,,感兴趣你可以试下
yixiugegegege
2018-09-18 09:27:11 +08:00
全局搜不到, 是不是采用什么编码方式加密了, 望指点, 试了 16 位编码 ,没找到
yixiugegegege
2018-09-18 11:16:36 +08:00
已经搞定
smallQ
2018-09-18 11:43:26 +08:00
@yixiugegegege 好像页面改版了,应该是换关键字了,,,
smallQ
2018-09-18 11:43:56 +08:00
@yixiugegegege 怎么弄的?
wangjinhui
2019-09-08 22:16:25 +08:00
你好,请问解决了吗,能否指点一下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/452412

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX