中国移动招标,爬虫菜鸡求教,求思路

2021-09-07 09:18:01 +08:00
 rationa1cuzz
网址: https://b2b.10086.cn/b2b/main/listVendorNotice.html?noticeType=2
加了 cookie,加了请求提参数,但是还是没有数据,不知道 ekp1APd1,TB2MFwna 这两个参数是从哪里来的,应该是某个 js 生成,全局搜过这两个参数也没有
如图: https://www.yuque.com/rationa1/ffb538/17108027?artboard_type=artboard&view=&from=
1555 次点击
所在节点    问与答
8 条回复
Blanke
2021-09-07 10:07:42 +08:00
XMLHttpRequest.prototype.send 被重写了,里面添加了 ekp 这两参数,在 c4os60g36d0t.e309c5f.js 生成的 vm 里
rationa1cuzz
2021-09-07 11:16:07 +08:00
@Blanke 大佬 nb,我是新手,要用 exec.js 调用 node 去跑这个 js 吗?有什么学习方向吗?
rationa1cuzz
2021-09-07 11:40:25 +08:00
@Blanke 或者说大佬是怎么找到这个 vm 里的?
Blanke
2021-09-07 13:04:32 +08:00
打 xhr 断点可以找到,黑盒调用可能有检测环境不一定可以,直接还原算是比较难的,建议先搞点简单的长点经验,别一来就搞难的
xingshu1990
2021-09-07 13:07:41 +08:00
新手的话 建议直接使用浏览器生成后的 cookie 直接跑爬虫先。
rationa1cuzz
2021-09-07 13:22:51 +08:00
@Blanke @xingshu1990 搞过一些简单的,稍微复杂的比如字符加密也搞过,这种搜都都不到的还是第一次遇到,这个其实可以使用 selenium 跑出来,但是还是想直接用 requests 试试,我先学着 xhr 打断点吧,还不怎么会
rationa1cuzz
2021-09-07 14:47:26 +08:00
@Blanke 大佬,现在找到位置了,现在是一点点打断点慢慢看,网上也找了一些逆向的练手,感觉如果前端做的复杂点,看起来很累很麻烦。对于这种逆向加密过程有什么学习方向吗?还是说熟能生巧?
如果可以直接 selenium 拿到数据,是不是没有必要再继续研究(时间多的时候再慢慢研究)?
Blanke
2021-09-07 17:40:29 +08:00
你可以先试试 selenium 之类的可不可行,可行的话不追求速度可以直接用,弄出原始算法可能需要多花时间,大部分都是靠经验

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/800293

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX