如何分析网页的 XHR 的 URL

2020-08-04 16:42:07 +08:00
 whendada

如题,最近工作跟爬虫有关,有一部分是从网页的特定 XHR 中获得数据。想写一个通用的程序来实现,Java 语言。老大给我的方向是分析各个需要爬虫的网站的 xhr 的 url,但我看的一些网页中 url 的规律都不同,实在很困扰,特来求助,谢谢大家。

2040 次点击
所在节点    Java
5 条回复
brazz
2020-08-04 17:05:15 +08:00
先把浏览器的调试工具用好了
LinsVert
2020-08-04 17:12:39 +08:00
直接 python,用爬虫框架一下就出来了,url 用 xpath,regx 差不多就能出来了
goofool
2020-08-04 17:15:24 +08:00
下载一个 postman,开代理模式,然后导出 python 脚本美滋滋
whendada
2020-08-04 17:44:47 +08:00
@goofool OK 我看看,谢谢
whendada
2020-08-04 17:45:32 +08:00
@LinsVert 工作要求得用 Java,先看看你说的,谢谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/695569

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX