2022 了 抓取交互网页结果的最佳方式是什么?

2022-10-09 14:17:47 +08:00
 catsky

目标网页是一个网页表单,填入信息后出结果,看了下也没用 ajax 请求,要获取结果信息是不是一定要用 Selenium 这类模拟点击然后解析结果?

比如 https://online.transport.wa.gov.au/webExternal/registration 输入 6666 获取结果页面的信息

用 js 容易实现吗?请教各位高手

1300 次点击
所在节点    问与答
8 条回复
crab
2022-10-09 14:22:25 +08:00
不需要模拟,首先访问提取出 jsessionid ,再 post 请求得到页面信息。
catsky
2022-10-09 14:39:07 +08:00
@crab 👍
catsky
2022-10-09 14:59:06 +08:00
但是这个网页用 postman 模拟发送 post 请求就过不去,一直提示 access denied , 我把 JSESSIONID 都放了也没用

[https://rego.act.gov.au/regosoawicket/public/reg/FindRegistrationPage]( https://rego.act.gov.au/regosoawicket/public/reg/FindRegistrationPage)
catsky
2022-10-09 14:59:24 +08:00
gam2046
2022-10-09 15:22:22 +08:00
对效率要求不高的话,直接通过 devtools 一把梭上去自动化,只要浏览器能正常显示的,都能弄回来,退一步就是 headless ,但是 headless 有比较明显的特征,也有比较成熟的探测方案。两者速度上基本没太大区别。
estk
2022-10-09 16:27:38 +08:00
如果只是为了数据,直接分析对方的 api 更高效
inktiger
2022-10-09 16:37:43 +08:00
你这个页面我瞅了瞅,貌似直接 api 的方式不容易,第一个页面传参,是到后端组装了,写入 cookie 再返回详细页面,后续刷新也是靠 cookie 里的参数来维持页面内容,我估计只有 selenium 来处理了,用 selenium 关掉图形界面性能也还过得去,如果还觉得性能不行,那再试试 htmlunit 。
catsky
2022-10-09 17:24:28 +08:00
对的 很奇怪的页面渲染方式,要 js 模拟好像很难诶…. 目前挠头中….. https://rego.act.gov.au/regosoawicket/public/reg/FindRegistrationPage
@inktiger

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/885513

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX