V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dtgxx
V2EX  ›  Java

Java 或者 Python 有没有工具可以模拟登陆(不知道 post 的 url)

  •  
  •   dtgxx · 2020-07-16 11:28:13 +08:00 · 2514 次点击
    这是一个创建于 1620 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如某个页面是 www.a.com/index.html

    但是它源码里面实际是 post 的 www.a.com/login.html

    有没有什么工具,可以模拟抓到真实的 post 的 url ?

    第 1 条附言  ·  2020-07-16 13:48:26 +08:00
    不好意思,我描述的不太清楚。

    场景是这样的,我有很多 url,进去就是登录页面,这些页面形形色色的,很多点击登录之后都是请求的另外一个 url,我想能不能用什么方式,抓取到这些真实登录接口的 url,然后我好去做 post 。

    如果直接请求我那些登录页面的 url,请求的其实不是真实的登录接口。
    15 条回复    2020-07-16 17:57:19 +08:00
    dtgxx
        1
    dtgxx  
    OP
       2020-07-16 11:40:22 +08:00
    大意是想 模拟某些未知 url 的登录,并返回真实的登录请求的 url
    lxhlxh520
        2
    lxhlxh520  
       2020-07-16 12:24:24 +08:00   ❤️ 1
    浏览器自带的 debugger
    Nich0la5
        3
    Nich0la5  
       2020-07-16 12:29:38 +08:00 via Android
    楼主应该是需要 selenium splash 这种的库吧
    Merlini
        4
    Merlini  
       2020-07-16 12:53:10 +08:00
    puppeteer
    polaa
        5
    polaa  
       2020-07-16 12:55:13 +08:00
    burpsuite
    soulzz
        6
    soulzz  
       2020-07-16 13:21:34 +08:00
    f12
    Fitz
        7
    Fitz  
       2020-07-16 13:28:05 +08:00
    puppeteer
    princelai
        8
    princelai  
       2020-07-16 13:29:05 +08:00
    只要浏览器能访问成功的,你都可以模拟浏览器啊,比如楼上说的 selenium,还能选择用 chromedriver 或者 firefoxdriver 或者无头浏览器
    ym1ng
        9
    ym1ng  
       2020-07-16 13:32:09 +08:00
    如果只是单纯的人工分析请求,抓包工具一大把甚至如楼上说的浏览器的 debugger 就可以。

    不过看楼主的需求似乎是想自动化?那不妨研究一下试试 chrome headless
    zqz19941106
        10
    zqz19941106  
       2020-07-16 14:02:05 +08:00
    fiddler 抓包看看
    dtgxx
        11
    dtgxx  
    OP
       2020-07-16 14:12:39 +08:00
    @lxhlxh520 @Nich0la5 @Merlini @polaa @soulzz @Fitz @princelai @ym1ng @zqz19941106
    感谢大家回复,抓包等方法都可以拿到某 url 真实登录请求的 url,但是这是人工在做。

    我想实现一个接口,传入一个 url,然后我可以后端模拟一次该 url 的真实登录请求,并返回真实登录的 url 。
    enrolls
        12
    enrolls  
       2020-07-16 16:21:21 +08:00
    就是通用型的网站登录,一年前想做,一直都很懒。大概想法是,登录窗口大多数都是表单,表单 post 什么,post 到什么地址,html 上面都有了,通过遍历 html 找含有 login,登入的元素呗。
    dtgxx
        13
    dtgxx  
    OP
       2020-07-16 16:28:14 +08:00
    @enrolls #12 对 差不多是这个思路,formaction 那种的比较容易,ajax 的就想到通过正则去匹配。另外还有很多变种,各种形式的请求方式,很难通过类似穷举的方式获取真实 url 。所以想智能一些,能模拟登录按钮点击,然后拿到请求的真实地址。
    wangritian
        14
    wangritian  
       2020-07-16 17:47:09 +08:00
    你碰到的应该是 30X 状态码跳转
    polaa
        15
    polaa  
       2020-07-16 17:57:19 +08:00
    selenium 结合 图像识别 ?
    解析网页很难做到通用性
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   973 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 22:58 · PVG 06:58 · LAX 14:58 · JFK 17:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.