V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
connecting
V2EX  ›  程序员

有没有办法通过 LLM 操作网页呢?

  •  2
     
  •   connecting · 34 天前 · 2627 次点击
    这是一个创建于 34 天前的主题,其中的信息可能已经有所发展或是发生改变。

    自己的玩具项目,增加了查看网页、搜索功能。

    但是现在遇到一个问题,如果我想更进一步,对网页的元素进行控制,比如自动操作 dom ,实现自动化操作,这个怎么做到呢,感觉仅仅通过 LLM 做不到

    chat 本地联网搜索

    21 条回复    2025-08-04 18:03:08 +08:00
    connecting
        2
    connecting  
    OP
       34 天前
    @mkroen 原理好像有点复杂 嗨,想自己搓一个轮子练习一下,有没有比较简单的方式呢
    connecting
        3
    connecting  
    OP
       34 天前
    @mkroen 因为我这边实现的目标也是不同的,我是通过修改 chromium c++实现的,目标是会调用浏览器可以进行人工干预等功能。
    skallz
        4
    skallz  
       34 天前
    我记得之前就有 ai rpa 了,做的事情就和你说的一样,但是个人感觉不是特别靠谱,ai 有幻觉,网站语义化做的也不一定很好,两个不稳定因素相加就更不稳定了
    connecting
        5
    connecting  
    OP
       34 天前 via Android
    @skallz 通过 llm 语义,我也感觉有点牵强。好奇,browser-use 它靠什么保证正确呢。。
    moefishtang
        6
    moefishtang  
       34 天前
    ChatGPT 最近出的 agent 功能好像就是干这个的
    maocat
        7
    maocat  
       34 天前 via Android
    playwright/mcp
    blubzz
        8
    blubzz  
       34 天前
    还是依赖大模型本身的能力
    可以看这个 https://github.com/hangwin/mcp-chrome/blob/master/README_zh.md
    connecting
        10
    connecting  
    OP
       34 天前 via Android
    感谢各位大佬推荐,回头好好研究下。

    突然有个想法,是不是一定得通过视觉才能保证通用性呢。文字和语义毕竟和最终的 ui 有很大的不同。
    zheermao
        11
    zheermao  
       34 天前
    自己做推荐微软的 OmniParser, 思路是直接检测视觉元素, 转成文本描述给 LLM, 感觉是更通用的方案, 但是也很吃 LLM 本身的能力
    feiniu
        12
    feiniu  
       33 天前
    browser-use 不能保证操作的准确性;特别是当页面比较复杂的时候,准确率很低
    hidemyself
        13
    hidemyself  
       33 天前
    Midscene
    connecting
        14
    connecting  
    OP
       33 天前
    @feiniu 懂了,没有银弹
    connecting
        15
    connecting  
    OP
       33 天前
    @maocat Playwright MCP 介绍里面有句话:

    “Fast and lightweight. Uses Playwright's accessibility tree, not pixel-based input.”

    这个应该是个好的思路。利用 accessibility 的功能来降低难度。
    pota
        16
    pota  
       33 天前
    https://github.com/hangwin/mcp-chrome 这个插件的功能可以,但是具体的还是得看 llm 本身了
    hafuhafu
        17
    hafuhafu  
       33 天前
    MCP Puppeteer 或者 Playwright 。
    我用 Cheery Studio 玩过,大概就是可以自动填表单或者开网页之类的自动化操作,不过那会儿 Cheery Studio 刚上相关功能,有点 bug 就没继续玩了。
    konakona
        18
    konakona  
       33 天前
    可以尝试用 LLM 写 cypress.io (或其他 simulator driver ,具体一点就是 playwright )感觉可行一些。
    kamilic
        19
    kamilic  
       33 天前
    最近在调研一个叫 nanobrowser 的玩意儿,应该是你要的吧
    Heimo
        20
    Heimo  
       33 天前   ❤️ 1
    https://browsermcp.io/

    Agent 要操作网页基本上都是靠 chrome 扩展通过开发者工具获取 ARIA 树(无障碍),再辅以网页截图,可以参考下
    connecting
        21
    connecting  
    OP
       33 天前
    @Heimo 感谢提供信息,我今晚就试试你说的这个 aria 树,看能不能搞个低配版的出来看看效果
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2556 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 05:13 · PVG 13:13 · LAX 22:13 · JFK 01:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.