有没有办法通过 LLM 操作网页呢？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 78 天前的主题，其中的信息可能已经有所发展或是发生改变。

自己的玩具项目，增加了查看网页、搜索功能。

但是现在遇到一个问题，如果我想更进一步，对网页的元素进行控制，比如自动操作 dom ，实现自动化操作，这个怎么做到呢，感觉仅仅通过 LLM 做不到

chat 本地联网搜索

llm

网页操作

自动化

21 条回复 • 2025-08-04 18:03:08 +08:00

mkroen

78 天前

https://github.com/browser-use/browser-use

connecting

78 天前

@mkroen 原理好像有点复杂嗨，想自己搓一个轮子练习一下，有没有比较简单的方式呢

connecting

78 天前

@mkroen 因为我这边实现的目标也是不同的，我是通过修改 chromium c++实现的，目标是会调用浏览器可以进行人工干预等功能。

skallz

78 天前

我记得之前就有 ai rpa 了，做的事情就和你说的一样，但是个人感觉不是特别靠谱，ai 有幻觉，网站语义化做的也不一定很好，两个不稳定因素相加就更不稳定了

connecting

78 天前 via Android

@skallz 通过 llm 语义，我也感觉有点牵强。好奇，browser-use 它靠什么保证正确呢。。

moefishtang

78 天前

ChatGPT 最近出的 agent 功能好像就是干这个的

maocat

78 天前 via Android

playwright/mcp

blubzz

78 天前

还是依赖大模型本身的能力
可以看这个 https://github.com/hangwin/mcp-chrome/blob/master/README_zh.md

wjx0912

78 天前

https://chromewebstore.google.com/detail/browser-mcp-automate-your/bjfgambnhccakkhmkepdoekmckoijdlc

connecting

78 天前 via Android

感谢各位大佬推荐，回头好好研究下。

突然有个想法，是不是一定得通过视觉才能保证通用性呢。文字和语义毕竟和最终的 ui 有很大的不同。

zheermao

78 天前

自己做推荐微软的 OmniParser, 思路是直接检测视觉元素, 转成文本描述给 LLM, 感觉是更通用的方案, 但是也很吃 LLM 本身的能力

feiniu

78 天前

browser-use 不能保证操作的准确性；特别是当页面比较复杂的时候，准确率很低

hidemyself

78 天前

Midscene

connecting

78 天前

@feiniu 懂了，没有银弹

connecting

78 天前

@maocat Playwright MCP 介绍里面有句话：

“Fast and lightweight. Uses Playwright's accessibility tree, not pixel-based input.”

这个应该是个好的思路。利用 accessibility 的功能来降低难度。

pota

78 天前

https://github.com/hangwin/mcp-chrome 这个插件的功能可以，但是具体的还是得看 llm 本身了

hafuhafu

78 天前

MCP Puppeteer 或者 Playwright 。
我用 Cheery Studio 玩过，大概就是可以自动填表单或者开网页之类的自动化操作，不过那会儿 Cheery Studio 刚上相关功能，有点 bug 就没继续玩了。

konakona

78 天前

可以尝试用 LLM 写 cypress.io （或其他 simulator driver ，具体一点就是 playwright ）感觉可行一些。

kamilic

78 天前

最近在调研一个叫 nanobrowser 的玩意儿，应该是你要的吧

Sylphiette

77 天前

https://browsermcp.io/

Agent 要操作网页基本上都是靠 chrome 扩展通过开发者工具获取 ARIA 树（无障碍），再辅以网页截图，可以参考下

connecting

77 天前

@Heimo 感谢提供信息，我今晚就试试你说的这个 aria 树，看能不能搞个低配版的出来看看效果