自己个人开发的浏览器扩展的一个筹备了很久了重要功能模块,Agent S6 接近正式版
功能类似 claude for chrome 和 gemini auto browse 和各种 ai 浏览器的 agent auto browse 能力,ai 驱动的浏览器自动化
不用登录即可自定义 apikey 使用,支持各种 llm provider ,自定义 apikey(BYOK)模式下纯前端运行,对话历史/配置信息/请求都在浏览器端,关注你没那么重要的隐私(雾)~
最新实现完善了记录 agent 流程为 skill ,后续重放或者在 agent 中再次引用这个 skill ,将几乎不消耗 token 且不经过 llm 瞬间执行(完善和测试中)
举个栗子: 先说“帮我去起点,全部小说筛选完本的轻小说,按收藏排序,获取搜索结果小说,发到 google sheets”,agent 跑一次这个浏览器自动化后,保存为 skill ,然后重放这个流程除了最后的同步 sheets 节点需要 llm ,其他都是直接根据保存的配置重放的~ 遇到页面变化找不到之前的那个元素了,还会自动请求一次这步来修复这个节点的运行~
其他各种复杂用例的网页自动化测试结果,通过率不比各家 ai 浏览器/各自动化扩展/本地浏览器自动化框架差,使用简单,配个 apikey 就能用(综合性价比等推荐 gemini-3-flash )
欢迎各位使用给我反馈~~
2
Liqiniu 3 月 25 日
去试试,支持一下
|
3
Gomi 3 月 26 日
刚安装了,真牛。不知道你用什么开发的浏览器插件,有兴趣可以试试 Addfox ( https://addfox.dev )
|
4
imdoge OP @Gomi 感谢推荐,总结工具看了下,挺新的技术栈,之前调研过当时最出名的几个开源扩展架子框架,但是最后选的当时 star 还不多的 https://github.com/Jonghakseo/chrome-extension-boilerplate-react-vite
主要是轻一点没那么多学习的负担 |
5
pandatools 3 月 26 日
可以加 minimax 的 api 吗
|
6
imdoge OP @pandatools 可以的吧,有 openai/gemini/claude/grok/openai 兼容,这些 provider ,你这个应该是最后一个
另外 minimax 虽然榜单前列,但不是原生多模态大模型,在复杂任务时会逊色不少(普通的点击跳转什么的倒是影响不大),我测试用下来综合速度成功率性价比最好还是 gemini-3-flash ,当然你有中转站的白菜价官逆顶级模型会更好一点 |
7
jawilx 3 月 26 日
大佬牛啊,简单体验下感觉不错,后面继续试试
|
8
kiss96803 3 月 26 日
牛的大佬
|
9
saaak 3 月 26 日
挺牛逼的,就是界面不支持中文吗
|
10
imdoge OP @saaak 汗~输出可以在设置改语言,界面还不行,主要是最开始开发时脚手架没 i18n ,我自己也没弄,现在想界面国际化即使 ai 也有点费劲分散太多了,又没空就一直拖了
|
11
imdoge OP btw 其他通用的助手小功能也是自定义 apikey 就能用,什么(多)网页对话/总结,youtube/b 站视频总结/对话,网页数据抓取器,自定义 skills 什么的
要是没中转站廉价模型,agent 每 step 约 1-2w 输入 token(系统 prompt 固定的没变量,1w 左右,看你的 provider 是否支持缓存),谨慎选择模型…… |
12
izgnod 3 月 26 日 via iPhone
大佬的东西用的不错,有两个体验问题,一个是自定义 skill 没法修改,还有一个是对话框里面按上下键不能回到历史会话
|
13
imdoge OP @izgnod
感谢反馈~ 历史对话在右侧 history 按钮,上下键我考虑下吧。。毕竟不是命令行 自定义 skill 修改我问产品经理 skill 分析一下产品设计 - - 目前的设计是在 replay 修改,然后再次 replay save as skill ,直接在 skill 修改确实还不行 P.S skills 还在完善和测试中,目前只有带网页上下文的普通 prompt 模板 skill 和跑之前动作 replay 的 skill ,其实我之前的设想是更复杂的 |
14
imdoge OP @izgnod 另外目前的修改还有点不足
之前设想是比如保存为技能后,输入 ``` /my-skill-1 xx 动作改为 xx ,xx 输入改为 xx ``` 这样的,但是目前的自适应修改步骤还不完善,虽然在 replay 里面可以编辑 agent 节点(也还需完善) |
16
maemolee 3 月 26 日
已安装,我想想有啥场景能体验体验
|
18
sazima 3 月 27 日

已经登陆了, 但是还是提示需要登录 |
20
tutou 3 月 27 日
用的 Stagehand ?最近在调研自动化测试,感觉和你这个挺像的
|
21
imdoge OP @tutou 那个是依赖 playwright 和 cdp 和 nodejs 的吧,我是扩展当然不是,纯浏览器环境 agent 框架能运行的都少,基本是参考各自动化的思路和部分有自己的不同方法自己写了一个
|
22
kylehuangyu 3 月 30 日 via iPhone
赞
|
23
imdoge OP 一些提的小优化改了:
skill 可修改,编辑保存 replay 可同时保存为 skill ,输入框为空时 ArrowUp 可唤起对话历史。 导出导入下个版本先吧 然后就是这次一个比较有影响体验的功能: slash command 的快捷 skill(非内置和 prompt skill 那种)可以使用输入来动态修改,并设置某些节点为动态的,以及某些时候执行错误自动修复了~ 举个例子: 之前一个“访问 xx ,点击 xx ,填写 xx 表单”的功能,想修改 agent 是要到 replay 菜单,修改后保存为 replay 再保存为 skill 来使用的,功能十分深…… 现在是这样的: 执行一遍“访问 xx ,点击 xx ,再点击 xx ,填写 xx 表单,然后总结 xx”后,保存为 replay 以及同时保存为 skill ,然后直接可以这样执行: ``` /custom-skill 如果页面有 xx 就点击 xx 否则点击 yy 同时把填写 a 表单项的值改成 xxx ``` 就会自动在 click 的时候重新请求,获取新的点击元素;在 input 的时候把填写的内容替换成新的 xx ;并且如果填写 xx 元素找不到的时候会重新请求来 self-repair 下个版本仍需继续测试完善,这种动态涉及太多场景了,顺便看看 cc 代码参考点 harness 工程~ |