V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
imdoge
V2EX  ›  分享创造

个人开发的 AI 扩展助手,浏览器自动化方向

  •  
  •   imdoge · 3 月 25 日 · 1130 次点击

    自己个人开发的浏览器扩展的一个筹备了很久了重要功能模块,Agent S6 接近正式版

    功能类似 claude for chrome 和 gemini auto browse 和各种 ai 浏览器的 agent auto browse 能力,ai 驱动的浏览器自动化

    不用登录即可自定义 apikey 使用,支持各种 llm provider ,自定义 apikey(BYOK)模式下纯前端运行,对话历史/配置信息/请求都在浏览器端,关注你没那么重要的隐私(雾)~

    最新实现完善了记录 agent 流程为 skill ,后续重放或者在 agent 中再次引用这个 skill ,将几乎不消耗 token 且不经过 llm 瞬间执行(完善和测试中)

    举个栗子: 先说“帮我去起点,全部小说筛选完本的轻小说,按收藏排序,获取搜索结果小说,发到 google sheets”,agent 跑一次这个浏览器自动化后,保存为 skill ,然后重放这个流程除了最后的同步 sheets 节点需要 llm ,其他都是直接根据保存的配置重放的~ 遇到页面变化找不到之前的那个元素了,还会自动请求一次这步来修复这个节点的运行~

    其他各种复杂用例的网页自动化测试结果,通过率不比各家 ai 浏览器/各自动化扩展/本地浏览器自动化框架差,使用简单,配个 apikey 就能用(综合性价比等推荐 gemini-3-flash )

    欢迎各位使用给我反馈~~

    23 条回复    2026-04-02 14:30:35 +08:00
    Liqiniu
        2
    Liqiniu  
       3 月 25 日
    去试试,支持一下
    Gomi
        3
    Gomi  
       3 月 26 日
    刚安装了,真牛。不知道你用什么开发的浏览器插件,有兴趣可以试试 Addfox ( https://addfox.dev
    imdoge
        4
    imdoge  
    OP
       3 月 26 日
    @Gomi 感谢推荐,总结工具看了下,挺新的技术栈,之前调研过当时最出名的几个开源扩展架子框架,但是最后选的当时 star 还不多的 https://github.com/Jonghakseo/chrome-extension-boilerplate-react-vite

    主要是轻一点没那么多学习的负担
    pandatools
        5
    pandatools  
       3 月 26 日
    可以加 minimax 的 api 吗
    imdoge
        6
    imdoge  
    OP
       3 月 26 日
    @pandatools 可以的吧,有 openai/gemini/claude/grok/openai 兼容,这些 provider ,你这个应该是最后一个
    另外 minimax 虽然榜单前列,但不是原生多模态大模型,在复杂任务时会逊色不少(普通的点击跳转什么的倒是影响不大),我测试用下来综合速度成功率性价比最好还是 gemini-3-flash ,当然你有中转站的白菜价官逆顶级模型会更好一点
    jawilx
        7
    jawilx  
       3 月 26 日
    大佬牛啊,简单体验下感觉不错,后面继续试试
    kiss96803
        8
    kiss96803  
       3 月 26 日
    牛的大佬
    saaak
        9
    saaak  
       3 月 26 日
    挺牛逼的,就是界面不支持中文吗
    imdoge
        10
    imdoge  
    OP
       3 月 26 日
    @saaak 汗~输出可以在设置改语言,界面还不行,主要是最开始开发时脚手架没 i18n ,我自己也没弄,现在想界面国际化即使 ai 也有点费劲分散太多了,又没空就一直拖了
    imdoge
        11
    imdoge  
    OP
       3 月 26 日
    btw 其他通用的助手小功能也是自定义 apikey 就能用,什么(多)网页对话/总结,youtube/b 站视频总结/对话,网页数据抓取器,自定义 skills 什么的
    要是没中转站廉价模型,agent 每 step 约 1-2w 输入 token(系统 prompt 固定的没变量,1w 左右,看你的 provider 是否支持缓存),谨慎选择模型……
    izgnod
        12
    izgnod  
       3 月 26 日 via iPhone
    大佬的东西用的不错,有两个体验问题,一个是自定义 skill 没法修改,还有一个是对话框里面按上下键不能回到历史会话
    imdoge
        13
    imdoge  
    OP
       3 月 26 日
    @izgnod
    感谢反馈~ 历史对话在右侧 history 按钮,上下键我考虑下吧。。毕竟不是命令行
    自定义 skill 修改我问产品经理 skill 分析一下产品设计 - - 目前的设计是在 replay 修改,然后再次 replay save as skill ,直接在 skill 修改确实还不行
    P.S skills 还在完善和测试中,目前只有带网页上下文的普通 prompt 模板 skill 和跑之前动作 replay 的 skill ,其实我之前的设想是更复杂的
    imdoge
        14
    imdoge  
    OP
       3 月 26 日
    @izgnod 另外目前的修改还有点不足
    之前设想是比如保存为技能后,输入
    ```
    /my-skill-1
    xx 动作改为 xx ,xx 输入改为 xx
    ```
    这样的,但是目前的自适应修改步骤还不完善,虽然在 replay 里面可以编辑 agent 节点(也还需完善)
    saaak
        15
    saaak  
       3 月 26 日
    @imdoge #10 能不能搞个配置、skill 导出功能,然后可以多端同步这样
    maemolee
        16
    maemolee  
       3 月 26 日
    已安装,我想想有啥场景能体验体验
    imdoge
        17
    imdoge  
    OP
       3 月 26 日
    @saaak 可以…我后面加,现在就是聊天记录/各种配置等都在本地,BYOK 的话请求也本地
    sazima
        18
    sazima  
       3 月 27 日
    imdoge
        19
    imdoge  
    OP
       3 月 27 日
    @sazima 好像登录监听有点 bug ,你再重复登一两次试试就可以了
    另外登录也没送多少,想用自动化 agent 建议用自己的 apikey 不用登也行
    tutou
        20
    tutou  
       3 月 27 日
    用的 Stagehand ?最近在调研自动化测试,感觉和你这个挺像的
    imdoge
        21
    imdoge  
    OP
       3 月 27 日
    @tutou 那个是依赖 playwright 和 cdp 和 nodejs 的吧,我是扩展当然不是,纯浏览器环境 agent 框架能运行的都少,基本是参考各自动化的思路和部分有自己的不同方法自己写了一个
    kylehuangyu
        22
    kylehuangyu  
       3 月 30 日 via iPhone
    imdoge
        23
    imdoge  
    OP
       3 天前
    一些提的小优化改了:
    skill 可修改,编辑保存 replay 可同时保存为 skill ,输入框为空时 ArrowUp 可唤起对话历史。
    导出导入下个版本先吧

    然后就是这次一个比较有影响体验的功能:
    slash command 的快捷 skill(非内置和 prompt skill 那种)可以使用输入来动态修改,并设置某些节点为动态的,以及某些时候执行错误自动修复了~

    举个例子:
    之前一个“访问 xx ,点击 xx ,填写 xx 表单”的功能,想修改 agent 是要到 replay 菜单,修改后保存为 replay 再保存为 skill 来使用的,功能十分深……

    现在是这样的:
    执行一遍“访问 xx ,点击 xx ,再点击 xx ,填写 xx 表单,然后总结 xx”后,保存为 replay 以及同时保存为 skill ,然后直接可以这样执行:

    ```
    /custom-skill
    如果页面有 xx 就点击 xx 否则点击 yy
    同时把填写 a 表单项的值改成 xxx
    ```

    就会自动在 click 的时候重新请求,获取新的点击元素;在 input 的时候把填写的内容替换成新的 xx ;并且如果填写 xx 元素找不到的时候会重新请求来 self-repair

    下个版本仍需继续测试完善,这种动态涉及太多场景了,顺便看看 cc 代码参考点 harness 工程~
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2522 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 11:51 · PVG 19:51 · LAX 04:51 · JFK 07:51
    ♥ Do have faith in what you're doing.