V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
KaiWuBOSS
V2EX  ›  Local LLM

全球本地部署开发者们一起,打造一个真正属于开源社区的 Coding Agent 了

  •  
  •   KaiWuBOSS · 14h 6m ago · 1188 views

    同志们,是时候打造一把真正属于开源社区的 Coding Agent 了!

    现状:我们被大厂“喂屎”,还要自己擦屁股

    我写过 kaiwu(一个本地模型部署器),结果发现——用 Local LLM 做开发的朋友,多得超出想象

    大家不断提需求:上下文压缩、Think 模式开关、联网搜索、工具调用……

    可这些根本不是 Ollama 或 LM Studio 的事
    它们只负责把模型跑起来,至于“怎么让模型变聪明”——那是 Cursor 、Codex 、Hermes 的事。

    但大厂们在干嘛?

    • Cursor 围着自家模型转
    • Codex 靠卖 token 赚钱
    • Hermes 虽开源,却不支持 Windows 原生(逼你装 WSL2 ,劝退一半人)

    它们不会花精力优化本地小模型。
    因为本地跑得爽,谁还买它们的 API ?

    更别提那堵墙了——
    国内网络时断时续,任务跑到一半断连,体验像吃苍蝇。
    想用 Claude ?得找中转、买注水账号、被收割、还被鄙视。

    但墙能拦住资本,拦不住人民。
    国际共产主义精神,就体现在一行行开源代码里。


    痛点:我们每天都被这六把刀捅

    1. 上下文太短,压缩就“失忆”

    • Opus 的 1M 窗口用过就回不去了,永远不用 compact 。
    • 小模型在 8G/16G 显存上只能跑十几 K ,稍微大点的任务直接炸。
    • Hermes 压缩几次就变傻子——忘了自己两轮前说过什么。

    2. 网络像一堵墙,墙内外都是屎

    • CC / Cursor 要稳定连海外,国内断到你怀疑人生。
    • Hermes 非要 WSL2 ,Windows 原生用户吃闭门羹。
    • Web search 要么没有,要么接垃圾商家 API ,搜出来的全是 SEO 污染的结果。

    3. 本地模型连工具都不会用

    • 用户反馈:接 CC 或 Codex ,模型笨得不会调 tool 。
    • 8B 模型干完活丢给你一串代码:“自己复制去运行”。
    • 我是用 CC 习惯的人,这体验等于让我回去用记事本写代码。

    4. 小模型本身能力就那样,但 API 还不让用

    • 8B/14B 失误率高、窗口小、没联网、遇新问题就死机。
    • 你不可能指望小学生解微积分——这是物理规律。
    • 可 A 厂不给国人注册,花钱买注水中转,像交保护费。
      凭什么?

    5. 明明本地运行,却是个没记忆的钢铁废料

    • 在云端不记事,我认了——毕竟没花钱买存储。
    • 我都本地跑了,硬盘 1T 还能加,你却只给我一个 markdown 文件当“记忆”?
      这就像你买了一台超级计算机,结果它每次重启都忘光。

    6. 多模态?视频图片?不存在的

    • 模型本身弱,但更大的问题是——没有专门优化。
    • 闭源 API 也一样烂,但人家收钱不办事。

    部署难、速度慢、硬件要求高这些,我之前的 kaiwu + LM + Turbo 能解决。
    今天我们不聊这些,就聊怎么让 8B 模型跑出 Opus 的体验


    我的革命思路:不用 CC 的依赖强 LLM 串行,改用 LLM 做 Gate + 确定性专家的 MOE 架构

    核心理念
    LLM 只负责当“接线员”,真正干活的是确定性专家——
    不依赖模型“啥都懂”,而是让模型只做一件极小、极明确的事。

    原理一:Agentless 流水线( ICSE 2025 最佳证明)

    不让 LLM 瞎决策,用固定流程 → SWE-bench 上通过率最高,成本最低

    我设计的流程( KWCode ): 用户输入 └─► Gate (毫秒级分类) └─► Locator (精确定位文件/函数) └─► Generator (只改该改的地方) └─► Verifier (语法 + pytest ,失败重试)

    小模型只需要在小窗口里做一件事——失误率暴跌,错误可被当场抓住

    原理二:BM25 + AST 调用图定位(专治“隐藏依赖”)

    论文 CodeCompass 发现一个反常识事实:
    context 越大的模型,反而越容易漏掉架构上关键但语义上遥远的文件——这叫“导航悖论”。

    实验数据( FastAPI 真实项目):

    任务类型 BM25 图遍历
    有明确关键词 100%
    可通过 import 链找到 ~85% ~85%
    完全无关键词的隐藏依赖 76.2% 99.4% 🚀

    我们的实现

    1. BM25 秒级召回 top-20
    2. AST 调用图展开 2 跳(向上找调用者,向下找被调用者)
    3. 发现那些“名字和 bug 无关但实际是根因”的魔鬼函数

    技术栈:tree-sitter + rank-bm25 + SQLite
    零依赖、零 embedding 、零 Docker
    支持:Python · JS · TS · Java · Go · Rust

    原理三:专家飞轮——你的工具越用越强,大厂永远追不上

    来自 EE-MCP (NeurIPS 2025) + WLBS 行为图。

    预置 12 个专家(通用 7 个 + 中国场景 5 个)。
    然后开始飞轮

    • 同类任务成功 ≥5 次 → 自动生成专属专家
    • 新专家经过回测 + AB 测试三道验证门 → 投产
    • 下次同类任务,Gate 直接路由 → 更快、更准

    3 个月后,你的专属专家池——
    Cursor 和 Hermes 永远追不上,因为它们无状态,而你有永久记忆

    专家可以导出、分享形成我们的社区数据资源。

    原理四:失败自动搜索——墙内用 Bing ,墙外用 DDG

    Verifier 连挂 2 次 → 自动触发搜索:

    • 国内网络 → Bing 中文版( cn.bing.com 直连)
    • 正常网络 → DuckDuckGo
    • 提取正文 → 压缩 → 注入 context

    零 API key ,零配置,装完即用。
    想更隐私?自己部署 SearXNG ,数据不出网。


    功能一览(不是为了炫技,是为了解决你的每一天的痛)

    模块 做了什么
    代码定位 BM25 + AST 调用图,99.4% 命中隐藏依赖
    代码修改 只改 patch ,不重写全文,精确匹配
    验证重试 语法 + pytest ,失败回滚,失败 2 次开搜索
    项目记忆 PROJECT.md / EXPERT.md / PATTERN.md 三层分离,按需 BM25 注入
    专家系统 12 预置 + 飞轮自生成 + 可分享安装
    中国本地化 自动切 ModelScope / 清华镜像 / Bing 搜索 / Windows 原生

    我们和“它们”的不一样

    场景 其他工具 KWCode (我们)
    Windows 逼你装 WSL2 cmd / PowerShell 原生跑
    模型下载 HuggingFace 被墙 自动切 ModelScope
    pip 安装 PyPI 慢死 自动切 清华/阿里镜像
    搜索增强 DDG 被墙 自动切 Bing 中文版
    推荐模型 GPT / Claude (要钱/要梯子) DeepSeek · Qwen · GLM(国产免费)

    同志们,这不是一个人的战斗

    我只有一台 5060 8G 显存 16G 内存小破电脑,硬盘还时好时坏,花钱买 api 一个月三四千。 我想要人人为龙时代,而不是 api 独大时代。 所以我想打造 一个真正属于开源社区、不依赖大厂 API 、不被墙、让 8B 模型也能干翻 Opus 的 Coding Agent 。

    我们有论文支撑,有原型代码,有满腔怒火和热血。
    现在还缺你——
    缺每一个受够了被收割、被歧视、被网络暴力的开发者。

    GitHub 仓库近期开放,代码完全开源。
    你可以:

    • 贡献代码( Rust/Python/TS 都行)
    • 分享你的专属专家(.kwx 文件)
    • 提 bug 、写文档、宣传出去
    • 或者只是去点一个 ⭐,让更多人看见

    国际共产主义精神,从一行开源代码开始。
    让大厂去卖 token 吧,我们有自己的工具了。


    行动号召

    👉 有没有更好的思路和路径,上述只是我个人研究
    👉 后续在本链接发布 github ,欢迎 fork 继续深挖

    不要让资本定义“可能”与“不可能”。
    我们说了算。 或许很快,8B 模型真能跑赢 OPUS ,所有人都能拥有独属于自己的智能体

    要不要先建个群,算了 我社恐 不会维护,有事咱们这个链接聊把

    16 replies    2026-04-28 02:32:33 +08:00
    KaiWuBOSS
        1
    KaiWuBOSS  
    OP
       14h 4m ago
    回过头来看 这个帖子怎么写得这么煽动。。。
    其实我就是一个人能力不够想找专家帮忙一起写这个项目,我已经有个 MVP
    这两天把稳定性跑跑就能发仓库了。
    greyfreedom
        2
    greyfreedom  
       13h 58m ago via Android
    支持大佬
    WispZhan
        3
    WispZhan  
       13h 46m ago
    链接呢? 如果是 Rust + TS/Bun.sh 愿意贡献一份力。 我也只有一个小破电脑,AMD 5700X + AMD 6900XT
    KaiWuBOSS
        4
    KaiWuBOSS  
    OP
       13h 42m ago
    @WispZhan A 卡老师很牛的,我之前只弄过 N 卡,请问现在模型有适配 A 卡好的么?
    listenerri
        5
    listenerri  
       12h 52m ago via Android
    点赞但不看好
    KaiWuBOSS
        6
    KaiWuBOSS  
    OP
       12h 47m ago
    @listenerri 不好做是么?还是实用性不强?
    coefu
        7
    coefu  
       9h 24m ago   ❤️ 1
    @KaiWuBOSS #6 不比 10 年前的开源了。如果只是单体 application ,熟悉个把高级语言,也能参与。但是你这个是一个解决方案,里面涉及到的技能和知识点,不是 web 体系,有门槛的。你指望这些普通前后端围墙里的人,主动免费突破自己的知识壁垒,这是妄想。

    而且你要做的这个事情,本身 top 厂商 也没有完全解决。还在演化迭代中,随着模型本身能力的进化,harness 都快要成过去时了。虽然,我不看好 LLM 这波,但是我自己也有使用的需求,我也持续关注。但是,变化太快了,你可以这么理解,agentic 本身的鲁棒性 一般,方法论迭代,时好时坏,benchmark 甚至都不能作为完整的验证依据。

    这也是为什么市面上,迟迟没有人做。我 2024 年夏天的时候,langchain 就摸了一遍,去年开春的时候,llama.cpp 也摸了一遍,我这个摸,都是直接看源码的,当然,这是个人习惯,我看源码和看小说没什么区别。我为什么没做,因为,我看的太多了。我试图给 llama.cpp 找 异构多机多卡的分布式并行推理 的解决方案,想了几个月,并且还花点钱组了一个 10G 网络,但是最终,我发现是徒劳的。

    比如,联网的问题,searxng ,如果你深度使用过就知道,就是个玩具(一则是它整合结果的算法,二则是 search 能识别有时候返回不相干结果)。不用钱买 search api ,都是玩具。
    记忆这块,本身学界也没有什么好方案,论文出了一大堆,吹的比实际都好。至于 a ,o ,厂的技术,基本上都是人力财力堆出来的。开源完全无法媲美。

    kvcache 的问题,在 gram 有限的开源环境中不可能解决,这是 0 day 原始问题,不是工程技术的问题,是原始架构的问题。唯一的方法,就是堆 gram 。

    context 问题,和 kvcache 如出一辙。

    有限 gram 的开源异构环境,没有通用解。
    scyuns
        8
    scyuns  
       8h 24m ago via Android
    不是咋贡献呀 我们整一个本土化 codex 吗
    ayasealter570
        9
    ayasealter570  
       8h 13m ago
    吓我一跳,我以后后面要一转中转站广告了。。
    defunct9
        10
    defunct9  
       7h 57m ago
    没有用啊,没有模型,没法用。皮之不存,毛将焉附?
    sddyzm
        11
    sddyzm  
    PRO
       7h 48m ago
    你手里没有真东西,最后就变成其他人薅你的中转额度
    whereicg
        12
    whereicg  
       7h 10m ago via iPhone
    寇可往,我亦可往
    tuomasi
        13
    tuomasi  
       6h 28m ago via Android
    硬盘坏了怎么办
    osilinka
        14
    osilinka  
       6h 1m ago
    支持
    SHIINASAMA
        15
    SHIINASAMA  
       5h 58m ago
    开源方案不少了吧,可以 fork 一个 vibe 魔改,也可以自己 vibe 一个
    GeruzoniAnsasu
        16
    GeruzoniAnsasu  
       5h 53m ago
    /go/aislop


    > 后续在本链接发布


    你自己看了不会觉得不妥么?
    给你看我收藏的第一个这种帖子: https://www.v2ex.com/t/561958
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3195 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 65ms · UTC 00:26 · PVG 08:26 · LAX 17:26 · JFK 20:26
    ♥ Do have faith in what you're doing.