V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

同志们，是时候打造一把真正属于开源社区的 Coding Agent 了！

现状：我们被大厂“喂屎”，还要自己擦屁股

我写过 kaiwu（一个本地模型部署器），结果发现——用 Local LLM 做开发的朋友，多得超出想象。

大家不断提需求：上下文压缩、Think 模式开关、联网搜索、工具调用……

可这些根本不是 Ollama 或 LM Studio 的事！
它们只负责把模型跑起来，至于“怎么让模型变聪明”——那是 Cursor 、Codex 、Hermes 的事。

但大厂们在干嘛？

Cursor 围着自家模型转
Codex 靠卖 token 赚钱
Hermes 虽开源，却不支持 Windows 原生（逼你装 WSL2 ，劝退一半人）

它们不会花精力优化本地小模型。
因为本地跑得爽，谁还买它们的 API ？

更别提那堵墙了——
国内网络时断时续，任务跑到一半断连，体验像吃苍蝇。
想用 Claude ？得找中转、买注水账号、被收割、还被鄙视。

但墙能拦住资本，拦不住人民。
国际共产主义精神，就体现在一行行开源代码里。

痛点：我们每天都被这六把刀捅

1. 上下文太短，压缩就“失忆”

Opus 的 1M 窗口用过就回不去了，永远不用 compact 。
小模型在 8G/16G 显存上只能跑十几 K ，稍微大点的任务直接炸。
Hermes 压缩几次就变傻子——忘了自己两轮前说过什么。

2. 网络像一堵墙，墙内外都是屎

CC / Cursor 要稳定连海外，国内断到你怀疑人生。
Hermes 非要 WSL2 ，Windows 原生用户吃闭门羹。
Web search 要么没有，要么接垃圾商家 API ，搜出来的全是 SEO 污染的结果。

3. 本地模型连工具都不会用

用户反馈：接 CC 或 Codex ，模型笨得不会调 tool 。
8B 模型干完活丢给你一串代码：“自己复制去运行”。
我是用 CC 习惯的人，这体验等于让我回去用记事本写代码。

4. 小模型本身能力就那样，但 API 还不让用

8B/14B 失误率高、窗口小、没联网、遇新问题就死机。
你不可能指望小学生解微积分——这是物理规律。
可 A 厂不给国人注册，花钱买注水中转，像交保护费。
凭什么？

5. 明明本地运行，却是个没记忆的钢铁废料

在云端不记事，我认了——毕竟没花钱买存储。
我都本地跑了，硬盘 1T 还能加，你却只给我一个 markdown 文件当“记忆”？
这就像你买了一台超级计算机，结果它每次重启都忘光。

6. 多模态？视频图片？不存在的

模型本身弱，但更大的问题是——没有专门优化。
闭源 API 也一样烂，但人家收钱不办事。

部署难、速度慢、硬件要求高这些，我之前的 kaiwu + LM + Turbo 能解决。
今天我们不聊这些，就聊怎么让 8B 模型跑出 Opus 的体验。

我的革命思路：不用 CC 的依赖强 LLM 串行，改用 LLM 做 Gate + 确定性专家的 MOE 架构

核心理念：
LLM 只负责当“接线员”，真正干活的是确定性专家——
不依赖模型“啥都懂”，而是让模型只做一件极小、极明确的事。

原理一：Agentless 流水线（ ICSE 2025 最佳证明）

不让 LLM 瞎决策，用固定流程 → SWE-bench 上通过率最高，成本最低。

我设计的流程（ KWCode ）：用户输入 └─► Gate （毫秒级分类） └─► Locator （精确定位文件/函数） └─► Generator （只改该改的地方） └─► Verifier （语法 + pytest ，失败重试）

小模型只需要在小窗口里做一件事——失误率暴跌，错误可被当场抓住。

原理二：BM25 + AST 调用图定位（专治“隐藏依赖”）

论文 CodeCompass 发现一个反常识事实：
context 越大的模型，反而越容易漏掉架构上关键但语义上遥远的文件——这叫“导航悖论”。

实验数据（ FastAPI 真实项目）：

任务类型	BM25	图遍历
有明确关键词	100%	—
可通过 import 链找到	~85%	~85%
完全无关键词的隐藏依赖	76.2%	99.4% 🚀

我们的实现：

BM25 秒级召回 top-20
AST 调用图展开 2 跳（向上找调用者，向下找被调用者）
发现那些“名字和 bug 无关但实际是根因”的魔鬼函数

技术栈：tree-sitter + rank-bm25 + SQLite
零依赖、零 embedding 、零 Docker。
支持：Python · JS · TS · Java · Go · Rust

原理三：专家飞轮——你的工具越用越强，大厂永远追不上

来自 EE-MCP (NeurIPS 2025) + WLBS 行为图。

预置 12 个专家（通用 7 个 + 中国场景 5 个）。
然后开始飞轮：

同类任务成功 ≥5 次 → 自动生成专属专家
新专家经过回测 + AB 测试三道验证门 → 投产
下次同类任务，Gate 直接路由 → 更快、更准

3 个月后，你的专属专家池——
Cursor 和 Hermes 永远追不上，因为它们无状态，而你有永久记忆。

专家可以导出、分享形成我们的社区数据资源。

原理四：失败自动搜索——墙内用 Bing ，墙外用 DDG

Verifier 连挂 2 次 → 自动触发搜索：

国内网络 → Bing 中文版（ cn.bing.com 直连）
正常网络 → DuckDuckGo
提取正文 → 压缩 → 注入 context

零 API key ，零配置，装完即用。
想更隐私？自己部署 SearXNG ，数据不出网。

功能一览（不是为了炫技，是为了解决你的每一天的痛）

模块	做了什么
代码定位	BM25 + AST 调用图，99.4% 命中隐藏依赖
代码修改	只改 patch ，不重写全文，精确匹配
验证重试	语法 + pytest ，失败回滚，失败 2 次开搜索
项目记忆	PROJECT.md / EXPERT.md / PATTERN.md 三层分离，按需 BM25 注入
专家系统	12 预置 + 飞轮自生成 + 可分享安装
中国本地化	自动切 ModelScope / 清华镜像 / Bing 搜索 / Windows 原生

我们和“它们”的不一样

场景	其他工具	KWCode （我们）
Windows	逼你装 WSL2	cmd / PowerShell 原生跑
模型下载	HuggingFace 被墙	自动切 ModelScope
pip 安装	PyPI 慢死	自动切清华/阿里镜像
搜索增强	DDG 被墙	自动切 Bing 中文版
推荐模型	GPT / Claude （要钱/要梯子）	DeepSeek · Qwen · GLM（国产免费）

同志们，这不是一个人的战斗

我只有一台 5060 8G 显存 16G 内存小破电脑，硬盘还时好时坏，花钱买 api 一个月三四千。我想要人人为龙时代，而不是 api 独大时代。所以我想打造一个真正属于开源社区、不依赖大厂 API 、不被墙、让 8B 模型也能干翻 Opus 的 Coding Agent 。

我们有论文支撑，有原型代码，有满腔怒火和热血。
现在还缺你——
缺每一个受够了被收割、被歧视、被网络暴力的开发者。

GitHub 仓库近期开放，代码完全开源。
你可以：

贡献代码（ Rust/Python/TS 都行）
分享你的专属专家（.kwx 文件）
提 bug 、写文档、宣传出去
或者只是去点一个 ⭐，让更多人看见

国际共产主义精神，从一行开源代码开始。
让大厂去卖 token 吧，我们有自己的工具了。

行动号召

👉 有没有更好的思路和路径，上述只是我个人研究
👉 后续在本链接发布 github ，欢迎 fork 继续深挖

不要让资本定义“可能”与“不可能”。
我们说了算。 或许很快，8B 模型真能跑赢 OPUS ，所有人都能拥有独属于自己的智能体

要不要先建个群，算了我社恐不会维护，有事咱们这个链接聊把

开源

agent

本地

16 replies • 2026-04-28 02:32:33 +08:00

KaiWuBOSS

14h 4m ago

回过头来看这个帖子怎么写得这么煽动。。。
其实我就是一个人能力不够想找专家帮忙一起写这个项目，我已经有个 MVP
这两天把稳定性跑跑就能发仓库了。

greyfreedom

13h 58m ago via Android

支持大佬

WispZhan

13h 46m ago

链接呢？如果是 Rust + TS/Bun.sh 愿意贡献一份力。我也只有一个小破电脑，AMD 5700X + AMD 6900XT

KaiWuBOSS

13h 42m ago

@WispZhan A 卡老师很牛的，我之前只弄过 N 卡，请问现在模型有适配 A 卡好的么？

listenerri

12h 52m ago via Android

点赞但不看好

KaiWuBOSS

12h 47m ago

@listenerri 不好做是么？还是实用性不强？

coefu

9h 24m ago

@KaiWuBOSS #6 不比 10 年前的开源了。如果只是单体 application ，熟悉个把高级语言，也能参与。但是你这个是一个解决方案，里面涉及到的技能和知识点，不是 web 体系，有门槛的。你指望这些普通前后端围墙里的人，主动免费突破自己的知识壁垒，这是妄想。

而且你要做的这个事情，本身 top 厂商也没有完全解决。还在演化迭代中，随着模型本身能力的进化，harness 都快要成过去时了。虽然，我不看好 LLM 这波，但是我自己也有使用的需求，我也持续关注。但是，变化太快了，你可以这么理解，agentic 本身的鲁棒性一般，方法论迭代，时好时坏，benchmark 甚至都不能作为完整的验证依据。

这也是为什么市面上，迟迟没有人做。我 2024 年夏天的时候，langchain 就摸了一遍，去年开春的时候，llama.cpp 也摸了一遍，我这个摸，都是直接看源码的，当然，这是个人习惯，我看源码和看小说没什么区别。我为什么没做，因为，我看的太多了。我试图给 llama.cpp 找异构多机多卡的分布式并行推理的解决方案，想了几个月，并且还花点钱组了一个 10G 网络，但是最终，我发现是徒劳的。

比如，联网的问题，searxng ，如果你深度使用过就知道，就是个玩具（一则是它整合结果的算法，二则是 search 能识别有时候返回不相干结果）。不用钱买 search api ，都是玩具。
记忆这块，本身学界也没有什么好方案，论文出了一大堆，吹的比实际都好。至于 a ，o ，厂的技术，基本上都是人力财力堆出来的。开源完全无法媲美。

kvcache 的问题，在 gram 有限的开源环境中不可能解决，这是 0 day 原始问题，不是工程技术的问题，是原始架构的问题。唯一的方法，就是堆 gram 。

context 问题，和 kvcache 如出一辙。

有限 gram 的开源异构环境，没有通用解。