kennylam777

kennylam777

V2EX member #90581, joined on 2015-01-08 01:22:38 +08:00
Per kennylam777's settings, the topics list is only visible after you sign in
Deals info, including closed deals, is not hidden
kennylam777's recent replies
@squarefong17 對, 即使是 DGX Spark 這些小機器, VRAM 足夠但跑 20B 以上的 Dense 模型都太慢, 唯一寄望是 Active 單位數字的 MoE

我本地用兩片 3090 + NVLink, 用 vllm 跑 Gemma4 31B FP8 打開 Tensor Parallel, 吃了 800W 電力才剛剛好有 60 tps
我也認為是 context 長度的問題而不是罵的問題, 一個 chat session 幹活太長會降智把之前做好的東西都改回, 愈小的模型愈有感, 畢竟小模型的注意力比較有限沒能像大模型般全都兼顧
喔我看懂了, 思路是把問題切小, 讓小模型能處理, 一步一步來能讓自我修復

的確, 即使是 Cluade Code 的 context management 比 OpenCode 還是強太多, 以前用 Roo Code 在 4090 上跑 local LLM 基本上 tool calling fail 是基本, 現在用 Qwen3.6 + 5090 會好一點但還是有差

我也來試試用看
Roo code 也不做了, 你現在才開始?
同類型的還有 OpenCode 在做, 中國模型也有首輪適配的, 這輪子不要自己造吧。

不過我建議你用 claude code 配 local model 試試看, llama.cpp 支援 Anthropic API
https://huggingface.co/blog/ggml-org/anthropic-messages-api-in-llamacpp

只要設定好兩個環境變數就能用 claude code, 不用 login 也不怕被 ban
ANTHROPIC_BASE_URL=http://127.0.0.1:8080 claude
ANTHROPIC_AUTH_TOKEN=local
Apr 25
Replied to a topic by archxm Local LLM 大伙有想过二次训练吗?
@archxm 早就有了, vast.ai 很多人在用

問題是你所謂的二次訓練, 其實還有分 CPT 及 SFT 的, 一般用 SFT 已經足夠應付任務, CPT 效果不佳而且你之後還是要補回一次 SFT
Antigravity + Codex, 畢竟 Flash 3 便宜量大
Codex 做 review, 我還是喜歡用 app 版不太想用 CLI
Mar 23
Replied to a topic by drymonfidelia Google Gemini Gemini 真是天才
有一次整套 toolchain 的改動, 用 Gemini 3.1 Pro, 它自行決定花了一大堆 token 去逐個 library 的.h/.c 改一點點, 改到兩個 library 時我發現不對, 問它為什麼要這麼做, 它說那是 MUST do blah blah blah, 最後我叫它去動 make script 加一個 flag 就好, 雖然最後改好了, 但也真的要小心
Mar 10
Replied to a topic by burnsby 程序员 Antigravity 为啥能这么垃圾啊?
@lessurliu 這個跟 agent 後面接的 system promopt 有關, 以前在 SFT 時會強制訓練模型被問到是誰時回答, 現在好像因為會影響性能而不會了, 都直接在 system prompt 填寫的, claude code 自家產品通常都會在 system prompt 預先填寫模型名稱, 但 Antigravity 的 system prompt 則沒帶模型簡介
用 AI 不用看別人 schedule 不用編排 tasks, 直接動手先看看及測試, 也不用解釋太多, 直接貼一段文字就可以開始, 節奏由你掌控, 不這還不能滿足你的控制欲嗎?
Feb 23
Replied to a topic by extrem 程序员 求推荐大手人体工学鼠标
用了垂直 Mouse 幾年沒換回來, 我用過 MX Vertical, 唯一不好是有點大, 但你手大的話剛剛好
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5410 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 36ms · UTC 01:11 · PVG 09:11 · LAX 18:11 · JFK 21:11
♥ Do have faith in what you're doing.