coefu

coefu

V2EX member #616381, joined on 2023-02-28 17:15:35 +08:00
Today's activity rank 6660
Per coefu's settings, the topics list is hidden
Deals info, including closed deals, is not hidden
coefu's recent replies
和那个 无招本质是一路人,没什么不同。可以预见的结果。
确实还没恢复,我前天 build 的最新版,现在依然遇到这个 force full prompt ,难怪我每次长 context 到最后,都越来越慢,😭
1 day ago
Replied to a topic by perbugwei 职场话题 想吃钉钉的瓜,有没有具体点儿的
有一讲一,一个办公工具,你不折腾可能还行,哪有那么多 感动自己就以为能感动别人的项目。

他可能一直没明白 微信强大的地方在于做减法,不折腾。
1 day ago
Replied to a topic by Livid Local LLM DiffusionGemma
@kennylam777 还是 你有钱啊。
1 day ago
Replied to a topic by Livid Local LLM DiffusionGemma
@commoccoom 如果你的经济阔绰,我推荐 NVIDIA RTX PRO 6000 Blackwell (96GB),虽然带宽只有 1.1TB/s ,但是由于 Nvidia cuda 的极致优化,prefill 依然很能打,最主要的是 kvcache ,模型本身大概 36G ,你可以有 60G 左右跑 context ,Q8 的情况下,263k 跑满,还能开 2 parallel 。

如果你经济有限,我推荐 mac ultra ,可以是 64G ,但是 96G 或者 128G 更好。把 context 搞成 Q4 ,跑 263k 也是 ok 的。只是越往后越慢,但是依靠模型本身的能力,慢点也能完成任务。
1 day ago
Replied to a topic by Livid Local LLM DiffusionGemma
Diffusion 这条路,依然没有解决当前 LLM prefill 里 超长 context 说带来的 attention O(n²) 消耗。只是在 token generator 上做了加速的文章。但是当前 agent 模式的瓶颈,已经不在 token generator 。

解决 prefill 的 attention O(n²) ,依然任重道远。 主要是信息论里,对 过去 context 的压缩 是否能保证完全无损,这是当前很长时间内的根本矛盾。
1 day ago
Replied to a topic by Livid Local LLM DiffusionGemma
@BingoXuan Gemma4 31B 擅长的是 stem 的理论逻辑。coding 确实不如 qwen3.6 27B 。
1 day ago
Replied to a topic by Livid Local LLM DiffusionGemma
@BingoXuan
@kennylam777

qwen3.6 27B 是真正的能打,我现在日常主力了。能感觉到,这个模型之后,这个板块沉寂了很长一段时间,恐怕大家都是偷着乐的。


27B 真正能打,是因为它在 27B 这样的参数下,能搞到惊人的 64 层 dense ,模型的宽和深,有个奇妙的组合甜点位。只顾宽不顾深,就只有广博知识面,但是缺乏逻辑深度和缜密,只知道夸夸其谈,经不起推敲。只有深度,没有宽度就是个诡辩的杠精。但是 27B 兼顾了知识面的广度和逻辑的深度,但是如果再增参数和深度,本地部署又失去了可能。巨大的参数所产生的 kvcache ,以及 agent 模式下 context 的反复进出,单卡带宽完全跟不上,就算是 gmem/umem 的容量够,attention 的 O(n²) 也是无解的。

可能是绝唱,也可能是当下开源的极限。
1 day ago
Replied to a topic by Livid Local LLM DiffusionGemma
qwen 这次估计要落后 Gemma 团队了,Gemma 总能整出一些新活儿。😂
这个方向的东西都是一抓一大把了,你这个和同类竞品有什么优势?你只提到了解决你遇到的问题,还是感动自己了一位就能感动别人的典中典。
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2798 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 12:47 · PVG 20:47 · LAX 05:47 · JFK 08:47
♥ Do have faith in what you're doing.