coefu

V2EX member #616381, joined on 2023-02-28 17:15:35 +08:00

Today's activity rank 6660

coefu 提问技术话题好玩工作信息交易信息城市相关

Per coefu's settings, the topics list is hidden

Deals info, including closed deals, is not hidden

coefu's recent replies

2h 13m ago

Replied to a topic by tftNExtLife › 程序员 › 如何看待某媒体报道的:在全世界不知道大模型为何物的时候，华为就发布了盘古大模型

和那个无招本质是一路人，没什么不同。可以预见的结果。

9h 9m ago

Replied to a topic by sentinelK › Local LLM › lama.cpp 目前有重大性能 bug： checkpoint 的巡回逻辑对于混合模型（比如 qwen3.6-27B）无效，从而导致大概率每次对话都要 prefill 全文，严重拖慢速度

确实还没恢复，我前天 build 的最新版，现在依然遇到这个 force full prompt ，难怪我每次长 context 到最后，都越来越慢，😭

1 day ago

Replied to a topic by perbugwei › 职场话题 › 想吃钉钉的瓜，有没有具体点儿的

有一讲一，一个办公工具，你不折腾可能还行，哪有那么多感动自己就以为能感动别人的项目。

他可能一直没明白微信强大的地方在于做减法，不折腾。

1 day ago

Replied to a topic by Livid › Local LLM › DiffusionGemma

@kennylam777 还是你有钱啊。

1 day ago

Replied to a topic by Livid › Local LLM › DiffusionGemma

@commoccoom 如果你的经济阔绰，我推荐 NVIDIA RTX PRO 6000 Blackwell (96GB)，虽然带宽只有 1.1TB/s ，但是由于 Nvidia cuda 的极致优化，prefill 依然很能打，最主要的是 kvcache ，模型本身大概 36G ，你可以有 60G 左右跑 context ，Q8 的情况下，263k 跑满，还能开 2 parallel 。

如果你经济有限，我推荐 mac ultra ，可以是 64G ，但是 96G 或者 128G 更好。把 context 搞成 Q4 ，跑 263k 也是 ok 的。只是越往后越慢，但是依靠模型本身的能力，慢点也能完成任务。

1 day ago

Replied to a topic by Livid › Local LLM › DiffusionGemma

Diffusion 这条路，依然没有解决当前 LLM prefill 里超长 context 说带来的 attention O(n²) 消耗。只是在 token generator 上做了加速的文章。但是当前 agent 模式的瓶颈，已经不在 token generator 。

解决 prefill 的 attention O(n²) ，依然任重道远。主要是信息论里，对过去 context 的压缩是否能保证完全无损，这是当前很长时间内的根本矛盾。

1 day ago

Replied to a topic by Livid › Local LLM › DiffusionGemma

@BingoXuan Gemma4 31B 擅长的是 stem 的理论逻辑。coding 确实不如 qwen3.6 27B 。

1 day ago

Replied to a topic by Livid › Local LLM › DiffusionGemma

@BingoXuan
@kennylam777

qwen3.6 27B 是真正的能打，我现在日常主力了。能感觉到，这个模型之后，这个板块沉寂了很长一段时间，恐怕大家都是偷着乐的。

27B 真正能打，是因为它在 27B 这样的参数下，能搞到惊人的 64 层 dense ，模型的宽和深，有个奇妙的组合甜点位。只顾宽不顾深，就只有广博知识面，但是缺乏逻辑深度和缜密，只知道夸夸其谈，经不起推敲。只有深度，没有宽度就是个诡辩的杠精。但是 27B 兼顾了知识面的广度和逻辑的深度，但是如果再增参数和深度，本地部署又失去了可能。巨大的参数所产生的 kvcache ，以及 agent 模式下 context 的反复进出，单卡带宽完全跟不上，就算是 gmem/umem 的容量够，attention 的 O(n²) 也是无解的。

可能是绝唱，也可能是当下开源的极限。

1 day ago

Replied to a topic by Livid › Local LLM › DiffusionGemma

qwen 这次估计要落后 Gemma 团队了，Gemma 总能整出一些新活儿。😂

2 days ago

Replied to a topic by peefy › 程序员 › 你的 AI 助手总是"失忆"，原因就这 4 个（以及我们是怎么解决的）

这个方向的东西都是一抓一大把了，你这个和同类竞品有什么优势？你只提到了解决你遇到的问题，还是感动自己了一位就能感动别人的典中典。

» More replies by coefu