$V2EX
Solana
Give SOL to Copy Address
使用 SOL 向 stefwoo 打赏,数额会 100% 进入 stefwoo 的钱包。
 stefwoo's recent timeline updates
stefwoo
1.29D

stefwoo

V2EX member #32465, joined on 2013-01-16 22:18:35 +08:00
Today's activity rank 3537
stefwoo's recent replies
@jingle 是的,文字相关的就会很差。如果只有唯一解法的问题,就会好很多。编程也还好。
为了把大模型和草稿小模型一起塞进 24G 显存,选 4-bit 量化(~16G ),草稿保持 BF16 (~1.2G ),KV 缓存用 quant 量化。
预填充时,草稿小模型飞速扫遍长文本,只挑出最重要的 5% 片段;大模型只对这 5% 做稀疏预填充,跳过其余 95% 的无关内容。
随后进入生成阶段:草稿模型一次幻想出多个候选 token ,大模型用树形注意力一次性验证整棵树,实现高速逐词解码。
网站挂了,楼主
Apr 27
Replied to a topic by zsj1029 Local LLM qwen3.6 27b 本地编码测试
Qwen3.6 A35B-A3B 4bit 在我的 3090 下运行也飞快啊
Apr 25
Replied to a topic by JZen 分享发现 一个性价比极高的数据冷备份路子
冷备份我用的 aws s3 deep achieve
反正就是永远不会用,做个保险
很棒的工作,回家试试我的 3090
https://mp.weixin.qq.com/s/DwleBgjy3EiS7zWqlrsTEw

文中提到:
其四,不讲究的架构与 UI 。V4 基本保留了之前 DeepSeek V3 在各类架构设计上的思路,不讲究,不够精致,但也不糊弄,该有的分层,解耦,都会有。做不到 Opus 那样一看就出自大手的规范性架构。UI 方面同样如此,直出效果不算优秀,偶尔会有些精细表达,但多数时候就是基本能用的程度。甚至 high 档位偶尔下限更低,考虑不周全。如果实际开发配合设计稿,那么问题不大。但如果是纯 vibe coding ,那实现效果就需要反复抽卡。
@shuaijinchao #43 昨天编译的有问题,今天用你们的预编译是 ok 的了。👍
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5614 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 41ms · UTC 07:33 · PVG 15:33 · LAX 00:33 · JFK 03:33
♥ Do have faith in what you're doing.