coefu

coefu

V2EX member #616381, joined on 2023-02-28 17:15:35 +08:00
Per coefu's settings, the topics list is hidden
Deals info, including closed deals, is not hidden
coefu's recent replies
1 ,开源 70B 以下参数的 moe 逻辑能力比 dense 差太多了。

层宽和层深之间有个甜点位,不同参数量的甜点位又不同。总体来看,那几个大的 moe ,active 的 expert 层数应该都要搞到 40 ~ 60 ,在宽度上做取舍。

gemma4 E4B 有 42 层,比 qwen3.5 9B 的 32 层 更深,按理来说,逻辑能力应该更好,但是受限于总参数量导致的宽度窄,表征能力不行,所以更容易在逻辑推理的起始位就跑偏,导致整个推理完全无法收敛。这点,通过中等数学的奥赛题可以验证。就算是 gemma4 E4B 横向增加 experts + router ,把总参数也堆起来,依然也无法解决问题。

2 ,dense 只需要在原始架构上达到了甜点位,横向+experts + router ,依然很能打。如果这种架构做层 plug-in 模式,更有搞头。总体来看,在 linear attention 这条路线上来看 qwen3.6 27B 已经是甜点位了。在纯 transformer 路线上来看 gemma4 31B 似乎也到了甜点位。如果可以搞一个 plug-in 架构,类似 TTT 模式,那真的就是开源福音。
4 days ago
Replied to a topic by faketemp Local LLM 有没有能够兼容 Win7 的离线模型工具
先在 window 7 指定的版本里 搞定 docker ,然后在外面把所有依赖都封装进 docker 。
以前都说 LLM 是推理下一个字符,所以有可能算错 10+11 这种最基本的计算题。

你说是就是?这个因果是你自己想当然定义的?先定义了一个错的 A ,反推出一个正确的 B 。
10w ,我可以弄。
7 days ago
Replied to a topic by KJH 程序员 Doris 增量数据刷新方案
加他们群问。
8 days ago
Replied to a topic by YanSeven 投资 关于股票游戏的疑问
这就是被收割的对象啊 ,没他们亏,怎么有别人赚?
另外,更多的是认知灵感先验,很多人以为是数学为先,恰恰没领悟到真谛。很多真正的架构,都是灵感迸发在前面,为什么起作用,都是数学后验。

残差结构,并不是先在数学上验证有效,而是先用起来有效,后续补上的数学验证。就是灵感的迸发,搞那么个结构看看是否有效。

同样的 Hinton 2022 年的 FF 网络,也是灵感在前面,后面数学上验证。

符号主义就是喜欢在数学上精雕细琢,把 梯度计算优化到极致,也不如一个新范式不再需要梯度计算 就能起作用。但是后者需要的是 在交叉领域里迸发的顿悟。

细节重要吗?当然,但是当下,细节可以交给 Gemini/ChatGPT 。
你之前起点的雄心壮志是值得肯定的,但是后续的方式方法又有点儿钻牛角尖了。

LLM 模型架构这块所有你目之所及,能伸手就摘到的果实,都被摘完了,这就是你钻的牛角尖。

你的目的是在推理的工程架构优化上找点突破,但是那块领域,本身就是一亩三分地,犁了又犁,锄头都快抡散架了也挖不出什么好东西。于是试图回到第一性原理的角度搞点突破,但是钻到了被犁的更烂的地。

LLM 这块,现在又回到了当年 符号主义的那拨人的时代,在上面精雕细琢。在别人的范式下搞,学界是上班,工业界也是上班,做点事拿点钱嘛,不寒颤。

真正的突破是范式创新,你要是能走出 反向传播,transformer 的这些显学窠臼,或许能有一番作为。上等人立志,但是也要警惕志大才疏。
另外,东方财富这种没有什么实质生产力的,你看看它的票,每天什么交易量。先有点 金融常识吧。
痴心妄想。

首先,数据源你就搞不到。别的都不用说了。没有资质,1000w 你也拿不到。
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3140 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 06:18 · PVG 14:18 · LAX 23:18 · JFK 02:18
♥ Do have faith in what you're doing.