zizon's recent timeline updates
zizon

zizon

V2EX member #229404, joined on 2017-05-06 16:33:58 +08:00
eSIM 安全性
问与答  •  zizon  •  Sep 16, 2025  •  Lastly replied by SenLief
10
简单的反诈 App 估算
问与答  •  zizon  •  May 27, 2025  •  Lastly replied by huaweii
3
zizon's recent replies
你多看 DeepSeek 的 CoT.它对 reasoning 有些过于细节.
很多你表述上略模糊的点它都要评审推导.

比如 把小函数 inline 了.
它会对那些调用多次的小函数反复思考要不要 inline.
一边是强调用户的遵从字面意思(指令强跟随),一方面又再考虑结合工程实现想用户的真实意图(指令意图展开).
@iqoo 既然你说 n 这个强度值是可替换的.
那么 n=0 应该也是等价的.

说明你也根本没有一个快捷算法能够算出来.
The key mathematical insight: the mod 100000 sequence must repeat within ≤100001 steps (only 10⁵ possible values). Found cycle starting at step 248, length 14. Then:

n = 10¹⁴ → idx = 248 + (10¹⁴ − 248) mod 14 = 254
Only 254 iterations needed instead of 10¹⁴
Answer: x99826


deepseek v4 flash ~ 23min
126,935 (126,656 prompt tokens + 279 completion tokens)
你这个问题就像问为什么 1926 年的国人为什么还马拉车而不是汽车.
数据出境方面可能也有合规问题.
你再想想这是不是国庆想跟你回老家的意思.
说明不了什么.小米有个玄武芯片,事件又涉及车.
Apr 16
Replied to a topic by waldentree 程序员 字节为啥不出个国内版 Vercel?
字节:你这个能产生什么价值
把豆包当搜索用,LLM 现编刚好撞上你的号码吧.
1. generate.py 描述了数据/权重文件怎么加载的.
2. model.py,尤其 Transformer 类描述了模型结构/层等怎么构成的信息.
3. kernel.py 描述了 2 里用到的一些核心自定义算子.

给你 2+1 类似与给了头文件声明和.so 文件.

开源的是这个.h.

4. 更接近一些你理解的开源的是有些会提供 finetune.py,做微调的.
这个会告诉你一部分真实完整训练场景下,input/训练数据大概长什么样.
理论上,你有可能根据这个数据格式,去完整重新训练一个等价模型,前提是有对应的硬件资源.

但,通常来说 fintune.py 暴露的信息是不够的.
之所以叫微调,也就是因为它只是一部分 input 长这样.

你可以看看 olmo 的 train.py,比较符合你的对开源的想法.
属于一个端到端,理论上你有硬件条件就可以从 repo 完整复刻的开源形态.
https://github.com/allenai/OLMo/blob/main/scripts/train.py

你说 1/2/4 够不够.
也不能说不够吧.

但 pretrain 的 datasource 直觉上还是很影响跟模型交互的语言/prompt 风格的.
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3112 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 29ms · UTC 06:26 · PVG 14:26 · LAX 23:26 · JFK 02:26
♥ Do have faith in what you're doing.