zizon's recent timeline updates

zizon

V2EX member #229404, joined on 2017-05-06 16:33:58 +08:00

zizon 提问技术话题好玩工作信息交易信息城市相关

eSIM 安全性

问与答 • zizon • Sep 16, 2025 • Lastly replied by SenLief

简单的反诈 App 估算

问与答 • zizon • May 27, 2025 • Lastly replied by huaweii

» More topics by zizon

zizon's recent replies

4 days ago

Replied to a topic by shendaowu › ☕Vibe Coding🤖 › 需求写得太细效果反而更差的原因是什么？有没有改善的方法？

你多看 DeepSeek 的 CoT.它对 reasoning 有些过于细节.
很多你表述上略模糊的点它都要评审推导.

比如把小函数 inline 了.
它会对那些调用多次的小函数反复思考要不要 inline.
一边是强调用户的遵从字面意思(指令强跟随),一方面又再考虑结合工程实现想用户的真实意图(指令意图展开).

5 days ago

Replied to a topic by iqoo › 程序员 › 只有 3 个运算操作的解密函数，破解奖励一杯咖啡

@iqoo 既然你说 n 这个强度值是可替换的.
那么 n=0 应该也是等价的.

说明你也根本没有一个快捷算法能够算出来.

5 days ago

Replied to a topic by iqoo › 程序员 › 只有 3 个运算操作的解密函数，破解奖励一杯咖啡

The key mathematical insight: the mod 100000 sequence must repeat within ≤100001 steps (only 10⁵ possible values). Found cycle starting at step 248, length 14. Then:

n = 10¹⁴ → idx = 248 + (10¹⁴ − 248) mod 14 = 254
Only 254 iterations needed instead of 10¹⁴
Answer: x99826

deepseek v4 flash ~ 23min
126,935 (126,656 prompt tokens + 279 completion tokens)

13 days ago

Replied to a topic by jiangzhaosen518 › 职场话题 › 发现一个现象：海外招聘平台仍然大量雇佣 UI 设计师，这是为什么？

你这个问题就像问为什么 1926 年的国人为什么还马拉车而不是汽车.

14 days ago

Replied to a topic by dxs7732 › 问与答 › 疑问：如果给国内用户在 ai 聊天类程序使用国外的模型，被举报会被拉取喝茶吗？

数据出境方面可能也有合规问题.

Apr 27

Replied to a topic by hkiJava › 生活 › 兄弟们,帮忙分析一下,是我的问题,还是这个女生有作的现象

你再想想这是不是国庆想跟你回老家的意思.

Apr 23

Replied to a topic by JimLee0921 › 电动汽车 › 我觉得比这个什么问界趴窝更奇葩的是这个豆包 AI，看完雷军得被当场气晕

说明不了什么.小米有个玄武芯片,事件又涉及车.

Apr 16

Replied to a topic by waldentree › 程序员 › 字节为啥不出个国内版 Vercel？

字节:你这个能产生什么价值

Apr 13

Replied to a topic by mengyaoren › 生活 › 每天收到几个电话，说是从豆包搜索过来的

把豆包当搜索用,LLM 现编刚好撞上你的号码吧.

Mar 29

Replied to a topic by cpalead › DeepSeek › 为什么 deepseek 的源代码只有几个文件？

1. generate.py 描述了数据/权重文件怎么加载的.
2. model.py,尤其 Transformer 类描述了模型结构/层等怎么构成的信息.
3. kernel.py 描述了 2 里用到的一些核心自定义算子.

给你 2+1 类似与给了头文件声明和.so 文件.

开源的是这个.h.

4. 更接近一些你理解的开源的是有些会提供 finetune.py,做微调的.
这个会告诉你一部分真实完整训练场景下,input/训练数据大概长什么样.
理论上,你有可能根据这个数据格式,去完整重新训练一个等价模型,前提是有对应的硬件资源.

但,通常来说 fintune.py 暴露的信息是不够的.
之所以叫微调,也就是因为它只是一部分 input 长这样.

你可以看看 olmo 的 train.py,比较符合你的对开源的想法.
属于一个端到端,理论上你有硬件条件就可以从 repo 完整复刻的开源形态.
https://github.com/allenai/OLMo/blob/main/scripts/train.py

你说 1/2/4 够不够.
也不能说不够吧.

但 pretrain 的 datasource 直觉上还是很影响跟模型交互的语言/prompt 风格的.

» More replies by zizon