parad

parad

V2EX 第 466908 号会员,加入于 2020-01-27 21:30:24 +08:00
parad 最近回复了
2 天前
回复了 llej 创建的主题 程序员 基于 Effect 的后端 api 设计
看来来有点像 Ramda https://ramdajs.com/
Polar.sh 好像最近比较流行。可以试试。
@frankies 数据分析是 Data Analytics 或者 Business Analytics ,和数据科学 Data Science 有很大区别。Data science 现在和 AI 基本一个意思。
在国外生活多年,这两个专业对我来说没有任何区别。
17 天前
回复了 csfreshman 创建的主题 投资 美股 20%仓位亏了 10 个,心痛的无法呼吸
@zhy91 从公开的 trade deficit 数据来看是美国进口中国的大于中国进口美国的。跟你说的是正好反的。这也是美国增加关税最根本的理由。
@paranoiagu 也算是正常的。Ollama 内部是有些自己的逻辑的。

Reddit r/LocalLLaMA 和 Hacker News 我记得有人反馈同样的问题。

你也可以在那里 post 你的测试结果。
Temperature 设置为 0 ,消除 output 随机性

确保都是在 GPU 上跑的,lamma.cpp 和 ollama 默认有可能在 CPU 上跑,需要配置
每个模型不太一样,但是质量都会随 context 长度下降。

https://arxiv.org/abs/2502.05167
推荐 Fireworks, Together 和 Hyperbolic ,我自己测试下来速度比较快。Hyperbolic 最近两天变慢了。

测试脚本的原始数据: https://github.com/paradite/deepseek-r1-speed-benchmark

测试报告 https://prompt.16x.engineer/blog/deepseek-r1-cost-pricing-speed
@lovestudykid 问了另一家 provider ,他们说因为 Deepseek R1 是 "trained in FP8",所以本来就是 FP8 quantization 。所以没有影响。
但我也不确定这些 provider 有没有自己多做一层 quantization ,因为 Deepseek R1 的 FP8 是某些 layer 才有的,有会多其他 layer 还是 BF16:
- https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main?show_file_info=model-00001-of-000163.safetensors
- https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main?show_file_info=model-00160-of-000163.safetensors
- https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main?show_file_info=model-00163-of-000163.safetensors
这些 BF16 不确定是不是被额外的做了 FP8 quantization 。按照 vLLM 的说法,如果是 Online Dynamic Quantization
“all Linear modules (except for the final lm_head) have their weights quantized down to FP8_E4M3 precision with a per-tensor scale”:
- https://docs.vllm.ai/en/v0.5.0.post1/quantization/fp8.html
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5359 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 03:23 · PVG 11:23 · LAX 20:23 · JFK 23:23
Developed with CodeLauncher
♥ Do have faith in what you're doing.