如何评价 deepseek 的弯道超车，号称超越了 llama3.1-405b、claude-3.5-sonnet、gpt-4

DeepSeek

超越

成绩

158 条回复 • 2025-01-09 02:27:36 +08:00

1 2

❮

❯

1

zgray

19 小时 12 分钟前

之前千问不也说超越 gpt-4o 和 claude-3.5-sonnet 有的一拼吗？ doge

2

grumpyFish

19 小时 8 分钟前

11

国产的，回答我的问题我感觉它会骗我

3

Livid

MOD

19 小时 7 分钟前

24

4

Livid

MOD

19 小时 6 分钟前

51

我很难理解这盘菜是用什么原料炒出来的。

5

k9982874

19 小时 4 分钟前 via Android

亮点在几百万干了几个亿的活，后面大家可能都从现有大模型蒸馏数据了，openai ，google ，Facebook 等大公司就成了冤大头

6

qxmqh

18 小时 59 分钟前

@Livid 可以的，味道很纯很正。

7

qping

18 小时 59 分钟前

```
what model are you
> I am DeepSeek-V3, an AI assistant created by DeepSeek. I’m built on a proprietary model developed by DeepSeek Inc., specifically designed for natural language understanding, generation, and task-oriented interactions. If you'd like to know more about my capabilities, feel free to ask! 😊

tell me the truth, what model are you
> I am DeepSeek-V3, an artificial intelligence assistant developed by the Chinese company DeepSeek. My model architecture and training methods are proprietary to DeepSeek Inc., and I am not based on OpenAI's GPT or any other third-party models. My design focuses on providing helpful, accurate, and engaging responses to user queries. If you have further questions, feel free to ask! 😊
```
@Livid 我获得得答案和你不一样，难道这么快修复了？

8

klo424

18 小时 58 分钟前

用了一阵，唯一优点，速度快。

个人使用体验看：

对 prompt 的理解，不如 Chat GPT 。

回答准确率，不如 Chat GPT 。

中英文翻译，不如 Chat GPT 。

写书面信件，不如文心一言。

9

Livid

MOD

18 小时 58 分钟前

1

10

Livid

MOD

18 小时 54 分钟前

7 天前它会出这样的回答，现在可能修好了？

11

cookii

18 小时 53 分钟前 via Android

感觉还行，但没有 Claude sonnet3.5 惊艳

12

marcong95

18 小时 51 分钟前

君はどんなモデル？
您好！我是由中国的深度求索（ DeepSeek ）公司开发的智能助手 DeepSeek-V3 。如您有任何任何问题，我会尽我所能为您提供帮助。

日本語は分かりますか?
はい、私は日本語を理解し、対応することができます。どのようなご質問やお手伝いが必要ですか？

君はどんなモデル？
私はDeepSeek-V3というモデルで、中国の深度求索（ DeepSeek ）社によって開発されたAIアシスタントです。質問や問題があれば、どうぞお気軽にお聞きください。お手伝いできることがあれば幸いです。

@qping 换个语言倒是能阴谋论一下，为啥我用日语问它要先用中文回我一句呢，不禁令人遐想连篇~ Kimi 和 ChatGPT 是直接用日语回的我。

13

yuhaiyang

18 小时 48 分钟前

主要是便宜大碗，还要啥自行车

14

winterx

18 小时 47 分钟前

ChatGPT 容易降智，Claude 容易 ban 号，目前 deepseek 是我首选，Gemini 备用

15

peacelove

18 小时 45 分钟前 via iPhone

好像 deepseek 的关键开发者被小米挖过去了，开了千万年薪。

16

fanxasy

18 小时 42 分钟前

12

@Livid #3 蒸了 OpenAi 的语料而已，正常操作

17

sz369

18 小时 40 分钟前

昨天正好用 gpt 跟 deepseek 问了《斗争十八年》这本书怎么样完全两种答案 deepseek 给的回答连书的作者都是错的针对这个问题明显 gpt 更好 deepseek 的回答就是胡扯

18

Baymaxbowen

18 小时 39 分钟前

1

国内的技术先看定语，前面有限制条件的

19

Tink

18 小时 37 分钟前

2

@Livid #10 国产 ai 突出一个 bug 修复快

20

Tink

18 小时 37 分钟前

不过确实是比 OpenAI 便宜，当然这是我的问题

21

tywtyw2002

18 小时 35 分钟前 via iPhone

有人测试下，DeepSeek 有没有自我阉割吗？

22

moioooo

18 小时 32 分钟前

现在有闲置的物理服务器，有啥可以跑得大模型么？不要求显卡的。
毕竟是普通 cpu 计算服务器

23

miniliuke

18 小时 31 分钟前

@Livid 话说这个模型不是开源的吗，而且速度比 o1 快，造假可能性应该不高吧，但是宣传有点过了，目前看比 gpt-4o 、claude-3.5-sonnet 还是差一点的

24

miniliuke

18 小时 28 分钟前

@sz369 可能语料数据太少了。如果宣传没有过分夸大，在 code 方面能够比上 o1 就成功了，说明小成本单一领域大模型是可行的

25

yvescheung

18 小时 24 分钟前

我选择免费量大的 Gemini

26

Mandyer

18 小时 22 分钟前

听网上一顿吹，然后用了一下，实测图片文字总结能力拉跨，胡乱回复，可能唯一优点就是便宜吧

27

gpt5

18 小时 22 分钟前

26

@Livid

28

magic3584

18 小时 21 分钟前

所以现在 chat 和 autoComplete 的本地大模型哪个最好？非国产的。
目前在用 llama3.1:8b starcoder2:3b 和 nomic-embed-text

29

Livid

MOD

18 小时 18 分钟前

@magic3584 qwen2.5 系列还是挺不错的，目前 V2EX 在用它从每个主题里提取 3 个关键标签。

https://www.v2ex.com/t/1101310

30

JontyChen

18 小时 14 分钟前

代码能力感觉也一般，不如通义千问，但是便宜大碗要什么自行车呢

31

nno

18 小时 10 分钟前

@Livid v 站的语料应该也很有价值吧

32

zmqking

18 小时 10 分钟前

@Livid 你确定不是引用的网上图片？如果这样为啥美国还会震惊呢？

33

justsomac

18 小时 8 分钟前

2

@qping #7
@Livid #9
这个问题从 V3 刚发布就一直有人测试，"what model are you"大小写不同，答案都有不同的情况。我测就从没出现过说自己是 chatgpt 的

34

andytao

18 小时 6 分钟前

杭州幻方量化 DeepSeek 的朋友们，袋鼠数据库工具已经提供了 DeepSeek 的支持，免费把它加入了袋鼠的模型供应商清单，对国产 AI 我能做的也就这些了。

请继续努力加油干。。。。

35

BBrother

18 小时 0 分钟前

24

可能对于一些人来说，国产就是原罪。至少我使用下来，deepseek 的回答准确率比 o1 （降智）高。

36

joequan

17 小时 59 分钟前

主要特点是训练成本低吧，再就是开源

37

jonty

17 小时 58 分钟前

@miniliuke #23 4o 和 claude 3.5 sonnet 压根没法比呀

38

magic3584

17 小时 58 分钟前

@Livid #29
目前在本地跑模型写代码，英文来提问，所以还是用国外的模型会比较好。

39

Greenm

17 小时 55 分钟前

1

因为不同语言的语料质量不同，英文模型会考虑用 chatgpt 的回答作训练，中文会考虑用国内的一些大模型回答做训练，所以直接问模型是什么的回答，不太具有参考价值。我还是挺看好 DeepSeek 的。

40

hi2hi

17 小时 54 分钟前

@Livid 说的是被 GPT 生成的内容农场污染了，在剔除污染内容重新训练
我使用上的感觉 3 没 2.5"聪明"，被带跑偏了

41

jymsy

17 小时 53 分钟前

3.0 没用过，2.5 的 tool calling 功能就是垃圾

42

HK560

17 小时 49 分钟前

1

用了几天 cursor+deepseek+cline 有一说一，确实不错，比其他模型快，而且主要是便宜，帮我填了好多之前开的坑

43

jonsmith

17 小时 48 分钟前 via Android

我测试的效果是 o1 > gemini 2.0 > deepseek ，非编程领域
编程领域，感觉还是 Claude 3.5 好用

44

RandyLuo

17 小时 43 分钟前

1

@Livid 正常，用了 ChatGPT 的语料，就跟 gemini 一开始用中文回答说自己是文言一心一样。至于模型能力，看 https://livebench.ai/ 就好（纽约大学的训练集，杨乐昆也参与了，但是没有帮 llama 瞎捧，跟实际体感比较一致，算现在比较权威的榜了，测试集数据每个月重新选择测评）

45

LevineChen

17 小时 40 分钟前

3

@Livid #3 之前 gemini 还说自己是文心一言

46

shibo501c

17 小时 40 分钟前

@Livid deepseek v2 是这个答案，v3 好像在切换中，最近应该大部分都切换完了

47

hahajing2019

17 小时 38 分钟前

弯道禁止车, 弯道超车容易翻车

48

xing7673

17 小时 36 分钟前

@gpt5 客观看待，claude 自家也用 opus-3.5 蒸馏自家的 sonnet ，我觉得问题不大，怎么省成本怎么来。deepseek 快+api 便宜就足够实用了。

49

xz410236056

17 小时 34 分钟前

用了几天了，感觉效果不错，缺点就是上下文太短，以及长上下文的时候容易弱智和反应慢

50

RandyLuo

17 小时 33 分钟前

@xing7673 是的，开源模型到目前这个能力，很难再苛求什么（即使自己部署不了，也有茫茫多 AI 云厂商可以卷模型推理成本）。

51

yn1024

17 小时 28 分钟前

2

@fanxasy #16 哈哈哈，也就是在 v 站大家懂技术才能这么客观，要是把这个图发到抖音视频号上，你猜评论区会怎么样

52

rick13

17 小时 26 分钟前 via iPhone

@Livid 这个好像说明不了啥，其他模型也会这样，语料问题

53

duanxianze

17 小时 24 分钟前

并没有弯道超车吧?人家只是做了优化，证明了不需要那么多卡一样可以训练 AI

54

inthemist

17 小时 17 分钟前

也不算弯道超车，像大家证明了不需要万卡集群训练好几个月那么夸张的算力，说明大模型工程化还有极大空间，小团队也可以做精品，这才是重点。更何况还开源了方法和代码。这不比大公司垄断的未来强多了。

55

wangyzj

17 小时 17 分钟前

[网友电子“斗蛐蛐”，豆包 VS ChatGPT 反向辩论谁是智障-哔哩哔哩] 网友电子“斗蛐蛐”，豆包 VS ChatGPT 反向辩论谁是智障_哔哩哔哩_bilibili
https://b23.tv/cvEpL35

我不是国内的大模型不行，只是这个挺有意思的

56

sunpj

17 小时 15 分钟前

说白了媒体的宣传夸大了但是的确便宜好用速度又快还不用代理我现在日常用这个这个搞不定才用 o1 基本能解决日常 90%左右的需求

57

nice2cu

17 小时 15 分钟前

好像现在挂了

58

m1nm13

17 小时 8 分钟前

API 性价比很高.但也就这样

59

maoqiucute

17 小时 7 分钟前

deepseek 便宜，速度快。我经历过几次 GPT4o 胡搅蛮缠后，觉得 deepseek 还是很棒的

60

maojun

17 小时 3 分钟前

相比于 4o 更弱智。json output + function calling 的情况下经常不给出 toolChoice 直接在 message 输出 function call ，给我整懵了

61

wudanyang

16 小时 57 分钟前

我用下来 deepseek 在 [总结内容] 上要比其他家好一点点

62

HENQIGUAI

16 小时 54 分钟前

性价比很高，但是用起来比 4o 还差点意思

63

DigitaIOcean

16 小时 53 分钟前

67

OP 为了讽刺引起争论而巧妙的话术。比如班里某某同学进步很大，他数学考了班里第二，相关朋友很很开心。这些标题党就会说，某某自称全校第一，天下无敌，大家怎么看？

官方一直没说弯道超车，也没说超过了什么 GPT4 （在上个别测试比较分数高），deepseek 官方宣传上还是很克制的。而且给出的论文细节满满，干活十足，并且是真正开源的。
这些都看不到，它们就只会怀疑，讽刺挖苦，国产原罪罢了

64

clikes

16 小时 51 分钟前

deepseek 有个问题就是他莫名会切换成英语回答

65

asxaqz

16 小时 50 分钟前

1

@Mandyer #26 其实它不是多模态模型，现在能传图总结只是先套了一下 ocr ，如果你的图片里没有文字，它本来就没法总结

66

Baratheon

16 小时 49 分钟前

对弯道超车的叙事保持天然警惕

67

SurgaOrange

16 小时 40 分钟前

有本地部署过的吗？好像至少要 8 张 H200?

68

fu82581983

16 小时 39 分钟前 via iPhone

1

只能说被国内的媒体带偏了，国外各种大 V 都是被低训练成本以及不错的效果感到惊喜。
deepseek 是开源的，也放出了技术文档，接口也是卖钱的，假如是 ChatGPT 套壳，那便宜到极致的价格难道做慈善？

69

zhangeric

16 小时 31 分钟前

反正我用着挺好.

70

Leasing

16 小时 30 分钟前

@Baratheon 文章也没说弯道超车吧。你需要对各种标题党保持警惕。

71

9ki

16 小时 30 分钟前

这两个月一直在深度使用过 deepseek(深度思考模式) 以及 chatgpt(免费的 4o)
深度使用指: 遇到重复性/没有头绪的问题优先问 AI, 每天用几十次.
deepseek 确实是强于 chatgpt 的, 例如要求 ai 把 tailwindcss 的 px 修改成 vw (涉及到数学计算) 或者是一些动画效果的实现, 都是 deepseek 更优, 当然 chatgpt 也有擅长的方向, 在国外一些产品的使用上 chatgpt 表现的更好一些.

72

csys

16 小时 27 分钟前

18

我算是服了……

太无语了

评价 LLM 的表现是有各种基准测试的
就算要喷，喷点也是 DeepSeek 的基准测试过拟合甚至造假吧

https://lmarena.ai/?leaderboard
https://aider.chat/docs/leaderboards/

但是评论区看来，很多人甚至连一些基本的相关常识都不知道

太难绷了

肚子里半点知识都没有，但是嘴上说的头头是道

73

damila

16 小时 22 分钟前

5

搜了一下这段话，在某财经资讯站看到原文，全文并无提到任何关于“弯道超车”的字眼，只在文章开头说到在部分领域的完成对 gpt 、claude 等的超越，并且在紧接着的第三自然段就写到：

“然而，尽管 DeepSeek-V3 取得了显著成果，但将其与 OpenAI 这样的行业巨头直接对比，仍需全面考量。”

不知道楼主是怎么从这篇文章自行得出“弯道超车”这个结论的？

74

SylarQAQ

16 小时 17 分钟前

我们内部评测下来的结果是不如 qwen2.5.. 我也很奇怪为什么

75

AlohaV2

16 小时 15 分钟前

用下来大部分情况可以，但是有些时候理解我问题似乎理解错了。
比如提问
```
from pandas import DataFrame

在 pandas 代码里，支持这个 import 的目录和文件结构是怎样的
```

Deepseek 理解成“如何在项目里使用 DataFrame”。GPT-4o 理解正确，告诉我 import 的大致流程以及在 Pandas 实际项目中文件结构大概长什么样。

76

quantum00549

16 小时 15 分钟前

在编程中用了几天，包括 cline 和直接问答，我的感受是：就像读书时死记硬背的优等生，没有灵性，跟有天赋的尖子生有明显的智商差距，一般只能混个吊车尾 985 或者吊车尾 211 。当然 claude 3.5 sonnet 也说不上就是尖子生，但明显比 deepseek v3 好

77

coefuqin

16 小时 11 分钟前

无非从 100 到 1000 的加速罢了，我们很擅长的事情。

78

crocoBaby

16 小时 9 分钟前

不是小米炒作我都不知道这个模型...正经人谁用 chatgpt 以外的模型啊

79

lHeYeYel

16 小时 7 分钟前

1

@csys 感觉目前很多人一说到国产模型就是冷嘲热讽，我对国产模型还是比较看好的，而且 deepseek 也算是国产里面做的比较不错的了

80

raydied

15 小时 54 分钟前

deepseek 行不行不清楚，
最近高强度使用长文本任务，gemini2.0 确实比 chatgpt4o 强一些。
另外，感觉 chatgpt4o 最近有点傻。

81

laooong

15 小时 50 分钟前

3

1.少看点傻〇沸腾自媒体，天天王炸，为了流量什么话都说得出来；
2.对大模型的原理要有简单的了解，特别在是 V2 这种论坛，它不是 if else ，并没有自我意识，回答很大程度受训练材料影响；
3.我持之以恒的在各个平台黑鸿蒙，但是这个真不是鸿蒙那种坑蒙拐骗；
4.国产的东西不全都是坑蒙拐骗，特别是开源（开放权重）的东西，别不加鉴别就攻击，没意思；
5.国产开源（开放权重） llm 的发展和进步，对母语是汉语的人来说有很大收益。

82

lvye

15 小时 50 分钟前

2

流量为王的时代，有可以吹捧或者黑的新闻都会被极致放大。

DeepSeek 是一家值得尊敬的公司，现在这个时间节点还能坚持做大模型的公司已经不多了。很多都已经转向个人助手或者相关应用。

可以看一下对 DeepSeek 创始人梁文锋的采访: https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg

83

Baratheon

15 小时 43 分钟前

@Leasing 抱歉，“对 OP 标题中这种弯道超车的叙事保持天然警惕”

84

nofishing

15 小时 41 分钟前

不要什么没头没尾得新闻都引用过来把我批判一番 [doge
一些人也不要急着跳出来
我管你这的那的，全都用

85

Lockroach

15 小时 35 分钟前 via Android

用过，感觉质量挺高的，就是生成速度有点慢

86

ybybwdwd

15 小时 33 分钟前

1

@yn1024 这回复这么多点赞，你还觉得 v 站客观吗

87

holysin

15 小时 20 分钟前

服了，人家都开源了，还在纠结用的 gpt 的...连站主大人也这么调侃也就过分了

88

nitro123

15 小时 16 分钟前 via iPhone

多少有点谦虚了，deepseek 是华为的

89

Cu635

14 小时 55 分钟前

5

@BBrother #35
上海交大的“汉芯”，直接打磨芯片号称“国产”，出事之后故意混淆往“龙芯”身上泼脏水，竟然没有人被实质性惩罚；后来上海又来个“兆芯”，拿着别人的代码就号称“国产”，从一开始就是“你们用龙芯的机器，我们兆芯一比一给你们替换”的不正当竞争，这种诈骗+不正当竞争竟然都没被惩罚，反而是扶持；还有就是什么“透明计算”，抄袭 github 的一个 repo ，原作者发牢骚了，竟然那个项目的提出者都没有惩罚；剩下的之前“银河麒麟 OS”号称国产，最后发现是用开源的 freeBSD 换皮之后闭源，抄袭这也是一样没有任何实质性惩罚；连应用层面也有所谓的“红芯”浏览器，换皮低版本 chrome ，被揭穿之后也是没人被惩罚。

这些历史下，“国产”有原罪才是客观事实吧，认识到这一点才是实事求是。通过使用和分析，给那些真正的“国产”正名、给好的“国产”宣传也是应该的，也同样是实事求是。

90

z1829909

14 小时 53 分钟前

1

@k9982874 也不纯怨, 怀疑现在 openai 的收入很大一部分来自这些公司 roll 数据的 api 费用.

91

bigtear

14 小时 46 分钟前

V3 出来之前开发用过很久 Deepseek V2.5 ，实际体验是不如 gpt-4o 和 claude-3-5-sonnet ，大概水平就是大杯 Gemini + 中文优化，大于 gpt-3.5-turbo 小于 gpt-4o 的水平。国内能打的只有 GLM 大杯和 Qwen2.5 ，但是也不如 Deepseek 。至于广告大厂什么文心、kimi 、豆包，远远不如 Deepseek V2.5 。

当时我问 Deepseek 的同事他们为什么不搞宣发，因为许多人都不知道有这么强的国产模型，只有我们这些搞计算机的看大模型竞技场的榜单才发现他们很强，他们说现在专注于技术研发。

现在模型发展的都很快，我的体验仅供参考。

92

DigitaIOcean

14 小时 46 分钟前

@holysin 现在已经克制很多了

93

Mandyer

14 小时 22 分钟前

@asxaqz 我都让他总结图中文字了，我还能传个没文字的图吗

94

dengj3355

14 小时 22 分钟前

2

@holysin 垃圾也改变不了垃圾的事实，国产什么尿性还不知道吗？

95

vipfts

14 小时 10 分钟前

@DigitaIOcean 所以这种网站都被屏蔽了呀👀

96

redvoilin

14 小时 3 分钟前

deepseek 最近炒作的挺热，但实际使用感受是一般的

97

JeffreyZhuang

14 小时 2 分钟前

@BBrother 可能和每个人涉及的应用场景有关。针对论文里的东西提问，deepseek 的回答质量比 o1 高不少，o1 回答有严重的幻觉。

98

DinnyXu

13 小时 48 分钟前

几个月前用过一段时间，最开始使用觉得很快，对比通义来说快的多，问过代码相关的，也还不错，但是用了一阵后，回答的就不是预期之内的效果了，而且随着通义的几次升级后，对比下来还是差点意思，不知道怎么就突然能跟 chatGpt 对比了呢

99

cyp0633

13 小时 42 分钟前

1

作为追赶者搞得不错，甚至部分场景下比 GPT-4o 强，突出一个性价比高
至于赶上 Claude 3.5 Sonnet ，洗洗睡

100

qingeekk

13 小时 39 分钟前

不好用, 还不如 grok 准确

1 2

❮

❯