感觉一些人对 claude 3.7 sonnet 有误解,以为是编程领域最强的模型。

2 天前
tool3d  tool3d
其实只是“某种意义”上的最强。编程分两种,一种是 CURD 工程化,也就是 claude 3.7 sonnet 擅长的领域,用朴实无华的编程技能,把整个页面写完善,出成品,这是 claude 3.7 的强项。

另一种编程领域,是竞赛制编程,和数学推理能力很接近,在这一点上 o3-mini-high 要明显强过 claude 3.7 ,所以 claude 3.7 编程专项领域的跑分,看起来并不算太亮眼。

下图是最新的编程竞赛跑分,3.7 连 deepseek r1 都没能打过,实在很遗憾。但是论项目开发,claude 3.7 舍我其谁!

5734 次点击
所在节点   程序员  程序员
47 条回复
wanniwa
wanniwa
2 天前
嗯,都是牛马,谁关心竞赛制编程。所以 claude 3.7 他就是编程领域最强
clemente
clemente
2 天前
找顺手的模型就好了. 没必要必须选最好的. 未来每个公司的模型 taste 都不一样.肯定会细分的

1. 提示词对输出的提升 可能 更重要
2. 还是根据自我感觉来吧 benchmark 都是玩具 定向微调数据+蒸馏 能让 8b 跑上某个榜的前几
ly841000
ly841000
2 天前
claude 后端不行,写个三缓冲都写不明白
digd
digd
2 天前
chatgpt 排名强,体验拉
vopsoft
vopsoft
2 天前
可拉到吧
claude 能理解我要什么 谁关心跑分 甚至上边的图我都不愿意点开 其他的差太远太远 根本不值得一比
klo424
2 天前
claude 3.7 sonnet 是身边统计学最强,op 发的这个是真的统计学吧,哈哈哈哈
enchilada2020
2 天前
都说 Claude 强 之前没啥感觉 直到我拿 C 写了个内存泄漏 一千来行代码 丫直接给我准确定位并解决了
Cheez
2 天前
claude 在 Cursor 里面还好吧,能够一次对话调用多个工具。不知道是 Cursor 包装出来的,还是原生支持。
zgjldxdyt1
2 天前
别的不说,cursor 默认 claude 就说明了很多,专门做编程领域的,肯定调研测试了很多才做的模型选择。
RandyLuo
2 天前
chengyiqun
2 天前
claude 上下文 200k token
deepseek 64K token
这还比啥编程领域, 长上下文明显更有优势
AoEiuV020JP
2 天前
我们在意的是在 AI 编辑器领域哪个模型配合编辑器最能实现用户想要的效果和代码,用脚投票而不是某种跑分,
InkStone
2 天前
不仅写代码。我实测下来很多任务 claude 3.7 的表现都很好,包括但不仅限于特定领域的文本生成,SVG 绘图生成,复杂任务理解和操作等等。
HUZHUANGZHUANG
2 天前
我不关心什么跑分,我只关心谁用的顺手
Promtheus
2 天前
懂了 claude 3.7 最强
seven777
2 天前
数学和推理 Grok3 目前最强, 代码 Claude3.7 最强.
可以反驳,但我不接受.
"竞赛制编程"有什么明显的不同和特点?
iflint
2 天前
@enchilada2020 这么牛🐂
zekeluii
2 天前
寫代碼確實是 Claude 3.7 最強
windyboy
2 天前
奥林匹克信息竞赛题和实际的编程问题真不是一样的东西,虽然都叫做程序
cheng6563
2 天前
所以你整天竞赛还是整天 CURD ?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1119002

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX