感觉一些人对 claude 3.7 sonnet 有误解,以为是编程领域最强的模型。

1 天前
 tool3d
其实只是“某种意义”上的最强。编程分两种,一种是 CURD 工程化,也就是 claude 3.7 sonnet 擅长的领域,用朴实无华的编程技能,把整个页面写完善,出成品,这是 claude 3.7 的强项。

另一种编程领域,是竞赛制编程,和数学推理能力很接近,在这一点上 o3-mini-high 要明显强过 claude 3.7 ,所以 claude 3.7 编程专项领域的跑分,看起来并不算太亮眼。

下图是最新的编程竞赛跑分,3.7 连 deepseek r1 都没能打过,实在很遗憾。但是论项目开发,claude 3.7 舍我其谁!

5496 次点击
所在节点    程序员
47 条回复
securityCoding
1 天前
@iflint 抓 bug 我感觉几个主流模型都非常强
HEGGRIA
1 天前
3.7 本身不是推理模型,做题肯定不如推理模型强,但是别忘了还有个 3.7-thinking
LHN
1 天前
这模型代码能力行不行,我们这些天天写前端的人还不清楚么?我用了三年 GPT-4 ,显卡烧穿了,经费花空了,现在好不容易等来 claude3.7 ,可你们非说这是人工智障!
Rickkkkkkk
1 天前
这下跑分的尴尬之处就体现出来了

大家真正都在用的东西,谁更好用不是跑分能体现的
ytmsdy
1 天前
反正对于我这个 CRUD Boy 来说,Cursor 的 claude 3.7 已经足够我搬砖了。
aloxaf
1 天前
编程排名目前只认 https://aider.chat/docs/leaderboards/

Exercism Hard 题 + 多语言综合测试,得出来的结果可以说是最接近实际情况的,有效防止小模型刷榜。
Yuanlaoer
1 天前
所以,你的预期是大家用 claude 3.7 sonnet 是为了用来参加编程竞赛的。
mxT52CRuqR6o5
1 天前
你嫌别的榜不靠谱,那你给的这个榜就很真实客观吗?
两个 32B 的小模型能领先于 DeepSeek-R1 671b ,7B 的小模型能跟 o1-mini 不相上下,榜上的 3.7 也不知道是开了推理的还是没开推理的
jsutfun
1 天前
刷榜单没意思呀,前段时间有人使用 R1 的训练策略猛猛刷 match 的一个得分,也没啥用呀
aloxaf
1 天前
还有一点,claude 系列的 agent 能力真的特别强,这点似乎还没有哪类排行榜可以体现,但是这个对于大项目来说是必须的。

上周在一个不熟悉项目的遇到一个小 bug ,试了下直接让 AI 分析,o3-mini 和 claude 3.7 sonnet 的表现大致如下:
o3-mini:只看我给的上下文,然后思考半天作答,结果自然是完全不对。
claude 3.7 sonnet:看完我给的上下文后,顺着调用链不断阅读代码……竟然真的准确定位到了问题,问它这整个调用流程是啥样的也能答上来。

anthropic 别的不说,在编程这方面绝对是最务实的公司,很清楚在编程方面真正需要的能力是什么。
murmur
1 天前
claude 3.7 得看是谁家的 cluade ,大模型是一部分,还要上下文,角色调教,目前看 cursor 和 copilot 的 3.7 都不错,但是我更喜欢 copilot 的界面,cursor 的新界面给我用吐了
idealhs
1 天前
claude 暴力输出上千行代码不带报错的,其他家做得到吗
seven777
1 天前
@murmur #31 在 cursor 一片吹捧的语境下,我都不敢说这个.
cursor 除了默认的颜色主题比较好(注释浅色,主体观感不错.)其他的都不如 vscode 本体的.
murmur
1 天前
@seven777 cursor 新版的遇到个 bug ,不知道是设计还是啥问题,在同事电脑,如果是远程桌面下,按减号键,比如 this-is-a-css-class ,会把我选的上下文给我减下去

而且不知道为啥,那个上下文关联被 copilot 吊打,首选上下文要半天才能反应过来,copliot 直接打文件名就可以,cursor 想快必须得文件拖拽到聊天接口里,关联里选文件搜不到。。。
muzei233
1 天前
和朋友实际体验都是 claude 3.7 优于 gpt o3 mini high 优于 ds
ychost
1 天前
anthropic/claude-3.7-sonnet 这是目前最好用的模型吧,尤其像开源的 OpenManus 基本只有这个模型跑起来最流畅,国产模型 Qwen 、deepseek 等都不行,尤其在工具调用方面
maix27
1 天前
手机电脑手机年年出新,你年年换吗?
编程语言次次出新,你是不是也在追逐?

我不会刻意的追逐一个没有意义的东西,而不是因为对这个东西有误解。
stormsuncc
1 天前
who care
ClaudeAi
1 天前
大家说得对
mogutouer
1 天前
sonnet 好用是因为 cursor 写了不少内部提示词,跟工具配合最好,解决问题事半功倍,所以最好用。
o3-mini 便宜但不认 cursor 的提示词,只适合开新对话处理新问题,并且你自己的提示词要写一大堆。

不在 cursor 环境下,如果是直接网页上对话,最强的目前是 grok3 think 吧,几乎可以解决一切难题,思考过程比 deepseek R1 还要长。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1119002

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX