感觉一些人对 claude 3.7 sonnet 有误解，以为是编程领域最强的模型。

其实只是“某种意义”上的最强。编程分两种，一种是 CURD 工程化，也就是 claude 3.7 sonnet 擅长的领域，用朴实无华的编程技能，把整个页面写完善，出成品，这是 claude 3.7 的强项。

另一种编程领域，是竞赛制编程，和数学推理能力很接近，在这一点上 o3-mini-high 要明显强过 claude 3.7 ，所以 claude 3.7 编程专项领域的跑分，看起来并不算太亮眼。

下图是最新的编程竞赛跑分，3.7 连 deepseek r1 都没能打过，实在很遗憾。但是论项目开发，claude 3.7 舍我其谁！

securityCoding

1 天前

@iflint 抓 bug 我感觉几个主流模型都非常强

HEGGRIA

1 天前

3.7 本身不是推理模型，做题肯定不如推理模型强，但是别忘了还有个 3.7-thinking

LHN

1 天前

这模型代码能力行不行，我们这些天天写前端的人还不清楚么？我用了三年 GPT-4 ，显卡烧穿了，经费花空了，现在好不容易等来 claude3.7 ，可你们非说这是人工智障！

Rickkkkkkk

1 天前

这下跑分的尴尬之处就体现出来了

大家真正都在用的东西，谁更好用不是跑分能体现的

ytmsdy

1 天前

反正对于我这个 CRUD Boy 来说，Cursor 的 claude 3.7 已经足够我搬砖了。

aloxaf

1 天前

编程排名目前只认 https://aider.chat/docs/leaderboards/

Exercism Hard 题 + 多语言综合测试，得出来的结果可以说是最接近实际情况的，有效防止小模型刷榜。

Yuanlaoer

1 天前

所以，你的预期是大家用 claude 3.7 sonnet 是为了用来参加编程竞赛的。

mxT52CRuqR6o5

1 天前

你嫌别的榜不靠谱，那你给的这个榜就很真实客观吗？
两个 32B 的小模型能领先于 DeepSeek-R1 671b ，7B 的小模型能跟 o1-mini 不相上下，榜上的 3.7 也不知道是开了推理的还是没开推理的

jsutfun

1 天前

刷榜单没意思呀，前段时间有人使用 R1 的训练策略猛猛刷 match 的一个得分，也没啥用呀

aloxaf

1 天前

还有一点，claude 系列的 agent 能力真的特别强，这点似乎还没有哪类排行榜可以体现，但是这个对于大项目来说是必须的。

上周在一个不熟悉项目的遇到一个小 bug ，试了下直接让 AI 分析，o3-mini 和 claude 3.7 sonnet 的表现大致如下：
o3-mini：只看我给的上下文，然后思考半天作答，结果自然是完全不对。
claude 3.7 sonnet：看完我给的上下文后，顺着调用链不断阅读代码……竟然真的准确定位到了问题，问它这整个调用流程是啥样的也能答上来。

anthropic 别的不说，在编程这方面绝对是最务实的公司，很清楚在编程方面真正需要的能力是什么。

murmur

1 天前

claude 3.7 得看是谁家的 cluade ，大模型是一部分，还要上下文，角色调教，目前看 cursor 和 copilot 的 3.7 都不错，但是我更喜欢 copilot 的界面，cursor 的新界面给我用吐了

idealhs

1 天前

claude 暴力输出上千行代码不带报错的，其他家做得到吗

seven777

1 天前

@murmur #31 在 cursor 一片吹捧的语境下,我都不敢说这个.
cursor 除了默认的颜色主题比较好(注释浅色,主体观感不错.)其他的都不如 vscode 本体的.

murmur

1 天前

@seven777 cursor 新版的遇到个 bug ，不知道是设计还是啥问题，在同事电脑，如果是远程桌面下，按减号键，比如 this-is-a-css-class ，会把我选的上下文给我减下去

而且不知道为啥，那个上下文关联被 copilot 吊打，首选上下文要半天才能反应过来，copliot 直接打文件名就可以，cursor 想快必须得文件拖拽到聊天接口里，关联里选文件搜不到。。。

muzei233

1 天前

和朋友实际体验都是 claude 3.7 优于 gpt o3 mini high 优于 ds

ychost

1 天前

anthropic/claude-3.7-sonnet 这是目前最好用的模型吧，尤其像开源的 OpenManus 基本只有这个模型跑起来最流畅，国产模型 Qwen 、deepseek 等都不行，尤其在工具调用方面

maix27

1 天前

手机电脑手机年年出新，你年年换吗？
编程语言次次出新，你是不是也在追逐？

我不会刻意的追逐一个没有意义的东西，而不是因为对这个东西有误解。

stormsuncc

1 天前

who care

ClaudeAi

1 天前

大家说得对

mogutouer

1 天前

sonnet 好用是因为 cursor 写了不少内部提示词，跟工具配合最好，解决问题事半功倍，所以最好用。
o3-mini 便宜但不认 cursor 的提示词，只适合开新对话处理新问题，并且你自己的提示词要写一大堆。

不在 cursor 环境下，如果是直接网页上对话，最强的目前是 grok3 think 吧，几乎可以解决一切难题，思考过程比 deepseek R1 还要长。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1119002

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.