现在 Claude 很强, ChatGPT 优势不在, Gemini 是真的掉队..

86 天前
 fengge0002



我老婆问了一个他们公司遇到的问题,ChatGPT 和 Claude 都完全理解了场景及问题描述,并作出了相应解释。
Gemini 犟种一个,死不认错,之前的回答还“乙方老板的计算方式存在逻辑上的错误”、“建议乙方老板仔细阅读合同条款”..
ChatGPT 回答中规中矩,乏善可陈。Claude 就详细多了,还进行了一些推测和扩展。
有时候不同模型的输出对比,挺有意思。
ChatGPT 要加油了。
6848 次点击
所在节点    OpenAI
61 条回复
fengge0002
86 天前
@bitkuang

试了一批国产。DeepSeek 、豆包、通义千问都不行,只有 ChatGLM 回答正确
xing7673
86 天前
@Chad0000 #3 4 贵啊
lDqe4OE6iOEUQNM7
86 天前
@fengge0002 chatGPT 有一亿月活,用户多自然阉割,Claude 用户少自然分配的推理算力多,模型也不阉割
Chad0000
86 天前
@bitkuang #18
@Cambra1n #19

我的 4 ,原回答:“ 你今天买了 3 个苹果,前天吃了一个不影响今天买的数量。所以,你现在还有 3 个苹果。”
xing7673
86 天前
@dule #15 这是真的要称赞 OpenAI 向社会输送人才了,确实都是人才啊
Chad0000
86 天前
@xing7673 #22
20 刀没多贵,目前最好的模型只有它。我没使用 API ,我用的 ChatGPT Plus
Chad0000
86 天前
@bitkuang
@Cambra1n

4 比 4o 强,下面是回答,没有任何提示。

https://chatgpt.com/share/095a3b01-84ae-47e8-84a8-0ebab2a3adc2
Chad0000
86 天前
Cl9H2MWxgKeKI1py
86 天前
谁高谁低不做评价,Claude 想开 pro 不会支付的可找我代开
Chad0000
86 天前
@xing7673 #22
看我上面的对比,4 就是比 4o 强。这个钱对我来说值得,虽然我用得也不太多。
fiercex
86 天前
@fengge0002 为啥我用 deepseek 的结果是对的 https://imgur.com/pkIvafc
sslfans
86 天前
你今天买了 3 个苹果,前天吃了一个,但今天买的苹果和前天吃的苹果无关。你今天买的苹果还是 3 个。
apollo007
86 天前
Claude 除了用于帮程序员写程序,适合非程序员的普通上班族吗,像 4o 那样
fengge0002
86 天前
@fiercex 这个模型输出不稳定,我试了四次有三次回答是错的,一次是对的
djangovcps
86 天前
fengge0002
86 天前
@apollo007 必须适合,这些都是通用大模型,写程序只是能力之一
xuhp
86 天前
claude 第一次回复两个苹果,给予提示后回复:

我之前的回答确实存在逻辑错误,谢谢你指出这一点。让我重新分析一下这个情况:

你今天买了 3 个苹果
前天吃了 1 个苹果
这两个事件在时间上是分开的,今天买的苹果不可能在前天被吃掉

正确的分析应该是:

前天吃的那个苹果应该来自更早之前买的或已有的苹果
今天买的 3 个苹果应该是全新的,完全没有被动过的

所以,正确的计算是:
3 个苹果(今天买的) + 未知数量的苹果(之前就有的,减去前天吃的 1 个) = 当前剩余的苹果总数
没有足够的信息来确定你现在到底有多少个苹果,因为我们不知道你在买这 3 个新苹果之前还剩多少个。
morutong
86 天前
@fengge0002 #21
谁已经把千问训练好了,就是回答的太啰嗦了
apollo007
86 天前
@fengge0002 #36 嗯,刚刚试了一下,claude-3.5-sonnet 表现不错,在 poe 里面是免费的
iceiceice9527
86 天前

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1065202

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX