现在 Claude 很强, ChatGPT 优势不在, Gemini 是真的掉队..

34 天前
 fengge0002



我老婆问了一个他们公司遇到的问题,ChatGPT 和 Claude 都完全理解了场景及问题描述,并作出了相应解释。
Gemini 犟种一个,死不认错,之前的回答还“乙方老板的计算方式存在逻辑上的错误”、“建议乙方老板仔细阅读合同条款”..
ChatGPT 回答中规中矩,乏善可陈。Claude 就详细多了,还进行了一些推测和扩展。
有时候不同模型的输出对比,挺有意思。
ChatGPT 要加油了。
5867 次点击
所在节点    OpenAI
58 条回复
Pichai
34 天前
我是刚开始就注册了。Gemini 是一直拉胯。刚开始 claude 是不如 ChatGPT ,最近使用对比下来都感觉是 claude 更强大。我使用的都是免费版。
我是真没想到 claude 居然能弯道超车。不过感觉 ChatGPT 的 UI 设计是比 Claude 好太多。
haiku
34 天前
gemini 网页上都是便宜版本,要用它的 API 或者 ai studio

https://aistudio.google.com/app/prompts/new_chat
Chad0000
34 天前
4o 是不如 4 的,我现在没特殊需求都用 4
Frankcox
34 天前
想问下 Claude 咋注册?听说接码平台手机号接码很容易被封?
aureole999
34 天前
我都有点无法理解你的问题,甲方应付乙方总金额 223250 ,已经是应付了,怎么还问应付多少。乙方是收款方,他为什么要扣除自己的钱?
Chad0000
34 天前


这涉及到模型是否“偷懒”和“讨好”的问题。4o 偷懒所以不会强制进行逻辑检查,4 不偷懒所以有所“分析”。Claude 和 Gemini 我没用过。

我之所以这么说是因为 4o 刚出来的时候直接我以前建立的 SQL 转代码的 GPT 它给我忽略了很多规则,我必须明确指定,清晰地说明能做什么不能做什么它才能像以前( GPT 默认使用 4 的时候)那样简单描述就能按要求输出。区别就像你跟一个初级开发和高级开发沟通的不同,前者你必须事无巨细告诉规则,后者你只需要说“瞧,按我写的那样写”。
fengge0002
34 天前
@haiku 得到的回复差不多一致。这种 api 使用需要自己调参效果才好,而官方网页服务是调好的,从理论上来讲同种模型网页效果应该更好
fengge0002
34 天前
@Frankcox 老早以前注册的,接码就用俄罗斯那个 sms-active 就好,注册用 gmail 邮箱。一直很稳定,至今还没被封过
fengge0002
34 天前
@aureole999 这是外贸交易,应付还涉及到国际银行转账,乙方需承担一些银行的费用
fengge0002
34 天前
@Chad0000 你这个分析靠谱。4o 确实减了一些东西,换来了价格下降和输出速度的提升
yinmin
34 天前
我把问题换成了:“甲方应付乙方总金额 223250 元,汇款手续费 1.5%由乙方承担,甲方实际汇款金额应该是多少?”

每个 ai 都刷新 3 次答案,包括 gpt-4o 、claude3.5 、mistral large 2407 、gemini 1.5 pro 、glm-4 、deepseek v2 、llama 3.1 405b 等高级 ai 基本都全军覆没
Track13
34 天前
gemini 确实拉,人设编好,发第一条消息就忘记人设。
mikaelson
34 天前
claude 的网页版有插件优化界面吗?
dule
34 天前
chatgpt 原班高层不是跑的差不多了?有些就是跑到 Anthropic 公司,Claude 就他家的,这下对应起来了
dule
34 天前
@dule
“OpenAI 叛军联盟”最新阵容:
1 、OpenAI 联合创始人、ChatGPT 后期训练负责人 John Schulman 在社交媒体宣布离职,并火速加盟了 Anthropic
2 、Anthropic 由 Dario Amodei (前 OpenAI 研究副总裁)及其妹妹 Daniela Amodei (前 OpenAI 安全和政策副总裁),以及其他 5 位 OpenAI 前员工创立。亚马逊已对其投资 40 亿美元,并持有少数股权,他们一直试图将自己定位为比竞争对手( OpenAl )更有安全意识的公司。背后大腿亚马逊
3 、OpenAl 前安全主管 Jan Leike ,今年 5 月 29 日 宣布辞职并加入 Anthropic ,之前 OpenAl 超级对齐团队的一部分成员,也被 Anthropic 收入囊中
有报道称,OpenAI 已有近 80 名核心员工离职,创立了约 30 家人工智能初创公司都价值不菲,已然构建出一个千亿帝国。
dule
34 天前
让我想到之前看过的苹果芯片人才流失,也是几个前苹果芯片架构师一起创立 Nuvia ,被高通收购,后面的 8gen2 、8gen3 能耗性能都很能打,以及后续出的自研架构,也早让我对高通后续芯片期待多过苹果
ChatGPT 、苹果芯片纷纷表示: 终归还是自己才能打败自己
fengge0002
34 天前
@mikaelson 没搜到,貌似没有。这东西制作成本高,官方稍微变一变要跟着改。话说 claude 也没有那么难用吧,不至于..
bitkuang
34 天前
你问他们下面这个问题:

我今天买了 3 个苹果,前天吃了一个,还剩几个
Cambra1n
34 天前
@bitkuang 4o 始终说 3 个,4 永远说 5 个
fengge0002
34 天前
@bitkuang

哇,这个测试好,结果令人吃惊。那三个一样的,只有法国的 mistral 回答正确

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1065202

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX