请问该如何判断及解决 o1 的降智问题

17 天前
 daldon

试过网上教的伊吕波歌测试法,我的 o1 思考过程用了 3 分多钟,但 o1 如果不降智,据说时间是要花更长的。但也看到有人质疑这个测试法的可靠性,所以我想问问还有没有其它可以确定的测试办法?

另外 o1 降智了有没有办法能暂时解决,类似 4o 降智了发图片就能解决那样的?

1484 次点击
所在节点    OpenAI
18 条回复
huguadao
17 天前
我已经退订 chatgpt 了😂
HanashirodotETH
17 天前
o1 一般就是 3 分钟,5 分钟的一般都是极端场景( o1 关自定义提示词 + 美国最“绿”(IP 干净)最靠近 OpenAI 服务器的位置),没降。
zczy999
17 天前
@huguadao 退订了用啥 有什么推荐的吗 感觉有点习惯 gpt 了
mumbler
17 天前
为什么要解决,有啥非用不可的功能,退订换免费的 aistudio
huguadao
17 天前
@zczy999 在看要不要订阅 opencat 多个模型都能用,或者订阅 claude
huguadao
17 天前
@huguadao 但是对于文件上传有强需求(文件中格式复杂,多种表格),貌似只有订阅官方的才有文件上传功能
mumbler
17 天前
@zczy999 #3 aistudio.google.com 免费不限量,特别 gemini-exp-1206 真是强得冒泡,评测和实际体验均碾压 4o ,gemini-flash-think 对标 o1 ,在 o3 没出来前,openai 毫无竞争力了
jonsmith
17 天前
Gemini 2.0 很强,免费,性能接近 o1 。我退订了用了一年多的 plus 。
billytom
17 天前
话说 Gemini Advance 怎么订阅的?有没有类似 gpt 可以 App 里订阅的方案?受不了 GPT 降智了
haiku
17 天前
huguadao
17 天前
@haiku Gemini API 支付方案,国内信用卡也得行😄,我已经用了 0.06 刀了,但是 Gemini 2.0 我试了下,就我一个专门的需求下,没感觉多强大啊
andrew2558
17 天前
claude 代码 + gemini 我这是够用了,还免费,很香
haiku
17 天前
@huguadao 2.0 Flash 一般般,AI Studio 里面有两个新的实验性模型好不少:Gemini exp-1206 和 Gemini 2 Flash Thinking
huguadao
17 天前
@haiku #13 好的,谢谢,回头试试
billytom
17 天前
@haiku 感谢,这个套餐其实挺好的,chatgpt 最近降智太严重了
Liftman
17 天前
我也很迷惑这个问题。我最近尝试过好几次。拿 ctf 题目或者其他的来测试,关键是都很快。

因为 preview 的时候,明明什么都很慢啊,而且有很长的思维链。真的思考很久。

现在尤其是写材料的时候,他明明写的 tmd 贼好。但是太快了。思考速度过于快了。也就 3 秒。而且 3 秒他不是才开始写。3 秒就直接爆文章了。渲染速度还没他发的快。

但是反而是 tmd 前天我让他统计一个字数频率的时候,测试一下,他数几个字数了 2 分多。我看他的思维链是反复的在。。。确认。最终确认。统计。确认。。。。死循环了 2 分钟。。

我反正现在确实很迷惑到底他是不是降智。。。没什么太好的办法吧。
Liftman
17 天前
https://linux.do/t/topic/290343/51 看了一下这个帖子。测试了下。我是 2 分多钟。其实按照他们的标准来说是降智了。但是里面我看即使肉身美国 ip 也是会降。。我感觉这 tmd 是不是官方算力的负载均衡导致的。。。忙的时候大家一起笨 b 。。。
aiqinxuancai
16 天前
用 api 吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1102615

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX