挑战:通过一个问题,测试是不是 GPT4

203 天前
 oldcai
有很多场景,需要通过测试问题,推测模型。

之前有朋友说,可以问:树上有 9 只鸟,猎人开枪打死一只,树上还剩下多少只鸟?

但是我试了 5 次,GPT 3.5 才答错一次。

你还知道什么其他的问题可以测试?
1644 次点击
所在节点    OpenAI
14 条回复
zhangjiashu2023
203 天前
3.5 的速度不是比 4 要慢很多吗
Zzdex
203 天前




感觉 3.5 的回答更合适一点。
oldcai
203 天前
@Zzdex 我试过开不同 session ,答错概率就 1/5
regenerate 我不知道会不会有影响,但答错概率只有 2/5
darkengine
203 天前
直接问他是不是 GPT4 ,GPT3.5 会回答说因为它只知道 2023 年 xx 月之前的事情(具体年月忘了),所以不知道这是啥。

刚试了,3.5 会老实回答说它不是。
gujuji
203 天前
@darkengine 这么快就学会撒谎了吗哈哈哈
hutng
203 天前
鲁迅为什么要暴打周树人。
zhhmax
202 天前
“有很多场景,需要通过测试问题,推测模型”,好奇的一点是难道不是选了什么模型就是什么模型吗,怎么还要推测的?
FishNaCl
202 天前
可以用前段时间的两个经典问题试试
为什么我不能参加我爸妈的婚礼
鲁迅为什么暴打了周树人
oldcai
202 天前
@zhhmax 比如你看到一个产品做的不错,想知道背后是什么模型。
比如在第三方 API 转售的时候,测是不是有掺假。
oldcai
202 天前
@FishNaCl
@hutng
这两个问题不错。
鲁迅为什么暴打了周树人这个问题 3.5 会产生幻觉,4 和 4o 都正常。
为什么我不能参加我爸妈的婚礼,3.5 会 100%乱分析,4 可以 100%正确,4o 会有概率不正确。
zhx643
202 天前
林黛玉倒拔垂杨柳
rebecca554owen
200 天前
10000 以内的正整数,有多少个包含数字 1 。
oldcai
199 天前
爱丽丝有 N 个兄弟,她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹?
notwaste
198 天前
测 GPT4 的问题防君子不防小人,中转如果有意伪装成 GPT4 是会针对这些测试的问题做特殊 prompt 的
实在需要的可以参考站内有个帖子 https://www.v2ex.com/t/947700

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1047492

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX