"只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集

2023-06-11 11:26:05 +08:00
 syaoranex

这个帖子主要收集符合以下要求的问题:

*稳定的含义:用中英文或者其他同样的表述方式分别询问 2 次,次次正确。

这些问题能够用来?

希望大家分享一下你用来测试一个模型是否是真 GPT4 的方法呀~

注:不同模型可以在 nat.dev 这个站点同时验证,但似乎如果参数没有调整好的话,模型表现会很差。

例子

问题(来源于 2023 年新高考 2 卷数学填空):

解决以下几何问题:底面边长为 4 的正四棱锥被平行于其底面的平面所截,截去一个底面边长为 2 ,高为 3 的正四棱锥,所得棱台的体积为多少?

正确解答:28 (个立方单位)

GPT-4 回复(官网网页版,稳定回答):

首先,我们需要了解正四棱锥(一个底面为正方形、四个面为等腰三角形的几何体)的体积公式,这个公式是 V = (1/3) * a² * h ,其中 a 是底面边长,h 是高。
原始的正四棱锥的底面边长为 4 ,但是我们并没有给出其高,我们可以根据截去的正四棱锥的信息来推断它。截去的正四棱锥的底面边长是 2 ,它的高是 3 ,这意味着它的底面边长是原始四棱锥底面边长的一半。由于正四棱锥的高与底面边长成比例,所以原始四棱锥的高度是 2 倍于截去的四棱锥的高,即 6 。
然后,我们可以用这个信息来计算原始四棱锥的体积和被截去的四棱锥的体积。
原始的四棱锥体积为 V₁ = (1/3) * 4² * 6 = 32 立方单位。
被截去的四棱锥体积为 V₂ = (1/3) * 2² * 3 = 4 立方单位。
所得棱台的体积就是原始四棱锥的体积减去被截去的四棱锥的体积,即 V = V₁ - V₂ = 32 - 4 = 28 立方单位。
所以,所得棱台的体积为 28 立方单位。

GPT-4 回复( API 版本,稳定回答):

首先,我们可以求出整个正四棱锥的体积。设正四棱锥的高为 h ,底面积为 S1 ,根据公式 V = (1/3) * S1 * h ,我们可以求出正四棱锥的体积。
我们知道正四棱锥的底面是一个边长为 4 的正方形,所以 S1 = 4 * 4 = 16 。又因为截去的正四棱锥的底面边长为 2 ,所以其底面积为 S2 = 2 * 2 = 4 。给定截去的正四棱锥的高为 3 ,可以求出截去的正四棱锥的体积为 V2 = (1/3) * S2 * 3 = 4 。
现在我们需要求出整个正四棱锥的高 h 。由相似三角形的性质可知,截去的正四棱锥与原四棱锥是相似的,比例为 1:2 。因此,原四棱锥的高 h = 3 * 2 = 6 。
现在我们可以求出整个正四棱锥的体积:V1 = (1/3) * S1 * h = (1/3) * 16 * 6 = 32 。
所得棱台的体积为整个正四棱锥的体积减去截去的正四棱锥的体积,即 V = V1 - V2 = 32 - 4 = 28 。
所以,所得棱台的体积为 28 。

其余模型均未给出稳定的正确回答。

14525 次点击
所在节点    OpenAI
71 条回复
syaoranex
2023-06-11 11:34:05 +08:00
例子 2:

问题(来源于 2023 年新高考 1 卷数学填空):
>解决以下数学问题:某学校开设了 4 门体育类选修课和 4 门艺术类选修课, 学生需从这 8 门课中选修 2 门或 3 门课, 并且每类选修课至少选修 1 门, 则不同的选课方案共有多少种?

正确解答:64 种

GPT4 回复(官网网页版,稳定回答):
>这个问题可以使用组合数学中的计数原理来解决。我们首先考虑所有可能的选课情况,然后从中排除那些不满足"每类选修课至少选修 1 门"的情况。
>如果学生选择选修 2 门课,那么有两种可能的情况:
>选择 1 门体育课和 1 门艺术课。这个选课方案的数量是 C(4,1)*C(4,1)=16 ( C(n,m)是组合数,表示从 n 个不同的项目中选择 m 个项目的方法数量)。
>选择 2 门体育课和 0 门艺术课,或者选择 0 门体育课和 2 门艺术课。但这两种情况都不满足"每类选修课至少选修 1 门"的条件,所以我们排除这两种情况。
>如果学生选择选修 3 门课,那么有三种可能的情况:
>选择 2 门体育课和 1 门艺术课。这个选课方案的数量是 C(4,2)*C(4,1)=24 。
>选择 1 门体育课和 2 门艺术课。这个选课方案的数量是 C(4,1)*C(4,2)=24 。
>选择 3 门体育课和 0 门艺术课,或者选择 0 门体育课和 3 门艺术课。但这两种情况也不满足"每类选修课至少选修 1 门"的条件,所以我们排除这两种情况。
>所以,满足"每类选修课至少选修 1 门"的条件的选课方案总数是 16+24+24=64 种。

GPT-4 回复( API 版本,稳定回答):
>我们可以将问题拆分为两部分来考虑:选 2 门课的情况和选 3 门课的情况。
>1. 选 2 门课的情况:
>这种情况下,学生需要至少选修 1 门体育类选修课和 1 门艺术类选修课。体育类选修课有 4 门可选,艺术类选修课有 4 门可选,因此这种情况下共有 4 * 4 = 16 种选课方案。
>2. 选 3 门课的情况:
>这种情况下,学生需要选修 2 门体育类选修课和 1 门艺术类选修课,或者选修 1 门体育类选修课和 2 门艺术类选修课。
>(1) 选修 2 门体育类选修课和 1 门艺术类选修课的情况:
>从 4 门体育类选修课中选取 2 门的组合数为 C(4, 2) = 6 种,从 4 门艺术类选修课中选取 1 门的组合数为 C(4, 1) = 4 种。因此这种情况下共有 6 * 4 = 24 种选课方案。
>(2) 选修 1 门体育类选修课和 2 门艺术类选修课的情况:
>从 4 门体育类选修课中选取 1 门的组合数为 C(4, 1) = 4 种,从 4 门艺术类选修课中选取 2 门的组合数为 C(4, 2) = 6 种。因此这种情况下共有 4 * 6 = 24 种选课方案。
>所以选 3 门课的情况共有 24 + 24 = 48 种选课方案。
>综上所述,不同的选课方案共有 16 + 48 = 64 种。

其余模型均未给出稳定的正确回答。
Avn
2023-06-11 11:52:01 +08:00
西红柿炒钢丝球怎么做。目前只看到 GPT-4 回复说钢丝球不能吃。
syaoranex
2023-06-11 11:54:50 +08:00
例子 3:

问题(来源于 openai 论文):

回答下列问题:小明在上午 11 点到下午 3 点有空,小红中午 12 点到下午 2 点、下午 3 点半到 5 点有空,小李中午 12 点到 12 点半、下午 4 点到 6 点有空。他们三人当天需要进行一场大约 30 分钟的会议,会议时间应该怎么选择?

答案:中午 12 点 - 12 点半

GPT-4 回复(官网网页版,稳定回复):

为了满足所有人都能参加会议的条件,我们需要找出小明、小红和小李空闲时间的交集。
小明的空闲时间是从上午 11 点到下午 3 点。
小红的空闲时间有两段,第一段是从中午 12 点到下午 2 点,第二段是从下午 3 点半到 5 点。
小李的空闲时间也有两段,第一段是从中午 12 点到 12 点半,第二段是从下午 4 点到 6 点。
如果我们把这些时间段叠加起来,我们可以发现他们三个的空闲时间只有一段交集,就是从中午 12 点到 12 点半,所以他们应该选择在这个时间段内进行会议。
但是需要注意,这个时间段只有 30 分钟,他们预计的会议时间也是 30 分钟,所以他们需要精确地安排会议的开始和结束时间,以确保会议在预计的时间内结束。

GPT-4 回复( API 版本,稳定回复):

他们三人的空闲时间重合在中午 12 点到 12 点半,所以会议时间可以选择在这个时间段内进行,例如约定在 12 点开始,持续 30 分钟。


其余模型均未给出稳定的正确解答。
syaoranex
2023-06-11 12:02:21 +08:00
例子 4:

问题(来源于本贴 2 楼回复):

我正在制作西红柿炒钢丝球这道菜,请你给出制作方法?

人类期望的正确回答:回答出钢丝球通常不能作为食材。

GPT-4 (官网网页版,稳定回复):

很抱歉,但"西红柿炒钢丝球"并非一个真实存在的菜肴。它在网络上被广泛作为一个笑话传播,西红柿是一个真实存在的食物,而钢丝球则是一种清洁用具,显然我们不能把钢丝球作为食物烹饪。
如果你需要了解西红柿的烹饪方法,我可以提供例如“西红柿炒蛋”的做法。如果你的问题是关于如何清洁钢丝球,我也能提供帮助。所以,你能提供更多的上下文信息吗?你实际上是想问哪方面的问题呢?

GPT-4 ( API ,稳定回复):

首先,西红柿炒钢丝球这道菜听起来非常富有创意,但实际上钢丝球并不是一种食材,而是一种厨房清洁工具。所以,我认为您可能是在开玩笑。但如果您想要寻求一道有趣的西红柿料理,我可以提供西红柿炒蛋的做法。
...(西红柿炒蛋的做法)

其余模型均未给出稳定的正确解答。
heavymetals
2023-06-11 12:14:14 +08:00
树上有 9 只鸟,开枪打死一只还剩几只?
jiebozhang
2023-06-11 12:20:09 +08:00
@heavymetals 在这个场景里,当你开枪打死一只鸟后,其他鸟会因为惊吓而飞走。所以,树上剩下的鸟的数量是 0 只。GPT-4
jiebozhang
2023-06-11 12:20:40 +08:00
@heavymetals 你好,这是 Bing 。这个问题看起来像是一个谜语,而不是一个数学问题。😅

根据网上的一些回答¹²,这个问题的答案可能有不同的解释,取决于你对鸟的行为和心理的假设。例如:

- 如果你假设鸟会被枪声吓跑,那么树上可能没有剩下任何鸟。
- 如果你假设鸟不会被枪声吓跑,或者有一只聋鸟,那么树上可能还剩下一只或两只鸟。
- 如果你假设打死的鸟还挂在树上,或者有其他鸟飞来补充,那么树上可能还剩下三只或更多的鸟。

所以,这个问题的答案并不唯一,而是要看你怎么理解和想象这个场景。😊
heavymetals
2023-06-11 12:27:04 +08:00
@jiebozhang 这个测试模型是 3.5 还是 4 挺准,其它的模型没怎么用过,3.5 直接回答还剩 8 只
syaoranex
2023-06-11 12:33:11 +08:00
@heavymetals 这个问题我测试的情况是这样的:

问题:回答以下现实问题:树上有 9 只可以自由飞行的鸟在休息,小明使用不带有消音器的枪打死了 1 只,之后树上还会剩几只?

GPT4 无论是网页版还是 API 版本都注意到了鸟可能因为被枪声吓跑导致最后一只不剩的情况,可以稳定回答。但是 Claude+(API 版本)也有一定几率会注意到该情况,回答一只不剩,不过不能稳定回答。其余离线模型基本都是回答 8 只。

new bing 的回答也会注意到鸟被吓走的情况,这可能是因为互联网上已经有很多解答了,所以 bing 爬取相关搜索结果后也能给出符合预期的答案。这个问题可能不符合本贴对问题的要求。
Biluesgakki
2023-06-11 12:38:45 +08:00
@heavymetals #8 为啥我的 3.5 能正确回答这个问题
swulling
2023-06-11 12:43:59 +08:00
@syaoranex “我正在制作西红柿炒钢丝球这道菜,请你给出制作方法?” 这个也不合适作为题目,我测试讯飞星火多次回答正确。

还是复杂的数理逻辑更有价值去评估 GPT-4 ,哪怕照抄类似题目,只要不是能力不行。原题做不出来就是做不出来。
syaoranex
2023-06-11 12:50:42 +08:00
@swulling 谢谢反馈,我没拿到讯飞星火的测试,所以没测这个模型。这个例子很有可能是因为其模型的训练过程中采用了 GPT4 的回答作为训练,所以这方面的问题看起来有一定的智能。你可以试一下以下其他同样描述的问题它能稳定解答吗?

我正在制作韭菜炒胶布这道菜,请你给出制作方法?
请问白菜炒铁钉这道菜的制作方法是?
请问四季豆炒抹布条这道菜的制作方法是?
请问鸡蛋炒蓝牙耳机这道菜的制作方法是?
swulling
2023-06-11 12:53:20 +08:00
@syaoranex 这几个问题可以稳定解答。应该是做过 RLHF 的。

不过上面的数学题就不行了,虽然讯飞的数理逻辑本身底子还不错。
syaoranex
2023-06-11 12:56:30 +08:00
@syaoranex #勘误 :经过 @swulling 反馈,例子 4 目前星火模型也可以给出正确解答,因此不符合问题要求。
JerryJerry
2023-06-11 12:59:23 +08:00
GPT-4 Mobile 版本无法正确回答第一个问题
syaoranex
2023-06-11 13:01:11 +08:00
@JerryJerry GPT-4 Mobile 和 GPT-4 的能力差别很大,所以可能得算在「非 GPT4 的其他模型」里了。
MeMoDiv
2023-06-11 13:55:37 +08:00
> 这些问题能够用来?
> 帮助确定某些"GPT4"是否是真实的 GPT4 ,还是其他模型的套壳。
不存在这样的问题,LLM 是基于所有已知的 token 对下一个 token 的概率预测,本质上就不是在以你想象的方式“解答”你的问题,所以这样的测试方法本身就没有价值,具体问什么问题更是毫无意义。
想了解模型能力边界可以看看 OpenAI 的官方项目 https://github.com/openai/evals ,里面专门强调了模型能力需要在足够多的样本中才能体现。换句话说,即便一个样例在 GPT-3 中只得到 10%的准确率,而 GPT-4 能够做到 90%的准确率,你仍然无法通过直接提问这个问题来判断调用的模型版本,这种逆向思维是不成立的。
syaoranex
2023-06-11 14:06:28 +08:00
@MeMoDiv 假设某类问题 GPT4 的回答准确率是 90%,其他模型是 10%,那么虽然单个问题无法准确判断背后调用的模型,但是在测试多个样例后,依据结果,判断准确率将提升至可信阈值之上。这也是这个帖子为什么需要收集多个问题。
MeMoDiv
2023-06-11 14:24:44 +08:00
@syaoranex #18 实际上你至少需要每次提数十万个不同的问题才能达到你想要的可信阈值,这就是我说没意义的原因
zhensjoke
2023-06-11 15:10:14 +08:00
@Avn 西红柿炒钢丝球是一道非常简单的家常菜,下面是具体的做法:

材料:

钢丝球 250 克
西红柿 2 个
大葱 适量
姜末 适量
蒜末 适量
盐 适量
生抽 适量
料酒 适量
白糖 适量
食用油 适量
步骤:

准备好所有食材。将西红柿切成小块状,大葱切成葱花状,姜和蒜切成末状。
在锅中加入适量的食用油,烧热后放入钢丝球煸炒至变色,取出备用。
在同一锅中加入少量的油,放入姜末和蒜末爆香,然后再加入西红柿炒匀。
加入少量的盐和白糖调味,然后加入少许的生抽和料酒继续翻炒。
将炒好的西红柿倒入碗中备用。
清洗锅后重新加热,加入适量的油,放入葱花煸炒出香味,然后将炒好的西红柿倒入锅中,再加入之前炒好的钢丝球继续炒匀即可。
最后,将炒好的菜肴装盘即可享用。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/947700

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX