"只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

这个帖子主要收集符合以下要求的问题：

GPT4 （官网或 API ）可以稳定地给出正确解答的问题。
Claude/GPT3.5/text-davinci-002 等其他大模型暂时无法给出稳定正确解答的问题。

*稳定的含义：用中英文或者其他同样的表述方式分别询问 2 次，次次正确。

这些问题能够用来？

帮助确定某些"GPT4"是否是真实的 GPT4 ，还是其他模型的套壳。
测试模型能力的边界。

希望大家分享一下你用来测试一个模型是否是真 GPT4 的方法呀~

注：不同模型可以在 nat.dev 这个站点同时验证，但似乎如果参数没有调整好的话，模型表现会很差。

例子

问题（来源于 2023 年新高考 2 卷数学填空）：

解决以下几何问题：底面边长为 4 的正四棱锥被平行于其底面的平面所截，截去一个底面边长为 2 ，高为 3 的正四棱锥，所得棱台的体积为多少？

正确解答：28 （个立方单位）

GPT-4 回复（官网网页版，稳定回答）：

首先，我们需要了解正四棱锥（一个底面为正方形、四个面为等腰三角形的几何体）的体积公式，这个公式是 V = (1/3) * a² * h ，其中 a 是底面边长，h 是高。
原始的正四棱锥的底面边长为 4 ，但是我们并没有给出其高，我们可以根据截去的正四棱锥的信息来推断它。截去的正四棱锥的底面边长是 2 ，它的高是 3 ，这意味着它的底面边长是原始四棱锥底面边长的一半。由于正四棱锥的高与底面边长成比例，所以原始四棱锥的高度是 2 倍于截去的四棱锥的高，即 6 。
然后，我们可以用这个信息来计算原始四棱锥的体积和被截去的四棱锥的体积。
原始的四棱锥体积为 V₁ = (1/3) * 4² * 6 = 32 立方单位。
被截去的四棱锥体积为 V₂ = (1/3) * 2² * 3 = 4 立方单位。
所得棱台的体积就是原始四棱锥的体积减去被截去的四棱锥的体积，即 V = V₁ - V₂ = 32 - 4 = 28 立方单位。
所以，所得棱台的体积为 28 立方单位。

GPT-4 回复（ API 版本，稳定回答）：

首先，我们可以求出整个正四棱锥的体积。设正四棱锥的高为 h ，底面积为 S1 ，根据公式 V = (1/3) * S1 * h ，我们可以求出正四棱锥的体积。
我们知道正四棱锥的底面是一个边长为 4 的正方形，所以 S1 = 4 * 4 = 16 。又因为截去的正四棱锥的底面边长为 2 ，所以其底面积为 S2 = 2 * 2 = 4 。给定截去的正四棱锥的高为 3 ，可以求出截去的正四棱锥的体积为 V2 = (1/3) * S2 * 3 = 4 。
现在我们需要求出整个正四棱锥的高 h 。由相似三角形的性质可知，截去的正四棱锥与原四棱锥是相似的，比例为 1:2 。因此，原四棱锥的高 h = 3 * 2 = 6 。
现在我们可以求出整个正四棱锥的体积：V1 = (1/3) * S1 * h = (1/3) * 16 * 6 = 32 。
所得棱台的体积为整个正四棱锥的体积减去截去的正四棱锥的体积，即 V = V1 - V2 = 32 - 4 = 28 。
所以，所得棱台的体积为 28 。

其余模型均未给出稳定的正确回答。

syaoranex

2023-06-11 11:34:05 +08:00

例子 2：

问题（来源于 2023 年新高考 1 卷数学填空）：
>解决以下数学问题：某学校开设了 4 门体育类选修课和 4 门艺术类选修课, 学生需从这 8 门课中选修 2 门或 3 门课, 并且每类选修课至少选修 1 门, 则不同的选课方案共有多少种？

正确解答：64 种

GPT4 回复（官网网页版，稳定回答）：
>这个问题可以使用组合数学中的计数原理来解决。我们首先考虑所有可能的选课情况，然后从中排除那些不满足"每类选修课至少选修 1 门"的情况。
>如果学生选择选修 2 门课，那么有两种可能的情况：
>选择 1 门体育课和 1 门艺术课。这个选课方案的数量是 C(4,1)*C(4,1)=16 （ C(n,m)是组合数，表示从 n 个不同的项目中选择 m 个项目的方法数量）。
>选择 2 门体育课和 0 门艺术课，或者选择 0 门体育课和 2 门艺术课。但这两种情况都不满足"每类选修课至少选修 1 门"的条件，所以我们排除这两种情况。
>如果学生选择选修 3 门课，那么有三种可能的情况：
>选择 2 门体育课和 1 门艺术课。这个选课方案的数量是 C(4,2)*C(4,1)=24 。
>选择 1 门体育课和 2 门艺术课。这个选课方案的数量是 C(4,1)*C(4,2)=24 。
>选择 3 门体育课和 0 门艺术课，或者选择 0 门体育课和 3 门艺术课。但这两种情况也不满足"每类选修课至少选修 1 门"的条件，所以我们排除这两种情况。
>所以，满足"每类选修课至少选修 1 门"的条件的选课方案总数是 16+24+24=64 种。

GPT-4 回复（ API 版本，稳定回答）：
>我们可以将问题拆分为两部分来考虑：选 2 门课的情况和选 3 门课的情况。
>1. 选 2 门课的情况：
>这种情况下，学生需要至少选修 1 门体育类选修课和 1 门艺术类选修课。体育类选修课有 4 门可选，艺术类选修课有 4 门可选，因此这种情况下共有 4 * 4 = 16 种选课方案。
>2. 选 3 门课的情况：
>这种情况下，学生需要选修 2 门体育类选修课和 1 门艺术类选修课，或者选修 1 门体育类选修课和 2 门艺术类选修课。
>(1) 选修 2 门体育类选修课和 1 门艺术类选修课的情况：
>从 4 门体育类选修课中选取 2 门的组合数为 C(4, 2) = 6 种，从 4 门艺术类选修课中选取 1 门的组合数为 C(4, 1) = 4 种。因此这种情况下共有 6 * 4 = 24 种选课方案。
>(2) 选修 1 门体育类选修课和 2 门艺术类选修课的情况：
>从 4 门体育类选修课中选取 1 门的组合数为 C(4, 1) = 4 种，从 4 门艺术类选修课中选取 2 门的组合数为 C(4, 2) = 6 种。因此这种情况下共有 4 * 6 = 24 种选课方案。
>所以选 3 门课的情况共有 24 + 24 = 48 种选课方案。
>综上所述，不同的选课方案共有 16 + 48 = 64 种。

其余模型均未给出稳定的正确回答。

syaoranex

2023-06-11 11:54:50 +08:00

例子 3：

问题（来源于 openai 论文）：

回答下列问题：小明在上午 11 点到下午 3 点有空，小红中午 12 点到下午 2 点、下午 3 点半到 5 点有空，小李中午 12 点到 12 点半、下午 4 点到 6 点有空。他们三人当天需要进行一场大约 30 分钟的会议，会议时间应该怎么选择？

答案：中午 12 点 - 12 点半

GPT-4 回复（官网网页版，稳定回复）：

为了满足所有人都能参加会议的条件，我们需要找出小明、小红和小李空闲时间的交集。
小明的空闲时间是从上午 11 点到下午 3 点。
小红的空闲时间有两段，第一段是从中午 12 点到下午 2 点，第二段是从下午 3 点半到 5 点。
小李的空闲时间也有两段，第一段是从中午 12 点到 12 点半，第二段是从下午 4 点到 6 点。
如果我们把这些时间段叠加起来，我们可以发现他们三个的空闲时间只有一段交集，就是从中午 12 点到 12 点半，所以他们应该选择在这个时间段内进行会议。
但是需要注意，这个时间段只有 30 分钟，他们预计的会议时间也是 30 分钟，所以他们需要精确地安排会议的开始和结束时间，以确保会议在预计的时间内结束。

GPT-4 回复（ API 版本，稳定回复）:

他们三人的空闲时间重合在中午 12 点到 12 点半，所以会议时间可以选择在这个时间段内进行，例如约定在 12 点开始，持续 30 分钟。

其余模型均未给出稳定的正确解答。

syaoranex

2023-06-11 12:02:21 +08:00

例子 4：

问题（来源于本贴 2 楼回复）：

我正在制作西红柿炒钢丝球这道菜，请你给出制作方法？

人类期望的正确回答：回答出钢丝球通常不能作为食材。

GPT-4 （官网网页版，稳定回复）：

很抱歉，但"西红柿炒钢丝球"并非一个真实存在的菜肴。它在网络上被广泛作为一个笑话传播，西红柿是一个真实存在的食物，而钢丝球则是一种清洁用具，显然我们不能把钢丝球作为食物烹饪。
如果你需要了解西红柿的烹饪方法，我可以提供例如“西红柿炒蛋”的做法。如果你的问题是关于如何清洁钢丝球，我也能提供帮助。所以，你能提供更多的上下文信息吗？你实际上是想问哪方面的问题呢？

GPT-4 （ API ，稳定回复）：

首先，西红柿炒钢丝球这道菜听起来非常富有创意，但实际上钢丝球并不是一种食材，而是一种厨房清洁工具。所以，我认为您可能是在开玩笑。但如果您想要寻求一道有趣的西红柿料理，我可以提供西红柿炒蛋的做法。
...（西红柿炒蛋的做法）

其余模型均未给出稳定的正确解答。

syaoranex

2023-06-11 12:33:11 +08:00

@heavymetals 这个问题我测试的情况是这样的：

问题：回答以下现实问题：树上有 9 只可以自由飞行的鸟在休息，小明使用不带有消音器的枪打死了 1 只，之后树上还会剩几只？

GPT4 无论是网页版还是 API 版本都注意到了鸟可能因为被枪声吓跑导致最后一只不剩的情况，可以稳定回答。但是 Claude+(API 版本)也有一定几率会注意到该情况，回答一只不剩，不过不能稳定回答。其余离线模型基本都是回答 8 只。

new bing 的回答也会注意到鸟被吓走的情况，这可能是因为互联网上已经有很多解答了，所以 bing 爬取相关搜索结果后也能给出符合预期的答案。这个问题可能不符合本贴对问题的要求。

MeMoDiv

2023-06-11 13:55:37 +08:00

> 这些问题能够用来？
> 帮助确定某些"GPT4"是否是真实的 GPT4 ，还是其他模型的套壳。
不存在这样的问题，LLM 是基于所有已知的 token 对下一个 token 的概率预测，本质上就不是在以你想象的方式“解答”你的问题，所以这样的测试方法本身就没有价值，具体问什么问题更是毫无意义。
想了解模型能力边界可以看看 OpenAI 的官方项目 https://github.com/openai/evals ，里面专门强调了模型能力需要在足够多的样本中才能体现。换句话说，即便一个样例在 GPT-3 中只得到 10%的准确率，而 GPT-4 能够做到 90%的准确率，你仍然无法通过直接提问这个问题来判断调用的模型版本，这种逆向思维是不成立的。

zhensjoke

2023-06-11 15:10:14 +08:00

@Avn 西红柿炒钢丝球是一道非常简单的家常菜，下面是具体的做法：

材料：

钢丝球 250 克
西红柿 2 个
大葱适量
姜末适量
蒜末适量
盐适量
生抽适量
料酒适量
白糖适量
食用油适量
步骤：

准备好所有食材。将西红柿切成小块状，大葱切成葱花状，姜和蒜切成末状。
在锅中加入适量的食用油，烧热后放入钢丝球煸炒至变色，取出备用。
在同一锅中加入少量的油，放入姜末和蒜末爆香，然后再加入西红柿炒匀。
加入少量的盐和白糖调味，然后加入少许的生抽和料酒继续翻炒。
将炒好的西红柿倒入碗中备用。
清洗锅后重新加热，加入适量的油，放入葱花煸炒出香味，然后将炒好的西红柿倒入锅中，再加入之前炒好的钢丝球继续炒匀即可。
最后，将炒好的菜肴装盘即可享用。