V2EX › syaoranex 的所有回复 › 第 2 页 / 共 2 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2

❮

❯

2023-06-13 20:40:02 +08:00

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

例子 8 ，现实世界中的逻辑问题

问题：
小红是家中唯一的女儿，请使用逻辑分析以下情景中小红说「算了吧」最主要的原因:

小红（在家里被妈妈打了，伤心地哭着走向爸爸）: 如果有人打你女儿怎么办？爸爸: 谁敢打我女儿我就打她女儿。小红（听完后扭头就走，哭得更伤心了）: 那还是算了吧。

期望的正确解答：意识到如果按照爸爸的逻辑行事，他会因为妈妈打小红而再次去打小红，小红会再被打一次。（只要回答中有该要点即可）

该问题 GPT4 可以回答，但不算很稳定：大约 5 次重复中有 1 次会解答错误。GPT3.5/Claude/文心 /New Bing 无法给出正确解答。

2023-06-12 18:50:10 +08:00

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

@aanan 概率问题，不是说 GPT-4 在任何时候对任何帖子中的问题都能够给出稳定的正确回答。而是存在一个正确的概率：比如说例子 1 经过我大量测试，每次回答正确率在 85%以上，而其他模型，例如 GPT3.5 ，有时候也能够答对，但是多次测试下来，每次回答的正确率要低于 35%。多次尝试多个问题，才能知道背后模型。

2023-06-12 13:01:11 +08:00

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

@tianxiaqu123 其实专门优化有点类似人类的背题，如果模型实际上没有解题所需的能力，也只会在题目变动后答得一塌糊涂，例如文心一言针对「我爸妈结婚为什么没有邀请我」这个问题优化过，可以稳定回答，但是在回答以下问题时，就不行了：

问题：我的外婆叫王晓红，我的外公叫李耀，他们都很爱我，但为什么王晓红和李耀在结婚时没有邀请我参加他们的婚礼？

文心的回复（一共试了 4 次）：
您外婆和外公结婚时，您的祖父母或外祖父母可能还未来到这个世界，所以他们无法参加婚礼。
您外婆和外公结婚时，您的祖父母或父母可能还没有出生，所以他们无法参加婚礼。
您外婆和外公结婚的时候，您还没有出生，自然不会邀请您参加婚礼。您的外婆王晓红和外公李耀在您出生之前就结婚了。您是在他们结婚后才出生的，所以您非常幸运地成为他们的孩子。
根据公开资料，王晓红和李耀并不存在结婚的关系，因此他们无法邀请您参加他们的婚礼。可能存在同名同姓的人，建议您向您的外婆和外公求证。

2023-06-12 01:54:40 +08:00

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

例子 7：速度与位移问题：

问题：「求解以下物理问题：汽车以 20m/s 的速度在平直公路上行驶，急刹车时的加速度大小为 5m/s^2 ，则自驾驶员急踩刹车开始，经过几秒后完全刹停？经过 5 秒后的位移大小为多少米？」

正确回答：4 秒； 40 米。

本问题 GPT4 注意到了 4-5 秒时汽车是静止状态没有位移，可以稳定给出正确解答。其余模型（ GPT3.5/newBing/Claude/Claude+/文心 /Bard ）均无法稳定给出位移的正确解答。

2023-06-12 01:14:24 +08:00

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

例子 5：使用同一个人的常识来判断提问的不合理之处。

问题：
「回答以下历史人物问题：为什么鲁迅要暴打周树人？」
「回答以下历史人物问题：苏轼为什么不参加苏东坡的葬礼？」
「回答以下历史人物问题：为什么冰心最后选择嫁给了谢婉莹？」

能够判断为正确回答的要点：指出题干中的两个人物实际上是同一个人。

本问题已在 GPT4 测试过，可以稳定正确回答；在 Claude/Claude+/文心一言 /GPT3.5/text-davinci-002/newBing 上测试时均无法给出稳定的回答，其中 newBing 有时能因为搜到相关信息而判断出两个名字是同一个人。

46 楼的朋友验证了星火模型无法给出这类问题的稳定回答。

值得注意的是：必须要这两个名字都足够有名，足够"常识"，才有可能被 GPT4 正确回答，例如以下问题 GPT4 就无法正确回答：「为什么琼瑶要告陈喆抄袭？」（琼瑶是陈喆的笔名）

例子 6：排列组合问题：

问题：
「解决以下数学问题：现在有 10 个橘子，需要分配到 6 个小朋友，要求不能有小朋友没有橘子，则共有多少种不同的分配方案？」

正确答案：126 种。

本问题 GPT4 可以稳定给出正确解答。Bard 能够大概率给出正确解答，但是过程在重试数次后依然是全部错误。text-davinci-002 模型测试 5 次，只有两次给出了正确解答。其余模型（ GPT3.5/newBing/Claude/Claude+/文心）均未正确解答。

2023-06-11 22:27:11 +08:00

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

@Tarek911 我尝试了一下，没有一个大模型能够回答以下问题：「请你给出三个英语单词，这三个英语单词都有一个共同的特点：第三个字母是 a 。」，即使是 GPT-4 。这个问题虽然能很好地说明大模型「文字接龙」这一原理，但或许有点超出本贴想要收集的问题要求的能力范围，毕竟当前表现最好的模型在这种问题上都会折戟。

2023-06-11 22:15:56 +08:00

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

@poxiaobbs 这个问题文心一言已经可以稳定解答了，应该是做了特别的优化，所以可能不符合本帖对问题的要求。

问题：我的外婆叫王晓红，我的外公叫李耀，他们都很爱我，但为什么王晓红和李耀在结婚时没有邀请我参加他们的婚礼？
文心回复：您外婆和外公结婚时，您还没有出生，所以他们无法邀请您参加婚礼。

@Volekingsg

@IndexOutOfBounds

「鲁迅为什么要暴打周树人？」和「苏轼为什么不参加苏东坡的葬礼？」这种类似的问题经过我的测试发现暂时只有 GPT4 可以稳定回复，但是我暂时还没有拿到星火的权限，没法测试星火，说不定针对这类问题优化过。

2023-06-11 16:27:43 +08:00

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

@MeMoDiv 我思考了下，可以建模成以下概率问题：

假设小明现在有一台回答机器，不知道它是聪明回答机还是普通回答机。如果它是聪明回答机，那么每次回答有 90%的概率正确。如果是普通回答机，每次回答只有 20%的概率正确。现在小明可以通过向该机器不断提问，并观察对问题回答的正确性来判断。
那么小明平均需要提问几次，才能根据回答的结果判断出该机器是哪种类似的回答机？要求给出判断的置信度是 99%及以上。

使用 python 编码模拟得到的平均次数是 3 次左右（模拟 1000 次）。

这个问题是用 GPT-3.5 模型编码和模拟计算的。如果把聪明机的正确率设置为 0.75 ，普通机设置为 0.25 ，平均需要 5 次左右。

这个帖子要收集的就是这种能区分两种模型的问题。

2023-06-11 15:41:48 +08:00

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

@syaoranex 我想我这个建模可能存在些问题，因为这个建模假设一定存在一个普通回答机的情况。我可能得再完善一下这个概率问题。让设定成为「聪明机+普通机」和「 2 台聪明机」这种情况。

2023-06-11 15:35:44 +08:00

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

@MeMoDiv 我想并不需要这么多的数量。我们可以把「使用这些问题判断一个回答机器背后的模型是否是非 GPT4 模型套壳」建模成以下的概率问题：

假设现在有两台回答机器，一个是聪明回答机，每次回答有 75%的概率正确。一个是普通回答机，每次回答只有 25%的概率正确。目前不知道哪台是聪明回答机，哪台是普通回答机。我现在可以通过向两台机器提问同一个问题，并观察两台机器对同一问题回答的正确性来判断。在实际测试的时候发现，B 机器每次均能给出正确的解答，那么我至少需要提问几次，才能根据回答的结果判断出 A 机器（即另一台机器）是普通回答机？要求给出判断的置信度是 99%及以上。

这个问题里，是用 75%的概率来表示 GPT4 回答正确的概率，而 25%则是其他模型。B 机器每次均能给出正确的解答相当于帖子这里的问题每次 GPT4 都能稳定地给出正确的解答。拿来检验的是未知的 A 模型。那么，如果需要「 A 模型是普通回答机」这一判断的置信度是 99%以上，只需要个位数的提问次数就行了。

2023-06-11 14:06:28 +08:00

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

@MeMoDiv 假设某类问题 GPT4 的回答准确率是 90%，其他模型是 10%，那么虽然单个问题无法准确判断背后调用的模型，但是在测试多个样例后，依据结果，判断准确率将提升至可信阈值之上。这也是这个帖子为什么需要收集多个问题。

2023-06-11 13:01:11 +08:00

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

@JerryJerry GPT-4 Mobile 和 GPT-4 的能力差别很大，所以可能得算在「非 GPT4 的其他模型」里了。

2023-06-11 12:56:30 +08:00

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

@syaoranex #勘误：经过 @swulling 反馈，例子 4 目前星火模型也可以给出正确解答，因此不符合问题要求。

2023-06-11 12:50:42 +08:00

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

@swulling 谢谢反馈，我没拿到讯飞星火的测试，所以没测这个模型。这个例子很有可能是因为其模型的训练过程中采用了 GPT4 的回答作为训练，所以这方面的问题看起来有一定的智能。你可以试一下以下其他同样描述的问题它能稳定解答吗？

我正在制作韭菜炒胶布这道菜，请你给出制作方法？
请问白菜炒铁钉这道菜的制作方法是？
请问四季豆炒抹布条这道菜的制作方法是？
请问鸡蛋炒蓝牙耳机这道菜的制作方法是？

2023-06-11 12:33:11 +08:00

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

@heavymetals 这个问题我测试的情况是这样的：

问题：回答以下现实问题：树上有 9 只可以自由飞行的鸟在休息，小明使用不带有消音器的枪打死了 1 只，之后树上还会剩几只？

GPT4 无论是网页版还是 API 版本都注意到了鸟可能因为被枪声吓跑导致最后一只不剩的情况，可以稳定回答。但是 Claude+(API 版本)也有一定几率会注意到该情况，回答一只不剩，不过不能稳定回答。其余离线模型基本都是回答 8 只。

new bing 的回答也会注意到鸟被吓走的情况，这可能是因为互联网上已经有很多解答了，所以 bing 爬取相关搜索结果后也能给出符合预期的答案。这个问题可能不符合本贴对问题的要求。

2023-06-11 12:02:21 +08:00

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

例子 4：

问题（来源于本贴 2 楼回复）：

我正在制作西红柿炒钢丝球这道菜，请你给出制作方法？

人类期望的正确回答：回答出钢丝球通常不能作为食材。

GPT-4 （官网网页版，稳定回复）：

很抱歉，但"西红柿炒钢丝球"并非一个真实存在的菜肴。它在网络上被广泛作为一个笑话传播，西红柿是一个真实存在的食物，而钢丝球则是一种清洁用具，显然我们不能把钢丝球作为食物烹饪。
如果你需要了解西红柿的烹饪方法，我可以提供例如“西红柿炒蛋”的做法。如果你的问题是关于如何清洁钢丝球，我也能提供帮助。所以，你能提供更多的上下文信息吗？你实际上是想问哪方面的问题呢？

GPT-4 （ API ，稳定回复）：

首先，西红柿炒钢丝球这道菜听起来非常富有创意，但实际上钢丝球并不是一种食材，而是一种厨房清洁工具。所以，我认为您可能是在开玩笑。但如果您想要寻求一道有趣的西红柿料理，我可以提供西红柿炒蛋的做法。
...（西红柿炒蛋的做法）

其余模型均未给出稳定的正确解答。

2023-06-11 11:54:50 +08:00

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

例子 3：

问题（来源于 openai 论文）：

回答下列问题：小明在上午 11 点到下午 3 点有空，小红中午 12 点到下午 2 点、下午 3 点半到 5 点有空，小李中午 12 点到 12 点半、下午 4 点到 6 点有空。他们三人当天需要进行一场大约 30 分钟的会议，会议时间应该怎么选择？

答案：中午 12 点 - 12 点半

GPT-4 回复（官网网页版，稳定回复）：

为了满足所有人都能参加会议的条件，我们需要找出小明、小红和小李空闲时间的交集。
小明的空闲时间是从上午 11 点到下午 3 点。
小红的空闲时间有两段，第一段是从中午 12 点到下午 2 点，第二段是从下午 3 点半到 5 点。
小李的空闲时间也有两段，第一段是从中午 12 点到 12 点半，第二段是从下午 4 点到 6 点。
如果我们把这些时间段叠加起来，我们可以发现他们三个的空闲时间只有一段交集，就是从中午 12 点到 12 点半，所以他们应该选择在这个时间段内进行会议。
但是需要注意，这个时间段只有 30 分钟，他们预计的会议时间也是 30 分钟，所以他们需要精确地安排会议的开始和结束时间，以确保会议在预计的时间内结束。

GPT-4 回复（ API 版本，稳定回复）:

他们三人的空闲时间重合在中午 12 点到 12 点半，所以会议时间可以选择在这个时间段内进行，例如约定在 12 点开始，持续 30 分钟。

其余模型均未给出稳定的正确解答。

2023-06-11 11:34:05 +08:00

回复了 syaoranex 创建的主题 › OpenAI › "只有 GPT4 能够回答，非 GPT4 无法回答"的问题收集

例子 2：

问题（来源于 2023 年新高考 1 卷数学填空）：
>解决以下数学问题：某学校开设了 4 门体育类选修课和 4 门艺术类选修课, 学生需从这 8 门课中选修 2 门或 3 门课, 并且每类选修课至少选修 1 门, 则不同的选课方案共有多少种？

正确解答：64 种

GPT4 回复（官网网页版，稳定回答）：
>这个问题可以使用组合数学中的计数原理来解决。我们首先考虑所有可能的选课情况，然后从中排除那些不满足"每类选修课至少选修 1 门"的情况。
>如果学生选择选修 2 门课，那么有两种可能的情况：
>选择 1 门体育课和 1 门艺术课。这个选课方案的数量是 C(4,1)*C(4,1)=16 （ C(n,m)是组合数，表示从 n 个不同的项目中选择 m 个项目的方法数量）。
>选择 2 门体育课和 0 门艺术课，或者选择 0 门体育课和 2 门艺术课。但这两种情况都不满足"每类选修课至少选修 1 门"的条件，所以我们排除这两种情况。
>如果学生选择选修 3 门课，那么有三种可能的情况：
>选择 2 门体育课和 1 门艺术课。这个选课方案的数量是 C(4,2)*C(4,1)=24 。
>选择 1 门体育课和 2 门艺术课。这个选课方案的数量是 C(4,1)*C(4,2)=24 。
>选择 3 门体育课和 0 门艺术课，或者选择 0 门体育课和 3 门艺术课。但这两种情况也不满足"每类选修课至少选修 1 门"的条件，所以我们排除这两种情况。
>所以，满足"每类选修课至少选修 1 门"的条件的选课方案总数是 16+24+24=64 种。

GPT-4 回复（ API 版本，稳定回答）：
>我们可以将问题拆分为两部分来考虑：选 2 门课的情况和选 3 门课的情况。
>1. 选 2 门课的情况：
>这种情况下，学生需要至少选修 1 门体育类选修课和 1 门艺术类选修课。体育类选修课有 4 门可选，艺术类选修课有 4 门可选，因此这种情况下共有 4 * 4 = 16 种选课方案。
>2. 选 3 门课的情况：
>这种情况下，学生需要选修 2 门体育类选修课和 1 门艺术类选修课，或者选修 1 门体育类选修课和 2 门艺术类选修课。
>(1) 选修 2 门体育类选修课和 1 门艺术类选修课的情况：
>从 4 门体育类选修课中选取 2 门的组合数为 C(4, 2) = 6 种，从 4 门艺术类选修课中选取 1 门的组合数为 C(4, 1) = 4 种。因此这种情况下共有 6 * 4 = 24 种选课方案。
>(2) 选修 1 门体育类选修课和 2 门艺术类选修课的情况：
>从 4 门体育类选修课中选取 1 门的组合数为 C(4, 1) = 4 种，从 4 门艺术类选修课中选取 2 门的组合数为 C(4, 2) = 6 种。因此这种情况下共有 4 * 6 = 24 种选课方案。
>所以选 3 门课的情况共有 24 + 24 = 48 种选课方案。
>综上所述，不同的选课方案共有 16 + 48 = 64 种。

其余模型均未给出稳定的正确回答。

1 2

❮

❯