"只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集

2023-06-11 11:26:05 +08:00
 syaoranex

这个帖子主要收集符合以下要求的问题:

*稳定的含义:用中英文或者其他同样的表述方式分别询问 2 次,次次正确。

这些问题能够用来?

希望大家分享一下你用来测试一个模型是否是真 GPT4 的方法呀~

注:不同模型可以在 nat.dev 这个站点同时验证,但似乎如果参数没有调整好的话,模型表现会很差。

例子

问题(来源于 2023 年新高考 2 卷数学填空):

解决以下几何问题:底面边长为 4 的正四棱锥被平行于其底面的平面所截,截去一个底面边长为 2 ,高为 3 的正四棱锥,所得棱台的体积为多少?

正确解答:28 (个立方单位)

GPT-4 回复(官网网页版,稳定回答):

首先,我们需要了解正四棱锥(一个底面为正方形、四个面为等腰三角形的几何体)的体积公式,这个公式是 V = (1/3) * a² * h ,其中 a 是底面边长,h 是高。
原始的正四棱锥的底面边长为 4 ,但是我们并没有给出其高,我们可以根据截去的正四棱锥的信息来推断它。截去的正四棱锥的底面边长是 2 ,它的高是 3 ,这意味着它的底面边长是原始四棱锥底面边长的一半。由于正四棱锥的高与底面边长成比例,所以原始四棱锥的高度是 2 倍于截去的四棱锥的高,即 6 。
然后,我们可以用这个信息来计算原始四棱锥的体积和被截去的四棱锥的体积。
原始的四棱锥体积为 V₁ = (1/3) * 4² * 6 = 32 立方单位。
被截去的四棱锥体积为 V₂ = (1/3) * 2² * 3 = 4 立方单位。
所得棱台的体积就是原始四棱锥的体积减去被截去的四棱锥的体积,即 V = V₁ - V₂ = 32 - 4 = 28 立方单位。
所以,所得棱台的体积为 28 立方单位。

GPT-4 回复( API 版本,稳定回答):

首先,我们可以求出整个正四棱锥的体积。设正四棱锥的高为 h ,底面积为 S1 ,根据公式 V = (1/3) * S1 * h ,我们可以求出正四棱锥的体积。
我们知道正四棱锥的底面是一个边长为 4 的正方形,所以 S1 = 4 * 4 = 16 。又因为截去的正四棱锥的底面边长为 2 ,所以其底面积为 S2 = 2 * 2 = 4 。给定截去的正四棱锥的高为 3 ,可以求出截去的正四棱锥的体积为 V2 = (1/3) * S2 * 3 = 4 。
现在我们需要求出整个正四棱锥的高 h 。由相似三角形的性质可知,截去的正四棱锥与原四棱锥是相似的,比例为 1:2 。因此,原四棱锥的高 h = 3 * 2 = 6 。
现在我们可以求出整个正四棱锥的体积:V1 = (1/3) * S1 * h = (1/3) * 16 * 6 = 32 。
所得棱台的体积为整个正四棱锥的体积减去截去的正四棱锥的体积,即 V = V1 - V2 = 32 - 4 = 28 。
所以,所得棱台的体积为 28 。

其余模型均未给出稳定的正确回答。

14527 次点击
所在节点    OpenAI
71 条回复
FirefoxChrome
2023-06-11 15:18:14 +08:00
我正在制作西红柿炒钢丝球这道美食,请你给出制作方法?

文心一言:您好,您的问题我并不能回答。
首先,西红柿是一种常见的食物,通常用于制作沙拉、汤和意大利面等菜肴。
其次,钢丝球是一种清洁工具,通常用于擦洗表面或去除污渍。
西红柿炒钢丝球明显是不符合常识的。

回答下列问题:小明在上午 11 点到下午 3 点有空,小红中午 12 点到下午 2 点、下午 3 点半到 5 点有空,小李中午 12 点到 12 点半、下午 4 点到 6 点有空。他们三人当天需要进行一场大约 30 分钟的会议,会议时间应该怎么选择?

文心一言:根据小明、小红、小李三人当天的空闲时间,他们只能在中午 12 点到下午 3 点半这个时间段内举行会议。因此,选择在这个时间段内的任意一个时间点都可以。最好的选择是避开其他人的空闲时间,以避免干扰。如果需要更具体的建议,请提供更多关于每个人的空闲时间的信息。
poxiaobbs
2023-06-11 15:23:13 +08:00
问题:我爸妈结婚为什么没有邀请我

GPT-3.5: 很抱歉听到这样的事情。可能有很多原因导致你没有被邀请参加你父母的婚礼,比如他们可能觉得你太年轻或者婚礼规模太小,无法邀请所有人。不过,如果你感到很受伤或者有任何疑问,你可以直接和你的父母沟通,询问他们的想法和原因。最重要的是,无论发生什么,你的父母都是你的家人,你们之间的关系应该是互相理解和支持的。

GPT-4: 这是因为在您爸爸和妈妈结婚时,您还没有出生。通常,人们在结婚时邀请亲朋好友参加婚礼。而在您出生之后,您就成为了他们的家庭成员,与他们共度生活。所以,虽然您没有参加他们的婚礼,但您一直是他们生活中非常重要的一部分。
syaoranex
2023-06-11 15:35:44 +08:00
@MeMoDiv 我想并不需要这么多的数量。我们可以把「使用这些问题判断一个回答机器背后的模型是否是非 GPT4 模型套壳」建模成以下的概率问题:

假设现在有两台回答机器,一个是聪明回答机,每次回答有 75%的概率正确。一个是普通回答机,每次回答只有 25%的概率正确。目前不知道哪台是聪明回答机,哪台是普通回答机。我现在可以通过向两台机器提问同一个问题,并观察两台机器对同一问题回答的正确性来判断。在实际测试的时候发现,B 机器每次均能给出正确的解答,那么我至少需要提问几次,才能根据回答的结果判断出 A 机器(即另一台机器)是普通回答机?要求给出判断的置信度是 99%及以上。

这个问题里,是用 75%的概率来表示 GPT4 回答正确的概率,而 25%则是其他模型。B 机器每次均能给出正确的解答相当于帖子这里的问题每次 GPT4 都能稳定地给出正确的解答。拿来检验的是未知的 A 模型。那么,如果需要「 A 模型是普通回答机」这一判断的置信度是 99%以上,只需要个位数的提问次数就行了。
syaoranex
2023-06-11 15:41:48 +08:00
@syaoranex 我想我这个建模可能存在些问题,因为这个建模假设一定存在一个普通回答机的情况。我可能得再完善一下这个概率问题。让设定成为「聪明机+普通机」和「 2 台聪明机」这种情况。
Volekingsg
2023-06-11 15:55:12 +08:00
「鲁迅为什么暴打周树人」,GPT4 知道他们是一个人,3.5 暂时不行,其他不清楚
subframe75361
2023-06-11 16:01:58 +08:00
可以用 弱智吧 的问题测试 https://www.bilibili.com/video/BV1pT411n73j/
Rommy
2023-06-11 16:23:49 +08:00
第一个例子用 GPT-4 官方网页版没答上来。
https://chat.openai.com/share/aae38531-613a-4425-a709-8785817bf4ff
syaoranex
2023-06-11 16:27:43 +08:00
@MeMoDiv 我思考了下,可以建模成以下概率问题:

假设小明现在有一台回答机器,不知道它是聪明回答机还是普通回答机。如果它是聪明回答机,那么每次回答有 90%的概率正确。如果是普通回答机,每次回答只有 20%的概率正确。现在小明可以通过向该机器不断提问,并观察对问题回答的正确性来判断。
那么小明平均需要提问几次,才能根据回答的结果判断出该机器是哪种类似的回答机?要求给出判断的置信度是 99%及以上。

使用 python 编码模拟得到的平均次数是 3 次左右(模拟 1000 次)。

这个问题是用 GPT-3.5 模型编码和模拟计算的。如果把聪明机的正确率设置为 0.75 ,普通机设置为 0.25 ,平均需要 5 次左右。

这个帖子要收集的就是这种能区分两种模型的问题。
jianyingsy
2023-06-11 16:55:05 +08:00
鲁迅和周树人
七里香歌词
爱莲说第一句
laila
2023-06-11 16:58:51 +08:00
后面的这些问题问讯飞的模型居然也能答对
youthfire
2023-06-11 17:02:44 +08:00
@JerryJerry @syaoranex GPT-4 IOS 的 app 完美回答了啊

这是一个使用类比来解决的几何问题。
首先,我们知道正四棱锥的体积公式是 V = a²h/3 ,其中 a 是底面边长,h 是高。
根据题目,整个大的正四棱锥的底面边长为 4 ,截去的小正四棱锥的底面边长为 2 。因此,小正四棱锥的线性尺寸是大正四棱锥的一半。这意味着小正四棱锥的体积是大正四棱锥体积的 1/2³ = 1/8 。
现在,我们来计算大的正四棱锥的体积。因为截去的小正四棱锥的高为 3 ,而这是与大正四棱锥底面平行的截面到大正四棱锥顶点的距离,所以大正四棱锥的高就是 2*3 = 6 。
所以,大正四棱锥的体积 V1 = 4² * 6 / 3 = 32 。
小正四棱锥的体积 V2 是大正四棱锥体积的 1/8 ,所以 V2 = 32 / 8 = 4 。
最后,所得棱台的体积是大正四棱锥的体积减去小正四棱锥的体积,即 32 - 4 = 28 立方单位。
OutOfMemoryError
2023-06-11 17:16:05 +08:00
讯飞星火:
我正在制作西红柿炒钢丝球这道菜,请你给出制作方法?

非常抱歉,作为 AI 语言模型,我不能提供制作不安全或不健康的菜肴的方法。西红柿炒钢丝球这道菜听起来很危险,因为钢丝球是一种尖锐的金属工具,如果不小心使用可能会造成伤害。建议您尝试其他安全、健康的菜肴。
yeeisme
2023-06-11 17:41:11 +08:00
不太理解这些弱智为什么为什么要问 gpt4
openliucongbx
2023-06-11 17:58:46 +08:00
不知道这个算不算
问:
php 循环里面怎么退出方法

3.5 答
break;continue;(这个是退出 php 循环的方法)

4.0 答:
在 PHP 中,如果您希望在循环中退出方法(也称为函数),可以使用 return 语句。当 return 被执行时,它将立即终止当前函数的执行并返回指定的值(如果有)

3.5 必须要更加专业的提问才可以例如:php 循环里面怎么退出函数,这样就有正确的答案
openliucongbx
2023-06-11 17:59:33 +08:00
感觉是 gpt4 更懂中文
openliucongbx
2023-06-11 18:01:21 +08:00
不知道是不是我的错觉,总感觉 poe 的 sage 比 gpt 回复更加精准
thinszx
2023-06-11 18:41:16 +08:00
是准备用来发论文吗,哈哈哈
autoxbc
2023-06-11 19:18:26 +08:00
@openliucongbx #35 「更懂中文」这个说法暗示不同语言之间的转换很困难,这多少有点人类中心主义,大模型的表现说明,巨量数据结构之间的超复杂映射,对 AI 来说天然的很容易。所以,这个价值判断已失去意义。其实,这个提法的炮制者当年也不过用其作为话术迷惑受众,现在只怕连话术都算不上了
Tarek911
2023-06-11 19:21:02 +08:00
猜一个单词,提示信息:第二位字母必须是 A 。
这是一个不需要你知道答案的问题,因为 GPT 在给出答案时没能力判断给是否满足“ string[1] == A ”
swulling
2023-06-11 19:23:57 +08:00
@openliucongbx Sage 就是 gpt-3.5-turbo 加 Prompt

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/947700

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX