几十个数字最简单的排序问题,几个 LLM 没有一个正确

2023-10-27 20:48:48 +08:00
 lingex
Q:
请帮我把这些数字从小到大排下序
677 676 683 646 654 662 647 660 669 652 667 657 651 665 659 666 661 668 650 658 625 619 624 626 620 632 616 641 639 640 618 621 644 623 628 642 622 643 634 612 611 605 602 615 613 603 614 617 607 610 601 608 606

A:
GPT4 (Azure) round 1:
601 602 603 605 606 607 608 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 628 632 634 639 640 641 642 643 644 646 647 650 652 654 657 658 660 661 662 665 666 667 668 669 676 677 683

GPT4 (Azure) round 2:
602 605 601 603 606 608 610 612 611 614 615 613 617 616 607 619 621 618 620 623 626 624 625 622 628 632 634 641 643 642 640 639 644 646 652 650 654 660 661 662 657 659 665 666 667 669 668 676 677 683 647

HuggingChat:
601 602 603 605 606 607 608 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 627 628 632 634 639 640 641 642 643 644 646 647 650 651 652 654 657 658 659 660 661 662 665 666 667 668 669 676 677 683

Bard:
601 602 603 605 606 607 608 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 628 632 634 639 640 641 642 643 644 646 647 650 651 652 654 657 658 659 660 661 662 665 666 667 668 669 676 677


如果是几个十几个数字基本上都没问题,像这样数量到了几十个就不靠谱了。其中 GPT4 round 2 是提醒它错误追问的,结果答案变得更离谱了

之前还试过 GPT3.5, 结果也是不对。每种模型基本都测试了多遍。

PS:不是无聊问的,偶尔工作需要处理类似的数据。
1609 次点击
所在节点    OpenAI
17 条回复
ospider
2023-10-27 20:52:51 +08:00
第一个不对么?还是我眼花了……
kierankihn
2023-10-27 20:54:11 +08:00
试了试 bard ,提示词相同,输出为

[601, 602, 603, 605, 606, 607, 608, 610, 611, 612, 613, 614, 615, 616, 617, 618, 619, 620, 621, 622, 623, 624, 625, 626, 628, 632, 634, 639, 640, 641, 642, 643, 644, 646, 647, 650, 651, 652, 654, 657, 658, 659, 660, 661, 662, 665, 666, 667, 668, 669, 676, 677, 683]
BeijingBaby
2023-10-27 20:55:29 +08:00
以下是将提供的数字从小到大排序后的结果:

601 602 603 605 606 607 608 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 628 632 634 639 640 641 642 643 644 646 647 650 651 652 654 657 658 659 660 661 662 665 666 667 668 669 676 677 683
lingex
2023-10-27 21:06:04 +08:00
@ospider 长度都差了两个数字
lingex
2023-10-27 21:09:55 +08:00
@kierankihn
@BeijingBaby

大概你们运气比较好吧。
Immortan
2023-10-27 21:11:11 +08:00
语言模型,处理不了逻辑问题很正常
yuzo555
2023-10-27 21:14:47 +08:00
3.5

好的,以下是将这些数字从小到大排列的结果:

601 602 603 605 606 607 608 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 628 632 634 639 640 641 642 643 644 646 647 650 651 652 654 657 658 659 660 661 662 665 666 667 668 669 676 677 683

希望对您有帮助!
randychoi
2023-10-27 21:46:29 +08:00
GPT4-Advanced Data Analysis
这些数字从小到大的顺序为:

601, 602, 603, 605, 606, 607, 608, 610, 611, 612, 613, 614, 615, 616, 617, 618, 619, 620, 621, 622, 623, 624, 625, 626, 628, 632, 634, 639, 640, 641, 642, 643, 644, 646, 647, 650, 651, 652, 654, 657, 658, 659, 660, 661, 662, 665, 666, 667, 668, 669, 676, 677, 683 。
oIMOo
2023-10-27 21:54:32 +08:00
你在要求处理排序前,加个问题,确认他们收到的消息是否完整
(等个更新)
lingex
2023-10-27 22:14:18 +08:00
@oIMOo 在那之前之后还问过 Python Dockerfile 等,前后文完整性都没问题

你看 HuggingChat 还加塞了一个 627

还有 GPT round 2 ,简直离谱,不是接收不完整能解释的。
CruelMoon
2023-10-27 22:22:37 +08:00
让他写个程序排序会比较好吧
mmdsun
2023-10-27 22:23:23 +08:00
我这边可以,我用的 API 我把 temperature 设置小点就可以了,太大容易乱联想。
再说 AI 也不是万能的了,现在支持函数调用,你定义一个函数让 AI 调用呗。
yitdlxl
2023-10-27 23:13:26 +08:00
官网 3.5 都可以
以下是您提供的数字从小到大排列的排序:

601 602 603 605 606 607 608 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 628 632 634 639 640 641 642 643 644 646 647 650 651 652 654 657 658 659 660 661 662 665 666 667 668 669 676 677 683
SchneeHertz
2023-10-28 03:25:10 +08:00
现在类似的数学问题都可以用 function calling 解决了
https://imgur.com/a/vmnOckt
SchneeHertz
2023-10-28 03:25:42 +08:00
summerwar
2023-10-28 08:42:54 +08:00
我感觉你可能没有理解 LLM ,你让 LLM 帮你写个排序算法是可以的,但是让他帮忙排序不是他擅长的。他本质是个推断,根据资料库来推断内容,不是处理逻辑问题的。

所以推断的内容通常需要人工再去判断下,虽然 99%的概率是对的。更何况是让他处理逻辑问题,因为他本来是没有逻辑的
lbstart
2023-10-30 13:02:09 +08:00
我的 GPT3.5 和 GPT4 输出都是正确的,还特意用 EXCEL 对比了下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/986131

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX