现在公认 ChatGPT 已通过了图灵测试,但没有见过的数学题,现在的 AI (GPT) 还是不会解。这是 AI 还不会思考,还是 AI 已经达到了大多数人类的思维水平,即能通过图灵测试,但不会解初中或高中数学题? (像姜萍一样)

32 天前
 shyangs

如下的高中數學題,AI 會用向量法解. 這道題我第一次在別的論壇發帖時 AI 還不會,但現在 ChatGPT 學會了,我懷疑是我發帖後,友壇壇友反覆地問,導致 OpenAI 背後的智能工人注意到了這一題,讓 ChatGPT 背會了.

https://chatgpt.com/share/d4fe9bc6-f62f-408f-b188-4a2fa333e57b

降低難度到初中數學題(如下),ChatGPT 不會了,讓人懷疑 AI 還不會思考,但這樣考慮的話,能通過圖靈測試但不會初中高中數學題的人類(如姜萍)都不會思考?

https://chatgpt.com/share/67451648-ae74-8003-b6ef-332c10d43a12

7671 次点击
所在节点    程序员
95 条回复
vishun
32 天前
我看到过一篇非常好的文章,可以参考:[当我谈 RAG 时我谈些什么]( https://fatescript.github.io/blog/2024/LLM-RAG/),里面提到一个工具可以可视化展示下一个字的概率。
kw8023cn
32 天前
@a570295535 有没有可能,人脑的运作机制也是类似,只是运算能力更强,所谓的真正拥有,也不过只是数据存储,脑震荡也会导致丢失数据而失忆,或许目前 AI 的处理逻辑和人类不同,但是也是模拟了人类的神经网络算法,我们人类的大脑何尝不是在做索引,现在 AI 的运作已经黑盒了,只要算力足够,能产生出什么样的智能尚未可知,但肯定不是简单的接龙游戏。
kw8023cn
32 天前
@glacer 有没有可能,人脑的运作机制也是类似,只是运算能力更强,所谓的真正理解,也不过只是数据存储,脑震荡也会导致丢失数据而失忆,或许目前 AI 的处理逻辑和人类不同,但是也是模拟了人类的神经网络算法,我们人类的大脑何尝不是在做索引,现在 AI 的运作已经黑盒了,只要算力足够,能产生出什么样的智能尚未可知,但肯定不是简单的接龙游戏。
pursuer
32 天前
定义思考很困难。数学方面,现在其实是有机器证明的,还有证明逻辑严谨性的 LEAN4 。而且有些数学定理证明过程其实就是倾向于枚举的。总不能让 AI 学习去如何"注意到"。
不过做机器数学证明的性价比很低,大概也没多少资源愿意投入这个项目中。
huangsijun17
32 天前
现在的生成式语言模型的核心能力是“能说会道”。他的模型本体所擅长的,也是唯一擅长的是往后接话。无论对错,My 逻辑,只考虑往后可以说什么,最应该说什么,然后继续往后堆话。
huangsijun17
32 天前
@shyangs #2 小学生都知道 3.8 比 3.11 大,但 GPT 会搞错。没些可能是小学肄业的人不做讨论。
billlee
32 天前
怎么就公认通过图灵测试了呢?图灵测试又没有限制问数学题,这一问数学题不就暴露了?
FireKey
32 天前
如果 AI 会思考,人类就没什么存在价值了
zt5b79527
32 天前
@kw8023cn #23 有没有可能,硅基“生命”再怎么堆量也无法产生近似生化大脑的智慧?有没有可能 “只要算力足够” 的程度我们人类永远达不到,就跟质能转换公式我们早就知道了,但是至今无法用能量制造物质一样。chatgpt 让我们知道了大力出奇迹, 但是究竟要多大的力,才能产生真正的奇迹呢,有没有可能再大的力也出不了奇迹,有没有可能是人类永远达不到的大力
shyangs
32 天前
@billlee


你會把大量的姜萍們問倒(50%人上不了高中),難道姜萍們不算人 doge
summerLast
32 天前
Ilya Sutskever 说过 压缩即智能,把 llm 当作一个压缩后的算法和数据的模型,其中蕴含的信息,很难超过其原始输入的压缩前的数据,前段时间的涌现即是模型蕴含了原始数据外的一些知识,这个是一个可以关注的点或者就是拟合松一些就是所谓的涌现?

作为 chat 是基于 llm 的模型进行微调后的(风味不通的冰淇淋)

所谓的数学背后更多的是抽象和推理,而不是单纯的文字预测,llm 在文字预测方面能力很强,也许尺寸在大几个层级,我们初高中的数学题目都被涵盖进原始数据集中去就会解了,但数据有没有这么多,在堆尺寸性能是否在有较大的提升都存疑,成了一个经济是否合算的问题,因此需要进行新模式探索与发现,这是一个最好的时代,这是一个最坏的时代

llm scaling laws 还可以指导后续 llm 发展吗?
lovestudykid
32 天前
就没一个人尝试解一下这个题吗,o1-mini 可以给出正确答案
summerLast
32 天前
llm 代码能力强也是有 github 之类的免费质量不错且量大的数据源的存在,一个信息不流通未有共享的领域,llm 也难为无米之炊

后面大概率很长一段时间 llm 也很难有较大的性能提升,如将 llm 和生产力软件或机器人结合是下一个阶段的发展方向,从追求用户规模,变成谁可以用更低成本生产物质资料和信息,也就所谓的降低成本的同时提高生产力,工厂将不在有工人,信息分发的生产源头将不在有不依赖 AI 的创作者
squarefong17
32 天前
@zt5b79527 首先,智慧是什么、智慧如何产生,目前来讲各种研究依然不够科学,证伪证明都太难,最多是一部分人的公式。第二,现在的算力远远不够,就像你现在几万买个线程撕裂者,能干翻 20 多年前的超算集群,二十年后看今天也一样。二十多年前的算力,也跑不出今天 GPT 的效果。第三,当前计算机架构并不是最适合大模型的架构,大量电力和时间其实浪费在数据的搬运上,现在讨论能不能达到那个“大力”还为时尚早,更别谈“有没有可能再大的力也出不了奇迹”这种,现在想有点闲得。讨论大力奇迹,等一次存算一体的架构革命再说,现在建议思考中午吃点啥
pkoukk
32 天前
@huangsijun17 #26 那是分词器的错误,不是 AI 的错误。通过合适的语法,让分词器不要分错,AI 就不会错。
pkoukk
32 天前
@summerLast #33 在一个信息不流通未有共享的领域,一个人类能比 AI 的表现更好么?
pandaPapa
32 天前
前一阵有个项目要适配 IE7, gpt 给的前端 css 基本都不对. 估计这种数据太少了,或者没有人工干预下 gpt 也不知道哪些数据是对的
renzhe8102
32 天前
怎么就公认了?
huangsijun17
32 天前
@pkoukk #35 我说的不是他回复的内容错误,而是他没有理解你说的说什么。他只是分析你这个词是什么话题,这个话题下怎么回答。
pkoukk
32 天前
@huangsijun17 #39 那我们人类不是么?我们难道不是根据话题加载不同的模式么?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1092630

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX