强人工智能的实现代码量估计只有 0.65952MB?

2023-10-13 09:43:32 +08:00
 fanym
现在没有出现强人工智能,但是有强智能的人类可以参考。
一个碱基对有 4 中可能,计算机的一个位有 0 ,1 两种可能。
32 亿碱基对就算全是有效信息也就
32 亿×2/8/1024/1024 = 762.94MB
其中人的 DNA 有效基因不会超过 10%,有很多没表达的基因
762.94×10% = 76.294 MB
还有 DNA 翻译成蛋白质会造成信息的损失(要 3 个碱基对确定 20 个氨基酸构成蛋白质)
76.294×log64 ( 20 ) = 54.96MB
人和大猩猩基因相似度大约 98.8%,粗略的将差异的 1.2%当成导致智能差异的基因,估计人智能所需的信息量只有
54.96*1.2% = 0.65952MB
计算和实际的误差应该挺大的,但是数量级差不多了。
为什么这么小的信息量现在还无法在计算机中模拟出强人工智能?难道瓶颈在显存和算力而不是算法上?
假设一滴水的水分子只有像 0 和 1 的两种状态数据量就达到了,
1.67 * Math.pow(10,21)/8/1024/1024/1024/1024 = 189857019 TB
还有现实中的数据大多是连续的无理数,而计算机只能进行离散的有理数进行存储计算导致丢失精度。
所以还是要堆存储算力或者改计算机的底层设计(像量子计算机)才可能实现强人工智能吗?
6708 次点击
所在节点    问与答
77 条回复
ytgui
2023-10-13 11:07:38 +08:00
即便这玩意存起来 storage 只有 1GB ,但是如果每个 bit 都是有效信息,排列组合的 Cartesian 也是无穷多的。类似于现在的 DL 一个模型的所有权重可以任意排列组合任意连接,并不是能通过 on-disk 大小估计的巨大数量级
c2const
2023-10-13 11:10:05 +08:00
不能这么算吧,至少得考虑工程上的实现吧 :(
---------
0.源码来看,基因只算部分源码,类比到计算机编译/连接,大脑发育过程,那外部环境肯定有影响,这也得算源码,并且数量级也不好估计,所以 OP 算的这个源码不全对吧 :)

1.基因+外部环境+???,"编译链接"后,生成的大脑输出的可能性太多了,类比计算机,至少得编译出个现代操作系统吧?那可以参考下操作系统的源码量,当然也可以源码足够小,但压力就到了编译器/连接器,相当于给编译工具里赛了个操作系统源码。

2.围棋在二维平面,就 19*19+黑白两子,棋盘局面数太大,大到无法暴力穷举, 人脑还是三维立体结构,复杂度和生物信号远超两种,而且还有冲激信号这种,用计算机的 0 、1 来表示比较复杂,人脑输出可能性也远超围棋 :(

3.现在也没研究透人脑,用计算机来实现,可能类似盲人摸象? 实现还是算法来部分模拟,没用暴力穷举 :)
fanym
2023-10-13 11:10:27 +08:00
@ahhui 我估计不是代码量的问题,是要有很大的算力和存储才能实现。
原始海洋汤里,只要有足够多的时间和数量就回有生命出现,虽然这是天文数字。
分子总是做无规则的布朗运动,但是只要有足够久的时间这个运动可能就把对应的分子放对对应的位置,抽出来的 dna 正好构成了一个细胞核使生命出现。
lysS
2023-10-13 11:10:33 +08:00
你这算的是信息存储容量。

人的智慧来自大脑神经元,基因只是存储了基础组件的信息,所需的信息量可以比较小。组件之间排列组合,那就是海量的了。

我看有的说法是大脑属于非经典计算机,这可能关系到意识与存在的问题
LLaMA2
2023-10-13 11:11:49 +08:00
人和大猩猩基因相似度大约 98.8%,粗略的将差异的 1.2%当成导致智能差异的基因,估计人智能所需的信息量只有
54.96*1.2% = 0.65952MB

也许并不是这多出来的 1.2 帕实现了智能,
只是这 1.2 帕是智能的必要条件(核心逻辑),
其他的 98.8 帕也参与计算。只不过他们是基础设施而已!
OnlyShimmer
2023-10-13 11:17:08 +08:00
dna===代码
染色体===项目
细胞核===编译器
细胞===服务器
misdake
2023-10-13 11:18:06 +08:00
把 DNA 比作可执行文件的话
DNA 的运行时(现实世界)也是一个非常复杂的东西,包含了物理化学生物的各种作用的模拟
启动运行的初始条件如当前细胞各种细胞器状态,细胞液状态,周围环境等等,都是必要的初始条件。
另外,700MB 的无依赖 binary ,携带的信息量是极其巨大的。chrome 我查了一下代码行近 3000 万,windows binary<300MB 。
pkoukk
2023-10-13 11:27:35 +08:00
你这逻辑怎么这么奇怪呢?
人不是生下来就有智能的,一个初生的小孩让大猩猩捡回去养,养到成年,你觉得他有你理解里的“智能”么?
你觉得他缺那 1.2%的基因么?
智能,是指人类文明信息,运行在人脑操作系统上的一种表现
你懂么?人是人类文明的载体,而不是文明本身
fanym
2023-10-13 11:31:48 +08:00
@pkoukk 反过来把大猩猩当人养也不会具备人的智能,硬件就被限制了了。
还有人脑是操作系统,那计算机为什么不能像虚拟机一样模拟这个操作系统然后学习人类的文明信息?
pkoukk
2023-10-13 11:37:03 +08:00
@fanym #29
1 、你只能说猩猩硬件性能差,不能说完全没有,有不少猩猩表现出的学习能力和理解能力并不低。
你甚至能看到不少“能上大学”的边牧。只能说人类信息系统没有对猩猩的硬件做优化。
2 、你说的这玩意,就是神经元网络和当代 AI 模型的起源思想
anzu
2023-10-13 11:44:01 +08:00
DNA 只是数据,不表达任何信息,需要依靠蛋白质表达,就像人不是从 DNA 中出生,而是从受精卵出生。蛋白质的复杂性相当高。
但是这种不利用机器特性而强行拟人的做法,我估计最后诞生的只能是虚拟人,没有什么超越人类的智能。
如果只模拟神经元,那就与 DNA 无关,比如模拟一个线虫,302 个神经元: https://github.com/openworm/OpenWorm
Felldeadbird
2023-10-13 11:45:23 +08:00
你这个只是基础框架包的容量吧,或者说是整个系统一个细小模块。 依赖库,操作系统这些没算进去。
cxtrinityy
2023-10-13 11:51:47 +08:00
@fanym 那为啥美国要用光刻机卡中国芯片的脖子?中国企业是不会生产手机么?
当你说信息足够时,你说的可不仅仅是电脑的信息,这里包含了上下游所有涉及领域的知识。
克隆技术本身依然使用的是现成的生物基础,这就像你可以在代码里调库但完全不知道实现只需要明白 API ,而当你说要用计算机模拟智能时,你是要抛弃一切基础,只有你明白了整个原理,你才能使用完全不同的语言不看源码再写一个一样功能的库。
anzu
2023-10-13 11:54:00 +08:00
@ytgui #19 模拟的是一个人,而不是所有人。不需要穷尽所有组合,只需要一个正常人的确定的基因序列。
CrazyRundong
2023-10-13 11:57:29 +08:00
好问题啊,有时不禁想人类的大脑是不是某类预训练了 20 万年的大模型,并且边训练边剪枝来控制模型大小。DNA 只是代际传递的隐变量,在下一个代际初始化后,由上一代和周围的社会族群带领进行知识蒸馏,在学习并收敛到一定的稳定态之后再逐渐开始自监督学习。隐变量可以维度很低容量很少,后续的代际间指导和自我学习才是人类大脑这堆屎山代码迭代出强智能的主要原因
f6x
2023-10-13 12:15:34 +08:00
思路不错. 但是不要脱离外部环境.
生物多样性是 自身 DNA+地球环境共同决定的. 拥有完美呼吸系统的强人工智能去到没氧气的外星球会立刻挂掉

就好比你手里有一把钥匙, 面前有两扇门. 成功打开左门, 里面是个图书馆.
那钥匙的信息量是 1bit? 2bit? 还是 1Pbit?
tyzandhr
2023-10-13 12:17:27 +08:00
不如说是,运行强人工智能的硬件设计图纸只需要 762.92mb 。
mmxq
2023-10-13 12:17:54 +08:00
按这种思考方式来说,这所谓的 0.65952MB 是纯文本源码的大小啊,实际编译出的大小估计整个宇宙的粒子都无法穷尽。
实现功能直接靠蛋白质,蛋白质的合成才是 DNA 控制。
蛋白质的种类繁多到难以置信,每个蛋白质的结构也复杂的惊人。
DNA 的转录翻译就类似于把这 0.6MB 的文本放在自然环境中编译出一个有完整功能的人类,还要考虑到编译环境对源代码的自然选择,一边编译,一边改造环境,一边反作用于源码。
最后好不容易编译完了,还要考虑别的编译产物对自身源代码的影响,也就是“文化”。
而文化本身也是个极为复杂的互相影响的系统,“文化”这个系统套”蛋白质“再套”DNA“,最简单的计算也是蛋白质的所有可能性*DNA 所有可能性*文化影响的所有可能性。
放过计算机吧,它就是个加减乘除的重复计算机器而已,不是上帝。
NoOneNoBody
2023-10-13 12:19:13 +08:00
有些定义解读是各自不同的,但实际可能和任何一种解读都背离,因为所有解读的人(或者说时代)都没达到足够的水平

例如:ABC 和 CBA 相似度的解读,按字母解读就是 100%相同,但所有懂英语的人都知道不能这样解读(达到足够的水平),所以能确认它们是不同的
FallenTy
2023-10-13 13:39:10 +08:00
打包后的代码是 0.6M ,运行这段代码的环境是多大,里面各种组件 各种工具都还没实现。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/981540

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX