lookStupiToForce
2023-02-23 15:47:01 +08:00
放心
{广泛意义上}
过去 [互联网信度效度体系] 整体建立在 page rank 的基础上,然后就被很多垃圾农场钻了空子制造了大批因为互相提权而能抢占排名的垃圾站点
现在的 [文本型近人工智能] 出来后,page rank 的弊端进一步凸显,因为这种互相提权的站点可以更容易地大规模产生出来,那么肯定会需要新的信度效度体系来重新对信息的信效进行排名,而这肯定也得依赖大量的真实人类反馈( RLHF 嘛)。
现在只是新旧体系青黄不接的混乱初期,还早。
-
-
-
{狭隘意义上}
chatGPT 这种 [文本型近人工智能] ,还是基于人类输入的反馈学习的( RLHF 嘛)
它没有办法 [直接] 从真实世界获取任何信息的正误判断。
甚至 newbing 有了搜索接入互联网的能力,它也没有办法直接判断哪些网站的信息更可用,哪些网站的信息是正确的,哪些社群用户的发言更可靠。
明白了吗?
除了人给的反馈,它都没有真实世界的直接输入。它没有好的办法做验证。(非死不可 AI 研究院新近提出的 toolformer 可能是个可行的路子)
所以现模型输出结果的好坏真假,完全取决于入模的数据的质量(这种基础知识只要是炼丹师都懂),所谓 garbage in garbage out (其实这对于人也一样,接触不到高质量信息 /没有办法验证真假,人也只能输出垃圾信息)
它发这些胡编乱造事物的蠢,都属于 [可以理解的范畴] 。而不是像做数学题出错那样,具体未训练到位的原理仍有待人深究。
-
-
-
或者我们换个角度,抓一个对红楼梦以及中国古典四大名著一无所知但略懂中文的老外来。
如果你不事先丢一本红楼梦给这个老外读,并且通过多种角度告诉他,这是 [已定型] 的 [古代小说] ,不是 [新作小说] 、 [后人仿作小说] 、 [现代同人小说] ,
那么他在啥都不知的情况下,没有办法直接从你的话里区分你说的那个“林黛玉倒拔垂杨柳”是不是他刚在晋江文学网上搜到的 [完全同名小说] !( www[.]jjwxc[.]net/onebook[.]php?novelid=1566958 ,看时间是 2012 年的)
这样是不是方便理解一点了?