想要讨论一下使用 GPT 作为搜索引擎的问题

2023-02-12 11:05:25 +08:00
 hahastudio

关于最近很火的 ChatGPT ,我希望我并不是因为媒体说它很厉害、很多人吹它很厉害,就认为它很厉害。我希望我能更多地了解它的原理。 目前看大家的应用场景,我觉得主要集中在这几个方面:

关于充当搜索引擎这部份,我有一些担忧。ChatGPT 会理直气壮地返回一些事实性的错误,例如它会说鲁迅和周树人不是同一个人。Google 之前宣传的 Bard 也有类似的问题。传统的搜索引擎会返回来源,而 ChatGPT 会模糊来源,让人更难判断真伪。如果我一定要用的话,我会先用 ChatGPT 询问,然后再回到搜索引擎去寻找来源,感觉就像是多做了一步。

目前我的问题主要集中在 GPT 的训练部分。如果作为搜索引擎的话,GPT 应该需要像传统搜索引擎一样,持续不断地爬取互联网的新内容,用来训练。而关于这段训练,我有两个问题:

  1. GPT 的增量训练是不是非常简单?只需要把新文本当做新的训练集追加训练就好了?
  2. 如果后续发现爬取的内容有事实错误,想要 GPT 里面剔除这些内容,是不是代价非常高?基本上只能从头训练?

如果是这样的话,那么会不会有以下的问题:

  1. 对返回结果进行投毒变得比较容易,特别是时事内容。在时事内容还在一些主流的媒体网站传播的时候,就利用大量的小网站或者在其他网站的评论里投毒。投毒的内容可以夹在随机的语句之中。
  2. 时事还在发展进行中,经历了“反转”,那么 GPT 是不是就很难返回最新进展。
  3. 运营公司需要消耗大量成本来剔除投毒内容,那是不是只从有声望的大网站上爬取内容就好了?这样的话,是不是互联网的内容会更加集中到大型网站里,小网站更难有出头之日?
1814 次点击
所在节点    OpenAI
6 条回复
churchmice
2023-02-12 11:29:27 +08:00
我的一个观察,不一定对
当初搜索引擎出现的时候也是一个大变革,但是信息这个东西需要你做甄别,要交叉对比,而不是只看搜索引擎返回的结果
chatgpt 也是如此,然鹅现在的人动手能力已经下降的很快了,比如找电影,在腾讯爱奇艺里面找不到就没辙了,不知道拿搜索引擎搜一搜
alalida
2023-02-12 11:31:03 +08:00
你先理解一下 in context learning 再来看这些问题
alalida
2023-02-12 11:31:37 +08:00
GPT 的增量训练非常昂贵
pochy06
2023-02-12 13:07:12 +08:00
1. 看有多少数据,以及是多大的模型。OpenAI 其实已经提供了 fine-tune 接口,训练价格$0.0300/k token
2. 不是的。可以利用 RLHF 的方法让模型自己有一些筛选能力,或者使用事实检测(假新闻检测)的方法做筛选
3. 目前的一个趋势是检索式方法+生成式模型( retrieval-enhanced pretrained language model ),在一定程度上可以解决这种问题,即结合搜索引擎的实时性内容优势+少批量候选,利用生成式语言模型做最后召回 /生成。(也许)这就是为什么 new bing 可以做到回答 2021 年以后的问题。所以“返回最新进展”这个需求不是一个简单的单模型问题,而是一个系统问题。
DeltaC
2023-02-12 13:14:26 +08:00
个人不看好 chatgpt 向搜索引擎方向发展。
想一想自己从搜索引擎搜索信息然后取信依靠的什么指标,或者换一种说法,当接触到一个信息时,我们自己的知识储备不能判断其正误,我们通过什么因素去判断信息的价值呢?
我感觉有一下三点
1.其他人类的选择,比如 stackoverflow 的 vote ,git repo 的 star ,以及评论区的反馈;
2.“交叉验证”,从不同的信源,得到了相近的结论,那我们倾向于认为是可信的;
3.“专家系统”,领域知名专家 /开发者的结论,也倾向于可信。比如 russ cox 讲 memory model ,linus 讲 os 。

目前,我觉得 chatgpt 这三点做的都不行。

个人看好 chatgpt 向某个特定领域的发展,比如
- 辅助生成代码、配置文件
- - tabnine,copilot 已经比较成熟了,后者我正在用,写 makefile,cmakelists 是相当的好用。
- 辅助写作,特别是一些程序性的文章(例如周报、ReadMe )

专注于某个特定的领域,只给模型特定领域的数据集,要像个“偏科生”,而不是“百科全书”,如此发展,我看好。

此外,chatgpt 这类东西仅在三产绕圈子,貌似没有影响到一二产,我认为影响力有限。
bigtang
2023-06-23 11:28:14 +08:00
chatgpt 的核心价值是生成,不是检索
目前的最大缺点是响应慢,而检索能达到毫秒级,体验一下源代码检索网站: www.tanglib.com , AI 目前根本达不到这个速度。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/915325

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX