想要讨论一下使用 GPT 作为搜索引擎的问题

关于最近很火的 ChatGPT ，我希望我并不是因为媒体说它很厉害、很多人吹它很厉害，就认为它很厉害。我希望我能更多地了解它的原理。目前看大家的应用场景，我觉得主要集中在这几个方面：

辅助生成代码、配置文件
辅助写作，特别是一些程式性的文章（例如周报、ReadMe ）
充当搜索引擎

关于充当搜索引擎这部份，我有一些担忧。ChatGPT 会理直气壮地返回一些事实性的错误，例如它会说鲁迅和周树人不是同一个人。Google 之前宣传的 Bard 也有类似的问题。传统的搜索引擎会返回来源，而 ChatGPT 会模糊来源，让人更难判断真伪。如果我一定要用的话，我会先用 ChatGPT 询问，然后再回到搜索引擎去寻找来源，感觉就像是多做了一步。

目前我的问题主要集中在 GPT 的训练部分。如果作为搜索引擎的话，GPT 应该需要像传统搜索引擎一样，持续不断地爬取互联网的新内容，用来训练。而关于这段训练，我有两个问题：

GPT 的增量训练是不是非常简单？只需要把新文本当做新的训练集追加训练就好了？
如果后续发现爬取的内容有事实错误，想要 GPT 里面剔除这些内容，是不是代价非常高？基本上只能从头训练？

如果是这样的话，那么会不会有以下的问题：

对返回结果进行投毒变得比较容易，特别是时事内容。在时事内容还在一些主流的媒体网站传播的时候，就利用大量的小网站或者在其他网站的评论里投毒。投毒的内容可以夹在随机的语句之中。
时事还在发展进行中，经历了“反转”，那么 GPT 是不是就很难返回最新进展。
运营公司需要消耗大量成本来剔除投毒内容，那是不是只从有声望的大网站上爬取内容就好了？这样的话，是不是互联网的内容会更加集中到大型网站里，小网站更难有出头之日？

pochy06

2023-02-12 13:07:12 +08:00

1. 看有多少数据，以及是多大的模型。OpenAI 其实已经提供了 fine-tune 接口，训练价格$0.0300/k token
2. 不是的。可以利用 RLHF 的方法让模型自己有一些筛选能力，或者使用事实检测（假新闻检测）的方法做筛选
3. 目前的一个趋势是检索式方法+生成式模型（ retrieval-enhanced pretrained language model ），在一定程度上可以解决这种问题，即结合搜索引擎的实时性内容优势+少批量候选，利用生成式语言模型做最后召回 /生成。（也许）这就是为什么 new bing 可以做到回答 2021 年以后的问题。所以“返回最新进展”这个需求不是一个简单的单模型问题，而是一个系统问题。

DeltaC

2023-02-12 13:14:26 +08:00

个人不看好 chatgpt 向搜索引擎方向发展。
想一想自己从搜索引擎搜索信息然后取信依靠的什么指标，或者换一种说法，当接触到一个信息时，我们自己的知识储备不能判断其正误，我们通过什么因素去判断信息的价值呢？
我感觉有一下三点
1.其他人类的选择，比如 stackoverflow 的 vote ，git repo 的 star ，以及评论区的反馈；
2.“交叉验证”，从不同的信源，得到了相近的结论，那我们倾向于认为是可信的；
3.“专家系统”，领域知名专家 /开发者的结论，也倾向于可信。比如 russ cox 讲 memory model ，linus 讲 os 。

目前，我觉得 chatgpt 这三点做的都不行。

个人看好 chatgpt 向某个特定领域的发展，比如
- 辅助生成代码、配置文件
- - tabnine,copilot 已经比较成熟了，后者我正在用，写 makefile,cmakelists 是相当的好用。
- 辅助写作，特别是一些程序性的文章（例如周报、ReadMe ）

专注于某个特定的领域，只给模型特定领域的数据集，要像个“偏科生”，而不是“百科全书”，如此发展，我看好。

此外，chatgpt 这类东西仅在三产绕圈子，貌似没有影响到一二产，我认为影响力有限。