训练类 ChatGPT 模型时如何避免模型自己生成的样本？

随着越来越多的人在网上部分或全部使用这类模型生成的文本，用爬虫抓训练数据时可能得到大量模型自己生成的文本影响训练的效果。怎样可以避免这类“自产自销”的样本？

gogorush

2023-02-16 08:28:25 +08:00

大概率 chatgpt 会把自己的问题和答案全存着的用户协议里面就有

jstony

2023-02-16 08:54:37 +08:00

@gogorush 没必要存答案吧，同一个模型同一个问题，出来的答案可能是一致的。

jamosLi

2023-02-16 09:22:52 +08:00

首先啊，我是说首先啊。bing 本身就是一个标签系统，你胡子眉毛一把抓的爬虫数据，本身就是垃圾样本。

satoru

2023-02-16 09:25:03 +08:00

@jstony 有一个 temperature 参数可以控制有多大概率随机选择概率不是最高的下一个“词”，所以没有缓存的话多次运行很可能看到不一样的结果。

ersic

2023-02-16 09:32:48 +08:00

chatgpt 可以基于一个模型训练属于自己模型，这个新模型应该是私有的。

h272377502

2023-02-16 10:31:18 +08:00

到了 chatgpt 这种级别的数量级，肯定不能完全避免，openai 自己有训练模型区分对话是否有 ai 生成，也只能分辨很长的那类的句子，短的无法区分出差异。训练 chatgpt 的第一部是训练 gpt ，简单的讲，gpt 就是学习通顺的上下句，那些模型产的数据，只要上下文通顺，影响不大。chatgpt 的下一步，通过 rlhf 方式去训练模型的（这部分需要人类去标注回答的好坏），可以理解成，有个模型在给 gpt 生成的结果打分，并指导 gpt 生成符合人类倾向的回答，如果那些自产的数据质量不高的话，可以在这阶段消除。

otakustay

2023-02-16 11:54:59 +08:00

GPT 的优势就是能自产自销进化，你把这个干掉还玩啥 GPT

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/916512

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.