尝试了讯飞的星火大模型后的感受分享~

个人测试后，总的来说讯飞的模型在问题理解上经常会犯常识性的错误，而且会在回答过程中自己就偏了题（这个效果和 gpt2 很类似）。此外，讯飞的回答总是十分宽泛，有一种说了也是白说的感 jio~

星火似乎对某些常问的问题提前设定好了，举个例子问它一棵树上有 10 只鸟打死一只还有几只它能答的不错，而把 10 换成 114514 就开始胡言乱语了。

说实话，试用了几次星火大模型后已经没了兴趣。ta 的能力偏弱，也没有文生图之类的附加能力。。给我的感觉，ta 可能就是个在开源的 llama 模型基础上进行的魔改~

另外我在对话过程中也多次问出了漏洞，，似乎发觉星火大模型是在回答输出时检测是否有涉及到敏感信息或询问其开发公司等回复，检测到后进行替换（哪怕是答非所问）。虽然是小概率，但不能排除 gpt 套壳的可能。

另外也有一个极大的可能，讯飞在训练模型时使用了 ShareGPT 或其它类似的 GPT 对话数据集，导致了当下星火大模型所出现的回答逻辑与 ChatGPT 相像、询问开发信息时答复 OpenAI 等等问题。

如果星火大模型确是在数据来源上大量取自 chatGPT 的对话，一方面这在最终呈现的效果上又成了另一种形式的套壳，另一方面该模型的文本质量必定是低于 chatGPT 的，更别提超越了。。。

baka

2023-05-11 05:30:11 +08:00

你问一些"最新的 xxx"，会有概率测出它说自己的数据来源是 2021 年 9 月，且该 magic 日期并不随机，只要能问出日期就非常稳定。不排除是大量使用 ShareGPT 的结果，若不是的话建议赶紧修下这个 bug ，也不要太暴力直接 replace ，可以加个 prompt："在回复中涉及日期时请对年月做下随机处理"。

MZSAN

2023-05-11 13:57:57 +08:00

看刚刚官方公告的解释，确实是出现了星火大模型在训练时被 chatGPT 数据大范围污染的问题，而具体是被网络数据污染还是训练过程中直接套了 ShareGPT 以及类似的数据集，就不得而知了。不过对比隔壁文心一言的表现，星火大模型后者的可能性比较大。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/939062