星火认知、文心一言、ChatGPT 哪个强？简单测了一下。

2023-05-10 02:16:48 +08:00

RiverMud

按照微博阑夕设计的问题问了一下星火认知、文心一言和 gpt3.5 模型的 ChatGPT 。

懒得打字了，所以只问了前六个问题。星火认知答对 4 个，文心一言答对 1 个，gtp3.5 模型的 ChatGPT 答对 4 个。gpt4 没有就没测，哪位试试？

问题连接： https://video.weibo.com/show?fid=1034:4889999422980118

这些问题以及测试方法并不一定科学、严谨，结果仅供诸君参考。

另外，一个刚推出的中文通用大模型综合性基准 SuperCLUE 认为星火认知仅次于 gpt3.5 和 gpt4 。

项目地址： https://github.com/CLUEbenchmark/SuperCLUE

这算不算科大讯飞的利好，是不是可以满仓 002230 了？

以上内容均为对客观过程及现实的描述，不代表个人认同方法、结果及排名，也不构成任何投资建议，投资者盈亏自负，本人不承担任何直接及连带责任，股市有风险，入市需谨慎。

2187 次点击

所在节点

分享发现

6 条回复

dunizb

2023-05-10 03:27:23 +08:00

国内的还不都是半斤八两不相上下，不会有特别强的

air00dd

2023-05-10 07:02:12 +08:00

样本太小、样本分布范围也不一定多科学，参考价值不大。

而且 GPT 是不断迭代的，训练模型是人为操控的容易加私货，像手机厂商特意为“跑分”做优化也说不定😏，或者勾结评测人员

oswinw

2023-05-10 09:53:19 +08:00

https://twitter.com/xcl2022/status/1656015056990265344
网传,不知真假

wangmou

2023-05-10 10:06:10 +08:00

文心现在还不如刚公布的时候有意思，那个时候问他 7 个领导 6 个凳子应该怎么做，回答和百度搜索前几个一样，纯纯人情事故，现在回复就是类似 gpt3.5 那种了。。。

xieqiqiang00

2023-05-10 13:17:02 +08:00

@air00dd 的确，什么阿猫阿狗在刻意设计的问题下都能表现的不错

jay52jolinyyds

2023-05-10 14:51:56 +08:00

赶紧满仓，不要犹豫了😄

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/938749

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX