星火认知、文心一言、ChatGPT 哪个强?简单测了一下。

2023-05-10 02:16:48 +08:00
 RiverMud
按照微博阑夕设计的问题问了一下星火认知、文心一言和 gpt3.5 模型的 ChatGPT 。

懒得打字了,所以只问了前六个问题。星火认知答对 4 个,文心一言答对 1 个,gtp3.5 模型的 ChatGPT 答对 4 个。gpt4 没有就没测,哪位试试?

问题连接: https://video.weibo.com/show?fid=1034:4889999422980118

这些问题以及测试方法并不一定科学、严谨,结果仅供诸君参考。

另外,一个刚推出的中文通用大模型综合性基准 SuperCLUE 认为星火认知仅次于 gpt3.5 和 gpt4 。

项目地址: https://github.com/CLUEbenchmark/SuperCLUE

这算不算科大讯飞的利好,是不是可以满仓 002230 了?

以上内容均为对客观过程及现实的描述,不代表个人认同方法、结果及排名,也不构成任何投资建议,投资者盈亏自负,本人不承担任何直接及连带责任,股市有风险,入市需谨慎。
2148 次点击
所在节点    分享发现
6 条回复
dunizb
2023-05-10 03:27:23 +08:00
国内的还不都是半斤八两不相上下,不会有特别强的
air00dd
2023-05-10 07:02:12 +08:00
样本太小、样本分布范围也不一定多科学,参考价值不大。

而且 GPT 是不断迭代的,训练模型是人为操控的容易加私货,像手机厂商特意为“跑分”做优化也说不定😏,或者勾结评测人员
oswinw
2023-05-10 09:53:19 +08:00
wangmou
2023-05-10 10:06:10 +08:00
文心现在还不如刚公布的时候有意思,那个时候问他 7 个领导 6 个凳子应该怎么做,回答和百度搜索前几个一样,纯纯人情事故,现在回复就是类似 gpt3.5 那种了。。。
xieqiqiang00
2023-05-10 13:17:02 +08:00
@air00dd 的确,什么阿猫阿狗在刻意设计的问题下都能表现的不错
jay52jolinyyds
2023-05-10 14:51:56 +08:00
赶紧满仓,不要犹豫了😄

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/938749

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX