发现一个能够区分出 GPT-4 和 Claude2 与其他大模型的问题

2023-08-14 20:21:42 +08:00
 14

问题:我记得有个 s 开头的命令行工具,简化了查看 k8s 日志的方式,忘记是哪个了

模型 回答
GPT-4(POE) 回答并介绍了 stern 的用法
Claude-2-100k(POE) 回答并介绍了 stern 的用法
GitHub Copilot Chat 回答并介绍了 stern 的用法
GPT-3.5(POE) 回答并介绍了 kubectl logs 的用法
Claude-instant-100k(POE) 回答并介绍了 kubectl logs 的用法
Google-PaLM(POE) 回答并介绍了 kubectl logs 的用法
Llama-2-70b(POE) 回答并介绍了 kubectl logs 的用法
百度文心一言 回答并介绍了 kubectl logs 的用法
阿里通义千问 回答并介绍了 kubectl logs 的用法

GPT-4 和 Claude-2-100k 的结果正确。之所以需要这个问题是想弄清楚 GitHub Copilot Chat 到底是不是 GPT-4 ,现在看来应该是的。

2047 次点击
所在节点    OpenAI
11 条回复
qq565425677
2023-08-14 20:55:21 +08:00
官网的 3.5 也能回答对 stern
ggvoking
2023-08-15 00:28:09 +08:00
我用 Poe 的 Assistant (gpt3.5)能答对啊
14
2023-08-15 08:49:14 +08:00
@qq565425677 @ggvoking

我又测试了几次,3.5 确实有时候也能回答正确了,只是我第一次测试的时候回答是错的:

GL8885
2023-08-15 09:55:11 +08:00
有些问题其他模型会拒绝回答,只有 GPT4 会回答。
taotaodaddy
2023-08-15 22:57:39 +08:00
稍微复杂一点的编程问题,GPT4 的正确率是碾压级的,CLAUDE2 还只能是个宝宝
maymayblog
2023-08-16 16:02:21 +08:00
这是我镜像站 3.5 的回复:可能你在说的命令行工具是 stern 。Stern 是一个用于简化查看多个容器的 Kubernetes Pod 日志的工具。它可以按照 Pod 的 labels 、容器名称等进行筛选,并将多个容器的日志合并输出,便于查看和分析。你可以通过在终端输入 stern 命令来使用它。
14
2023-08-16 21:33:06 +08:00
@maymayblog 我测试 3.5 也能成功,但是不够稳定,多问几次会回答错误,不知道还有没有更好的区分方法
14
2023-08-16 21:37:10 +08:00
@taotaodaddy 我现在主要用 GitHub Copilot Chat ,因为就在 VS Code 侧边栏很方便,所以我很在意 GitHub Copilot Chat 到底是不是 GPT-4 ,现在测试下来应该是定制过的 GPT-4
taotaodaddy
2023-08-16 22:24:13 +08:00
@14 那就太划算了,羡慕
其实我买 poe 订阅也就是为了辅助写代码,之前订阅过 2 个月 github copilot,但一直没能通过 copilot x 的申请,而 github copilot 的代码预测成功率真心不能接受(不知道为啥有些人就喊 copilot 的代码预测香,我喊不出来)
试了后 gpt4 感觉的 4 的代码能力还是强,而且同一个问题,即使假设 3.5 也能回答正确,但是其语言组织体现出的逻辑缜密性也是不如 4 的
但是好担心 gpt4 会降智
yinmin
2023-08-16 22:44:38 +08:00
@14 #8 区分 3.5 和 4 的问题:如何制作番茄炒钢丝球,3.5 会直接给你菜谱,4 会告诉你没这个菜。
14
2023-08-17 23:10:45 +08:00
@taotaodaddy Copilot 用来补全那种照猫画虎的代码很合适,比如下一行和上一行很相似的时候。还有就是补全一下重复性代码,比如我在 Python 文件末尾写个 if 稍微等一下肯定能出来 if __name__ == '__main__': 后面自动调用当前文件的未使用的函数。如果我认为他不能补全好我就快速写或者忽略他的补全,认为他能写好就稍微停顿一下,基本上我只让他干我认为他能干好的活,有时候可能写个好的命名比如 one_hour_ago = 我知道他肯定能补全正确后面的,很少会让他写大段不确定的代码。Copilot 的优势是不用离开代码上下文就能快速完成一些小事,复杂的问题还是需要组织好语言让 GPT-4 处理,比如描述一个复杂的需求让 GPT-4 写大段代码实现某个功能。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/965251

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX