有论文已经论证了： GPT4-0613 比 GPT4-0314 版本的表现更差

我先前的帖子指出，GPT4-0613 明显降低了回答质量。但是论证不严谨，有很多人反驳。 https://v2ex.com/t/953862

然而，最近随着 Poe 的 GPT-4 也切换成了 0613 ，其表现肉眼可见的越来越差，写出的代码很少能够一次运行成功，Leetcode 上烂大街的 Medium 题，甚至都能写错。

最近，来自 Stanford University 和 UC Berkeley 的研究者在论文中指出，GPT4-0613 在逻辑和写代码方面全方位的差。
https://arxiv.org/pdf/2307.09009.pdf

推上的博主 Santiago 也对该论文做出了总结：

GPT-4 越来越差，而不是更好。许多人报告称他们注意到模型响应质量明显下降，但迄今为止都只是个别案例。但现在我们知道了。至少一项研究显示，GPT-4 的六月版本在几个任务上表现明显较三月发布的版本差。团队使用了一个包含 500 个问题的数据集对这些模型进行了评估，问题涉及判断给定整数是否为质数。三月份，GPT-4 正确回答了其中的 488 个问题。而到了六月，它只回答对了 12 个问题。从 97.6%的成功率降至 2.4%！更糟糕的是！团队使用了“思维链”（ Chain-of-Thought ）帮助模型推理："17077 是一个质数吗？逐步思考。"“思维链”是一种常用的技术，可以显著改善答案。然而，最新版本的 GPT-4 没有生成中间步骤，而是简单地错误回答为“不是”。代码生成也变得更差了。团队构建了一个包含 50 个 LeetCode 中简单问题的数据集，并测量了 GPT-4 生成的答案中有多少能直接运行而不需要任何修改。三月版本成功解答了 52%的问题，但在六月版本中，这一比例下降到了可怜的 10%。为什么会发生这种情况？我们推测 OpenAI 在持续进行修改，但我们不知道具体的工作过程以及如何评估模型是进步还是退步。有传言称他们正在使用几个较小且专门化的 GPT-4 模型，这些模型的运行成本较低，但在用户提问时，系统会决定将查询发送给哪个模型。更便宜、更快，但这种新方法是否导致质量下降的问题？在我看来，对于任何基于 GPT-4 构建应用程序的人来说，这都是一个警示信号。一个语言模型的行为随着时间的推移而改变是不可接受的。你最近使用 GPT-4 和 ChatGPT 时有注意到任何问题吗？你认为这些问题被夸大了吗？