如果通过一手渠道使用 o1-preview ,当然不用怀疑了。缺点:贵,额度又少。
用非大厂第三方的服务,又不确定是真的 o1-preview 还是 o1-mini ,4o 或者其他模型冒充的。感觉 20% 的答复质量优秀,问题一举解决; 20% 糟糕,交流限于死胡同,浪费时间; 60% 中规中矩,有一定帮助,可能需要多轮对话。每当它的回答很失水准的时候,我就怀疑这到底是真的 o1-preview 还是其他模型根据 o1-preview 的回答模式仿写的,或者真假掺杂?
用什么问题进行测试可以有效辨别 o1-preview 呢?
直接问「你用的什么 LLM 模型」肯定是不行的。LLM 并不能真的解答这种问题,它只是照本宣科 system prompt 。你愿意让它自认为是什么模型都可以,不可信。
有些问题可以用来辨别 gpt-4 ,那 o1-preview 呢?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.