作为 AI 服务使用方，合同条款中如何尽量防范 AI 提供方降低服务质量呢？

传统云服务可以在合同中约定许多具体服务内容和参数标准，并使用探针、benchmark 工具、抽样测试等方法来监控和验证服务质量。

但目前 AI 服务要么是打包一个产品，要么是约定什么模型多少 token ，如果服务商偷偷降低算力、阉割外部插件，即使用户能感觉到劣化，却似乎很难举证服务存在劣化，也很难在合同中约定质量评判标准。如果事先约定了固定的质量测试方法，服务商可能专门针对这些测试做优化，导致测试结果不能反映实际服务质量。如果约定抽样评测实际结果的正确率，这种测评似乎代价又比较高，毕竟 AI 做的工作有一定复杂度和随机性，不容易简单批量判断对错，除非用人工或更聪明的 AI 来验证，但这又违背了使用 AI 的初衷。

我问了下 AI 有哪些 AI 质量评价方法，了解到自然语言处理方面有 Precision, Recall, F1 之类指标以及 BLEU, ROUGE 之类机制，但似乎都要有参考文本。而且现实中 AI 服务非常多样，不知道是不是都适用。

所以目前针对 AI 服务降低质量，在合同条款上有什么好的、易于举证的防范方法吗？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1100918

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.