传统云服务可以在合同中约定许多具体服务内容和参数标准,并使用探针、benchmark 工具、抽样测试等方法来监控和验证服务质量。
但目前 AI 服务要么是打包一个产品,要么是约定什么模型多少 token ,如果服务商偷偷降低算力、阉割外部插件,即使用户能感觉到劣化,却似乎很难举证服务存在劣化,也很难在合同中约定质量评判标准。如果事先约定了固定的质量测试方法,服务商可能专门针对这些测试做优化,导致测试结果不能反映实际服务质量。如果约定抽样评测实际结果的正确率,这种测评似乎代价又比较高,毕竟 AI 做的工作有一定复杂度和随机性,不容易简单批量判断对错,除非用人工或更聪明的 AI 来验证,但这又违背了使用 AI 的初衷。
我问了下 AI 有哪些 AI 质量评价方法,了解到自然语言处理方面有 Precision, Recall, F1 之类指标以及 BLEU, ROUGE 之类机制,但似乎都要有参考文本。而且现实中 AI 服务非常多样,不知道是不是都适用。
所以目前针对 AI 服务降低质量,在合同条款上有什么好的、易于举证的防范方法吗?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.