个人比较困惑的点
关于 openai 流请求中断后,客户端就不再接收新的 token ,但背后 AI 服务是结束了推理,还是继续推理,直到 done 呢?
chatgpt 进行测试的话,我发现点击停止生成,然后继续问,AI 反应很快,是可以重新推理的,所以像是直接结束了。如果不是立即结束,大量 AI 请求发出来,然后终止,再继续发新的,叠加的话,资源开销也太大了。
最近接国内某 AI 服务,沟通说是即使客户端停止了流请求,AI 推理还是继续,也就是消耗还是全量的 token 。所以好奇这是通病还是就我接入这 AI 服务的问题
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.