用 chatgpt api 进行多轮对话，如何节约 token？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 856 天前的主题，其中的信息可能已经有所发展或是发生改变。

多轮对话的时候，聊的越多后面每次对话传的字数越多，很费 token 。
有可能每次只传上一轮对话 id 和新对话来节省 token 么？
https://platform.openai.com/docs/api-reference/chat/create

token

对话

来节省

ChatGPT

10 条回复 • 2023-05-11 15:23:52 +08:00

lzgshsj

2023-05-10 13:33:07 +08:00

呃，不知从何吐槽。。。
假设真的实现可以传 id 的话，那 openai 还要从数据库里调出 id 对应的对话，然后在后端把对话加入上下文中，不还是要算进 token 吗。
目前来看，比较可行的还是用 embedding 的方式压缩提炼上下文来一定程度上保留更长对话。

iyiluo

2023-05-10 13:38:33 +08:00

和大模型的推算成本有关，上下文越长，推算的成本越大，这部分成本肯定要用户来承担。

foveal

2023-05-10 13:58:08 +08:00

@iyiluo 有点好奇，在网页上使用 chatgpt 也是聊天记录越长，每次对话费用越高么（很多人可能习惯一个网页 chat 里面聊很长很长）？
另外我理解推算成本大概是字数的平方？ openai 为啥按照字数来收费？
gpt4 甚至输入和输出字的成本都不同，纯粹是商业定价还是有成本架构原因？

yushiro

2023-05-10 14:17:33 +08:00 via iPhone

你觉得是架构设计的原因，OpenAI 目前的行为，看上去是用的无状态请求，服务器端处理的时候，不需要知道你是谁，只是根据你的输入进行处理，这样做的好处是省去了很多同步，并发问题。
特别是应对服务器资源自动缩放的时候，完全没影响，否则处理你请求的服务器，还需要去访问中央数据库，拿到你的信息再处理，那瓶颈就是中央数据库了