关于使用 AI 和本地大模型总结聊天记录的办法

近两年 AI 和大模型很火热，我对此则完全属于门外汉，只是用过一些 openAI 的镜像站还有一些国内的大模型，今天用钉钉的时候试着用自带的 AI 让它帮我写下周报，发现效果还行，感觉它是把我自己在钉钉写的文档和表格一类的做了些总结，然后输出，惊叹之余不免又有点心惊的感觉，毕竟数据全在它的后台上，它根据你输出的内容做了训练之类的，然后才能总结果出来，也就是说你产生的内容对它是全透明的；

后来又听说了一些本地大模型的东西，它运行在本地，从安全性来说不会往别的地方传输你的数据，这就让人比较放心了，当然本地的性能肯定是没法和服务器相比，所以跑一些小模型应该没问题，由此正好又有了一个想法，就是能不能把多年来的聊天记录灌输到大模型里然后让它做一个总结，我想应该是可行的

首先聊天记录属于隐私数据，在本地跑比较合适，可能别的 AI 它也能帮你总结，但是你得把数据给别人
然后聊天记录基本都是文本数据，总量来说并不大，本地机器性能应该足够

根据上面这两点判断让我感觉应该可以实现我的想法，初期要求能通过大模型输入我的聊天记录后，它进行处理，最后我可以问它问题，比如帮我总结下我和谁谁谁的聊天记录，然后它进行输出；如果有这个功能就非常好了，有些人可能很久没联系，忘了以前聊过些什么，不用回去翻聊天记录，总的聊天记录有十年多了，包含个人和群聊的，QQ 和微信的，之前用过词云进行分析，但结果不佳

有了想法后，现在的问题就是怎么实现，应该用什么大模型合适，我对此完全不懂，希望对此有了解的大佬能指条路或者步骤，尽量可以简单实现，我也可以学习一些相关的资料，当然不要直接说先从微积分和线性回归之类的学起，我只是想实现功能然后使用，不是深入研究和开发 AI

meeop

104 天前

没那么复杂：
1 导出聊天记录（纯文本）
2 随便找一个大模型，claude 上下文 200k ，国内好像有上下文 1m 的
3 把聊天记录塞给大模型，然后问他
请帮我总结我和 xx 的聊天记录，要求如下。。。

就完事了

现在 ai 模型上下文很长，你日常聊天记录很可能都没有 200k
如果超过了，可以适当清洗数据，比如让 ai 帮你写一个清洗数据的脚本“请帮我写一个脚本，将聊天记录拆分成每个人的对话一个文件，示例数据如下。。。”
然后转换问题为大模型上下文能容纳的量级

clino

103 天前

如果是 RAG ，那么相关性的检索是由 embedding 和向量数据库来完成的，然后 LLM 的功能是对搜索到的功能进行总结回答，这里效果好不好要看 embedding 那部分好不好，而主要不是由 LLM 来决定的，当然现在 RAG 经过很多迭代发展出来很多做法比如向量检索和全文检索相结合之类的
如果不用 RAG ，那就要用上面说的超长上下文的做法，这种成本可能也不低，而且一般也不是本地开源 LLM 能搞定的，需要比较强的硬件

mdb

97 天前

@xiaokangz 兄弟确实和你说的一样，普通的 RAG 对全局性的问题回答不好，我试了下用 maxkb 做了下测试，我上传的聊天记录被分成一百多个片段，然后想让它给我总结所有的聊天记录，结果输出的内容却好像是某个小片段的内容，而不是所有的，比如我全部聊天记录是从 2015 年到 2023 年的，但我问它最早的聊在日期和最晚的日期是什么，结果给出的回答是 2016 年某一天的，总感觉这个时间段外的记录没被它读到一样，这个问题后面我再研究下 LightRAG 和 GraphRAG 看看