简单折腾了一下 privateGPT

2023-05-18 09:23:30 +08:00
 fox0001

前几天看到 privateGPT 的新闻,立马就部署跑一下,但一直不成功。今天在 Mac Mini M1 上终于跑起来了。机器的内存是 16GB 。

总体感觉是高级 Solr 。能理解问题,但只是返回已索引的字符串。(“索引”一词可能用在 AI 方面不适当,但大家应该能理解)。就是相比 ChatGPT ,没有总结。但是,我只是简单地索引一个文档,然后进行查询。

然后就是,英文的效果好一点,中文几乎不能回答。可能要换个模型。github 上的 issue 有提到。

经过昨天的更新,索引速度很快,也大大降低了内存占用。但是回答问题的查询速度,慢很多,内存占用超过 12GB ( Mac mini 上显示的)。家里电脑因为内存不足而导致回答问题的进程挂掉。

项目地址 https://github.com/imartinez/privateGPT

以下是一些简单的实验结果:

  1. 只索引项目自带的文档。 - 问:How many states of America? - 答:The United States is a member among with 20 other nations. - 该答案在原文第 35 行(包含空行)

  2. 只索引《 SQL 必知必会.pdf 》 - 中文问使用 SQL 怎样删除数据,答非所问。 - 英文问 How to delete data with SQL ?能找到 DELETE 的介绍,但是整段英文。

  3. 只索引《第一次亲密接触.txt 》 - 中文问题都没能回答。例如:轻舞飞扬是男的还是女的?

2299 次点击
所在节点    分享发现
4 条回复
elmagnificogg
2023-05-18 09:43:30 +08:00
试了一下 PandaGPT ,直接读 PDF 返回问题答案和索引页,索引页会给好几个,其中有一个是正确的

但是回答问题还是好慢好慢,这效率,除非你文档超级多,单文档超级长,不然和自己手动搜一下关键词,还是慢很多的
elmagnificogg
2023-05-18 09:46:02 +08:00
PandaGPT 支持中文,但是回答一个问题估计时间都是 20s 以上

不知道 op 的 privateGPT 要多久

目前感觉这种效率是不如关键字本地直接搜索的,本地搜索加人工筛选都要不了 20s
fox0001
2023-05-18 10:41:41 +08:00
@elmagnificogg #2 这个 privateGPT 主要是本地部署和离线运行。回答问题也是很慢。
youthfire
2023-05-26 07:50:07 +08:00
我的 18 年 mbp ,16g 内存,回答一个问题超过了 10 分钟,质量也低。我 ingest 了两份普通 pdf 报价单,不超过 20 项。英文询问了其中某个件号的,乱糟糟给了整个报价表。这个效率基本上失去了实用性。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/940892

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX