基于 chatGPT 的文章阅读助手 # myGPTReader

2023-03-12 22:02:02 +08:00
 bmpidev2019

开源地址: https://github.com/madawei2699/myGPTReader

背景: https://twitter.com/madawei2699/status/1632246398308724737

花了几天时间开发了基于 gpt_index 与 chatGPT 的 slack bot ,功能就如这个帖子里展示的,只不过是在 slack 中交互。如果想体验的话可以加入这个 slack channel: https://join.slack.com/t/bmpidev/shared_invite/zt-1r38f90n5-bOp~RZqoMYiYMOtmKZsbcw

目前实现的功能:

  1. 可发送多个链接(支持普通页面与 RSS 链接),让 chatGPT 基于这些文章内容进行总结、分析处理;
  2. 会自动对链接进行爬取,如果常规爬取不了的站点会启用无头浏览器代理爬取;
  3. slack bot 会自动在问题下的 thread 内异步回复答案;
  4. 不包含链接的内容直接发给 chatGPT 处理;

未来的进一步规划:

  1. 定时自动总结每日订阅的邮件列表或文章信息源;
  2. 支持多种 prompt 模版做自定义的调优;
  3. 可能会支持语音交互;

彩蛋:此项目是与 chatGPT 一块结对开发的,我把交互的 prompt 过程也记录下来了,感兴趣的可围观: https://github.com/madawei2699/myGPTReader/blob/main/docs/chatGPT/CDDR.md

6090 次点击
所在节点    分享创造
43 条回复
gogogo1203
2023-03-14 11:21:50 +08:00
@lovestudykid 针对开源库 doc 用 chatgpt 来做应答, 现在最主流的方式。1. 把所有 doc 用 chatgpt 转化成 pgvector, 存到数据库。2. 用户搜索 query ,用 chatgpt 转化成 pgvector. 3. 用 chatgpt 返回的 query vector 在数据库里搜索相似 4. 把相关的内容作为 context 上传到 chatgpt.
lovestudykid
2023-03-14 11:27:13 +08:00
@gogogo1203 这种我了解过,看了下文档,的确还是这样的方式。更好的方式应该是用自己的数据做一下 fine tune 吧
gogogo1203
2023-03-14 14:25:27 +08:00
相关性自己可以调啊. 给 AI 喂什么, 以什么 prompt 来喂,出什么结果,AI 给的结果怎么提纯再给到用户。 这些都是 prompt engineers 需要做的事。
NeedforV2
2023-03-14 14:44:37 +08:00
有些牛 B
hyperzlib
2023-03-14 16:14:33 +08:00
@gogogo1203 补充一下,elasticsearch 也适合用来做句向量索引
bmpidev2019
2023-03-23 10:51:41 +08:00
最近更新了一大波功能,见附言更新👆
metalvest
2023-03-23 13:04:54 +08:00
好像爬取链接的时候钻得不够深


@myGPTReader
http://www.livingneighborhoods.org/ 请用中文讲解这个网站中有关土地诊断的部分

抱歉,我只能使用英语进行回答。该网站的土地诊断部分提供了一些工具和资源,帮助人们评估和改善他们所居住的社区的土地使用情况。这些工具包括土地利用调查表、土地利用图、土地利用规划和设计指南等。此外,该网站还提供了一些案例研究和实践经验,以帮助人们更好地理解和应用土地诊断的概念和方法。总之,该网站旨在促进可持续的社区发展和土地利用规划。


@myGPTReader
http://www.livingneighborhoods.org/packets/diagnosis-phase.htm 请用中文总结这个网页

这个网页介绍了一个建立社区的生成代码,强调了维护整体性和修复受损地区的重要性。第二阶段是对土地的诊断,包括寻找整体性、介绍诊断概念、识别整体结构、发现宝贵的地方、修复受损空间、识别中心和潜在中心等。通过精确地记录和定位这些地方,可以为建立新的整体性社区奠定基础。该网页还提供了开发者的信息和理论背景。


给网站首页,然后问里面的内容给出的回答和给里面链接的网页得到的回答完全不一样
bmpidev2019
2023-03-23 14:20:16 +08:00
@metalvest 对某些网页来说可能有这个问题,但爬多级页面也有成本方面的考虑
goodniuniu
2023-03-23 15:12:14 +08:00
此链接不再有效
要加入此工作区,你需要向最初邀请你的人员请求一个新链接。
psyer
2023-03-23 16:48:47 +08:00
starred
bmpidev2019
2023-03-24 08:48:59 +08:00
@goodniuniu 更新了,看 append
m4d3bug
2023-03-24 10:28:15 +08:00
老实说我没懂怎么部署,请大佬明示
haoxuexiaoyao
2023-03-24 10:54:26 +08:00
LuXiaoR
2023-03-24 11:00:46 +08:00
有权限问题,作者怎么才能开通呢
bmpidev2019
2023-03-24 12:41:38 +08:00
@goodniuniu 链接已更新,还是之前的链接,但是重定向到最新的了
bmpidev2019
2023-03-24 12:41:52 +08:00
@haoxuexiaoyao 重新试试
bmpidev2019
2023-03-24 12:42:18 +08:00
@m4d3bug 周末 YouTube 直播演示,文档没时间细写
bmpidev2019
2023-03-24 12:43:02 +08:00
@LuXiaoR 看 channel 里置顶有介绍,在申请 channel 里去找 bot 申请,自动下放权限
goodniuniu
2023-03-24 16:09:08 +08:00
@bmpidev2019 加入了,谢谢。彩蛋内容很精彩,谢谢分享。请问如何申请开通 PDF 阅读分析功能呢?
bmpidev2019
2023-03-24 16:40:18 +08:00
@goodniuniu slack channel 置顶有申请方式,找 bot 自动给权限

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/923438

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX