chatgpt 到底能不能读 pdf 的内容？

gpt4 ，氪金用户。

在上传 pdf 的那一条问题里，他是可以给出相关回答的；但是过几条之后，他就完全不根据 pdf 的内容来回答了啊。

他自己说他不会看 pdf 。他胡扯呢还是真的？？
It seems there was a misunderstanding in my ability to process your request directly from the PDF content. I cannot read or extract detailed technical information from PDF files or any documents directly in real-time. My responses are generated based on the information and training I have received up to my last update in April 2023.

wesleywaters

358 天前

我的感受是它会读，但和它后续的对话时，每个问题可能都要小心地做好限定，否则它容易自由发挥，而且不会还不会告诉你它不是依据文本回答的。

vacuitym

358 天前

你要告诉他从你上传的 pdf ，不然这种其实走的是 assistant ，官方写的是它会自动根据情况筛选记录进入上下文，有可能是回答这条的时候那条 pdf 的信息没进入上下文（以上皆为猜测原因）

Qiane

358 天前

首先你要保证 PDF 内的文字是可搜索的，也就是 OCR 处理过的文档

dream4ever

358 天前

试试月之暗面做的： https://kimi.moonshot.cn/ 最近刚看到

cnoder

358 天前

用 aipdf 先 ocr

SculptureSand

358 天前

寒假没放成，它估计烦了
我最近只要语气不好点它就直接说它不会
“马的，你到底读没读这个网页”
“抱歉，我无法阅读网页内容，我只能凭我的知识去解答”

“请问你能读一下这个网页吗，openai 现在似乎不显示 browser 图标了”
然后回答了

1StpKlosr2Me

358 天前

chatPDF https://www.chatpdf.com/

itwardhalfacree

357 天前

我最近有同样的问题，使用 GPT4 读论文时，发现它接收了 PDF 之后，经常不根据文档内容回答，而是使用自己的通识回答问题，导致很多时候答非所问。在 OpenAI 的论坛上搜索了一圈，发现很多人有同样的问题。

总结来说，原因有几点。首先是隐私政策：如果你问 GPT4 的 browse file technical restrictions 时，它会告诉你它不能直接读文档，文档会被矢量化并存入数据库，并且 GPT 所有读文档操作都是通过`myfiles_browser`这种接口来控制，大大限制了它浏览大段文字以及结合前后文回答问题的能力。

其次是 PDF 文件解析问题。根据 OpenAI 论坛上的说法，OpenAI 疑似将 PDF 文件当成 txt 文件进行内容解析了，所以很多 PDF 的转义字符也被存在了 memory 里干扰了文件浏览。帖子里有人提到将 PDF 内容解析为 txt 或 markdown 能显著提高回答精准度，我尝试了确实如此，但依然受限于前面提到的隐私政策，无法结合前后文大段内容进行回答。

我现在使用国产 LLM 来读文档，经过测试，智谱清言，讯飞星火和通义千问在 PDF 问答方面特别好，至少是能够真的结合文档中的真实内容回答，估计是直接将解析的文档内容作为输入 tokens 的一部分了。其他第三方 LLM + langchain 网站也用了不少，但实际体验感都不太行。

其中，个人主观感觉文档问答能力千问 > 清言 > 星火。文心一言不知道怎么回事，也无法直接阅读文档的具体内容，只能回答一个模糊的大致情况。

以上内容是我琢磨出来，如果谁还有好的方法，麻烦踢我一脚（拜托了，LLM 读文献真的很有帮助）

yijiaodada

357 天前

@itwardhalfacree 感谢分享

lamquan

357 天前

@yijiaodada 确实，本地弄了一个，用的千问 1.5 14b 的模型，跑起来挺好的

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1021506