以前经常遇到不知道如何处理 pdf 文件,分享下使用的一些工具
poppler-utils 包
sudo apt-get install -y poppler-utils
命令行 grep 工具
https://pdfgrep.org/
网页转换为文本工具
https://pdftotext.com/zh/
其中 poppler-utils 也支持 win/mac
poppler-utils 包
二进制
https://anaconda.org/conda-forge/poppler/files
https://github.com/oschwartz10612/poppler-windows/releases
源码
https://gitlab.freedesktop.org/poppler/poppler
windows 目录结构
C:
└ Program Files
└ poppler-0.68.0_x86
└ bin
└ include
└ lib
└ share
命令说明
* pdfdetach -- 列出或提取嵌入文件(附件)
* pdffonts -- 字体分析器
* pdfimages -- 图像提取器
* pdfinfo -- 文档信息
* pdfseparate -- 页面提取工具
* pdfsig -- 验证数字签名
* pdftocairo -- PDF 到 PNG/JPEG/PDF/PS/EPS/SVG 转换器使用 Cairo
* pdftohtml -- PDF 到 HTML 转换器
* pdftoppm -- PDF 到 PPM/PNG/JPEG 图像转换器
* pdftops -- PDF 到 PostScript (PS) 转换器
* pdftotext -- 文本提取
* pdfunite -- 文档合并工具
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.