V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
Iamnotfish
V2EX  ›  问与答

Python 有什么脚本可以爬 PDF 的吗?

  •  
  •   Iamnotfish · Dec 19, 2019 · 2563 views
    This topic created in 2321 days ago, the information mentioned may be changed or developed.
    GOOGLE 查了一下,大概都是推荐 PYPDF2+SCAPY 的方法,有前辈试过吗?我看 PYPDF2 那个项目原作者早就不维护了。或者还有什么别的方法可以爬 PDF 吗?求指教不胜感激!
    2 replies    2019-12-19 08:10:59 +08:00
    binux
        1
    binux  
       Dec 19, 2019
    PDF 最近十年有什么变化吗?
    你需要担心的不是库而是文字定位和扫描件
    zeromake
        2
    zeromake  
       Dec 19, 2019 via Android
    https://github.com/pikepdf/pikepdf 如果说是 pdf 解析库可以考虑用这个
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5450 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 77ms · UTC 09:31 · PVG 17:31 · LAX 02:31 · JFK 05:31
    ♥ Do have faith in what you're doing.