V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
zeroze
V2EX  ›  问与答

想提取英文书籍 pdf、mobi 和 epub 中的目录(table of contents)的结构和内容有什么好的方法或现成的工具吗?

  •  
  •   zeroze · 2019-05-10 10:39:20 +08:00 via iPhone · 1409 次点击
    这是一个创建于 2022 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想提取目录内容请问有什么好的方法?工具?
    求大佬明示?

    5 条回复    2019-07-15 16:36:14 +08:00
    colewp
        1
    colewp  
       2019-05-10 12:27:41 +08:00 via iPhone   ❤️ 2
    iText 或者 Apache PDFBox,之前毕设做过类似项目
    dsg001
        2
    dsg001  
       2019-05-10 12:31:54 +08:00   ❤️ 2
    以前用 python 写过,zipfile 打开 epub,lxml 解析 toc.ncx
    zeroze
        3
    zeroze  
    OP
       2019-05-10 12:51:53 +08:00 via iPhone
    @dsg001 准确度大致怎么样啊?有什么坑吗?
    dsg001
        4
    dsg001  
       2019-05-10 13:04:51 +08:00   ❤️ 1
    @zeroze 符合标准的 epub 无坑,偶尔有加密的无法读取,用 calibre 去除就行。
    zeroze
        5
    zeroze  
    OP
       2019-07-15 16:36:14 +08:00
    自己研究了下,比较好的方法貌似是使用 mupdf 自带工具 mutool,具体操作有 stackoverflow 的帖子,自行搜索下
    另外有坑 mutool 提取出来还需要洗
    编码是 utf16 的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1873 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 16:21 · PVG 00:21 · LAX 08:21 · JFK 11:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.