爱意满满的作品展示区。
LuliYanng

做了一个能高质量翻译扫描 pdf 的产品

  •  
  •   LuliYanng · 15h 29m ago · 650 views
    楼主最近做了一个 pdf 翻译的产品,主要专注在做扫描件、图片 pdf 的翻译以及版式保持,具体的效果可以见下图。现在还在项目初期,欢迎感兴趣的朋友尝试: https://tryreglyph.com/



    Supplement 1  ·  4h 36m ago
    补充一下中翻英的 pdf 翻译效果,这个经典 pdf 大家应该可以理解扫描版 pdf 的含义了,找了这个相对复杂一点的做演示,我把效果好的页面和不好的页面都放上来,可以看清楚目前的效果😊




    7 replies    2026-06-30 13:46:42 +08:00
    xinyu391
        1
    xinyu391  
       6h 13m ago
    中翻英呢? 文字会很小很挤。
    最佳的翻译应该抛弃原来的页面限制。
    TrackBack
        2
    TrackBack  
       5h 28m ago
    这类产品很多了,你的独特优势是什么?
    从效果图没看出比开源的 pdfmathtranslate 好在哪里,定价也很贵,还是按页收
    LuliYanng
        3
    LuliYanng  
    OP
       4h 45m ago
    @xinyu391 重排当然是最能在翻译之后克服语言之间的长度差异并且保持美观的,不过保持原来的页面观感也是不小的需求 这部分就看各自的需求了 我这个产品主要就是想尽可能保持原有版面
    needpp
        4
    needpp  
       4h 43m ago
    实现原理是什么? 会上传到服务器吗
    LuliYanng
        5
    LuliYanng  
    OP
       4h 39m ago
    @TrackBack pdf 翻译的产品确实是很多的,不过这里会分两个情况 一种是 pdf 内本身就包含文字(数字版的 pdf ),并且可以被读取出来并且改写回 pdf 的,这部分现在很多产品都在做了;但是还有另外一种就是扫描版的 pdf ,这种本身就是图片来的,没有文本信息可以读取跟改写回去,这种 pdf 的翻译目前其实都没有做得比较好的。楼主也是在尽可能把这个部分的做好并且产品化。

    开源的 pdfmathtranslate 只能翻译我上面说的前一种数字版的 pdf ,目前他们也还是不支持扫描版的(可以看目前依然 open 的 issue: https://github.com/PDFMathTranslate/PDFMathTranslate/issues/19 )。扫描件 pdf 的翻译收费是比较贵的,因为涉及 ocr 和图像处理,相比于数字版的 pdf ,需要的处理和算力都比较高。
    LuliYanng
        6
    LuliYanng  
    OP
       4h 34m ago
    @needpp 实现方式就是 ocr 和图像还原。会上传到服务器处理的,24h 自动删除。
    lozzow
        7
    lozzow  
       1h 52m ago
    哈哈哈哈,和我搞 pdf 的时候用的是同一本同济大学线性代数,不过我是做的编辑器,也是走 ocr,哈哈哈,思路是差不多的,只不过你做了翻译我做了编辑(覆盖的方式)
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5455 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 46ms · UTC 07:39 · PVG 15:39 · LAX 00:39 · JFK 03:39
    ♥ Do have faith in what you're doing.