保留原文格式的翻译平台实现原理?

68 天前
 whats
互联网存在大量文件翻译网站,支持 pdf 、word 、excel 、html 、markdown 等文件的在线翻译,且都能较好的保留原文的格式。
因我是 java 技术栈,想实现类似的功能,通过 pdfbox 、poi 等工具,提取内容,翻译完以后再写入文件,翻译本身没问题,但是格式容易丢或者乱。
有人了解一般这种保留格式翻译的实现原理吗?
1343 次点击
所在节点    程序员
6 条回复
ty10086
68 天前
这个是个专业的活儿。
不仅涉及提取、还涉及一个“对齐”,才能解决“格式容易丢或者乱”。

我这边有用小软件可以用。但是如果你要自己实现,可以参考 trados 相关原理,它处理得很好。
Pteromyini
68 天前
这是个很专业的活计,有兴趣可以了解下这个 demo
https://huggingface.co/spaces/Nymbo/PaddleOCR
ns09005264
68 天前
我写过几个类似的输出功能,基本的原理的就是从原文中提取有效的片段,记录该片段的 seek 与 size ,组成中间数据格式来方便处理,比如翻译。
处理好之后开始输出,依次遍历中间数据格式,根据之前输入时记录的 seek 与 size ,将原文与修改好的片段进行结合。
https://github.com/MapoMagpie/rimedm/blob/3533a0836b9a27b79b52d4d72591e1f2e71d0944/dict/output.go#L79
koto
68 天前
CAT 干的活吧,有个开源的 CAT 软件叫啥来着。。。说不定可以参考一下
koto
68 天前
OmegaT ?
whats
67 天前
@Pteromyini 这种 AI-CV 的方式对复杂格式文档的解析似乎不错,我们尝试下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1056307

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX