用 GPT4 翻译电子书的体验

172 天前
 Alicewish

继之前测试过用 GPT4O 阅读其他语种的漫画且效果还不错后,就考虑用 GPT4 进行英文电子书翻译了。为节约成本并提高可读性,使用网页版,也就是 3 小时限额 40 条的版本。之前没这么干是因为我经常要用 GPT4 改代码,不能消耗大量额度让自己要用的时候用不了,但既然 GPT4O 出来了且是分别计算额度的,就算 GPT4 额度用光也能暂时用 GPT4O 。

目前翻译了两本悬疑小说,三本教程类书籍,一本学术类书籍,一本神话类书籍。

流程是这样的:

  1. 提取电子书中的 html 类文件。
  2. 提取所有段落标签和标题标签。
  3. 先用谷歌翻译做一遍机翻,方便出 bug 时排查问题。
  4. 对提取的英文进行切分,保持每段切分在 2000 字符左右,总共会有 150 ~ 300 段切分。
  5. 每 3 小时进行 40 次提问。
  6. 完成提问并检查后打包成中文电子书。

所以一本书大概要翻译一两天。

目前遇到的问题:

  1. 受限于网络状况,回答不时出错或中断,使得自动化脚本半失效,需要经常人工检查。
  2. 审查很严重,连亲吻都会被屏蔽。这些部分需要手动处理。
  3. 会出现一些奇怪的 bug ,比如把 1990 年翻译成 1980 年,我刷了 4 遍才出来正确的 1990 年。
  4. 即便在同一对话中,人名也经常不能保持一致,且有时候人名会不翻译。
  5. GPT 有时候会把相邻的两段翻译成一段。
  6. 对于超长段落,没翻译完就停止,刷新依然如此。
  7. 有一些电子书里有大量的 a 标签,尤其是脚注多的书籍,很难处理。
  8. 翻译后的文本可能会丢失一部分标签,比如 a 标签和 span 标签。

我不想发布未经人工校对的电子书的下载版,避免错误越传越广,但在不同平台尝试发长图结果大部分都被屏蔽了。目前考虑将全书内容做成一个带目录的长网页,找个地方放,方便我自己修改和管理可读性,但这又要费一番功夫了。

我自己感兴趣的书主要是侦探、科幻、各领域历史、计算机这些类别的,之前因为看英文书太累了,好多书虽然买了却只看了一部分。

2398 次点击
所在节点    分享创造
25 条回复
OWLS
170 天前
不断尝试,不断改进,之后你就是这方面的专家了。
abcl8023y
168 天前
直接用沉浸式翻译插件制作双语电子书就好了,3.5 翻译得还可以
Alicewish
168 天前
@abcl8023y 3.5 离我的需求差比较多,我最终是希望人工校对后发布翻译版的,没必要用 3.5 当底稿增加自己校对的工作量。
BQsummer
167 天前
题外话,推荐个今天刷到的吴恩达的翻译 agent ,https://github.com/andrewyng/translation-agent
snylonue
166 天前
https://github.com/ShenSheiBot/ebook-gpt-translator

一个群友做的翻译工具,用过一次感觉挺好的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1047838

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX