现在有什么好用的 OCR 吗?

2022-01-19 22:09:59 +08:00
 LeeReamond

搜了搜似乎谷歌的 tesseract 不错,但是感觉好像不是最新项目,感觉 cv 这些年进步应该也挺多的。有什么好用的开源或者免费项目吗?

想给自己做日文漫画翻译写个划词小工具

3179 次点击
所在节点    问与答
15 条回复
mineralsalt
2022-01-19 22:20:20 +08:00
Bob
omtow
2022-01-19 22:33:46 +08:00
paddleocr
ClericPy
2022-01-20 00:10:33 +08:00
https://github.com/vinta/awesome-python 里的 OCR, 不过我都没用过, 有的还得自己训练嫌麻烦, 只偶尔用过百度上的 sdk

2 楼那个挺火的
ynyounuo
2022-01-20 00:28:50 +08:00
日语漫画 OCR 我在用的一个 app KantanManga 里用的还是 tesseract 感觉还行吧,项目老但是有活跃维护就没啥问题吧

要更准确还是得用大公司的 API ,GCP Vision 和 AWS Textract 之类的
caryRowen
2022-01-20 00:49:05 +08:00
Paddle ocr 挺好的 正琢磨着编译个来用
retrocode
2022-01-20 06:01:36 +08:00
个人用的话 我是建议直接用阿里云或者腾讯百度云的文字识别服务,免费额度没有 1000 次基本都用了, 不要指望 tesseract 这种开源识别库, 识别率感人尤其你还是识别漫画文字, 最后还得自己训练模型.
我之前折腾过,当时单纯就是用来识别数字和时间, 模型训练的我吐了, 最后识别率也只有 80%左右,每条识别完后都得手动校准下确认结果,太痛苦了.
jifengg
2022-01-20 08:49:10 +08:00
pearocr.com
他虽然是个网站,但识别都是在浏览器本地执行的,模型加载到浏览器本地了。
简单修改一下可以在 node 里不依赖浏览器运行。
我改过可以正常使用,作者没开源所以我也不好公开我的代码。
Tomorrowxxy
2022-01-20 09:06:31 +08:00
@jifengg 求分享
anzu
2022-01-20 10:17:57 +08:00
按照现有技术漫画汉化基本可以做到自动化,场景文字检测、自动翻译、自动嵌字,最后人工校对一下。我记得好像有类似的工具。
lizytalk
2022-01-20 13:16:46 +08:00
ddddocr
LeeReamond
2022-01-20 15:16:07 +08:00
@omtow 似乎是个国产的项目,试了一下在电脑上调用 ocr 直接闪退,且无任何错误提示,我的电脑是 win 平台,只能说令人咋舌
sml2h3
2022-01-20 17:12:09 +08:00
chunchu
2022-01-20 22:51:45 +08:00
OCR.space
c4tn
2022-04-02 22:54:52 +08:00
@jifengg 求分享
Jamy
2022-09-30 11:32:15 +08:00
@jifengg 求分享

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/829334

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX