首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX
›
翻译
我用 Deepseek OCR 做了一款图片翻译神器
devlrboyz
·
1 天前
· 190 次点击
最近 Deepseek OCR 很火,刚刚开源了他们最新的 OCR 识别技术,即刻集成来做了一个图片识别工具体验了一下,识别效果杠杠的,以下是我的技术实现方案:
简单来说,整个过程只需要 3 步:
1️⃣ 识别文字
调用 Deepseek OCR 将图片里的文字识别出来
2️⃣ AI 翻译
将识别结果交给 AI 大模型,比如 Deeepseek 本身以及豆包大模型或者任意的 AI 模型均可进行翻译
3️⃣ 将文字进行润色后重新粘贴会选位置
这是很关键的一步,如果处理不好就无法很好的还原文字的位置。具体如下:
首先要将图片的逻辑分区(例如一张海报分标题,正文,按钮文案等)
然后将每个分区整体作为一段交给 AI 去翻译,并指定提示词让 AI 翻译的更地道
4️⃣ 润色阶段
因为中文或者其他语言长度不同于英文,所以需要计算每段文字宽度比例,尽可能的避免超出原框。
5️⃣ 文本回填与图像重绘
这个主要是把翻译后的文字重新绘制到图片原位置。怎么实现呢?一般有两种方案:
方式一:传统图像绘制(常见方案)
使用图像处理库重新渲染翻译文字。
• Node.js:canvas / sharp / jimp
• Python:Pillow / OpenCV
✅ 方式二:AI 图像修复 + 文本重构(高级方案)
用于复杂背景、渐变、阴影、艺术字体的场景。
流程:
1. 用 OCR 坐标擦除原文字区域(生成 mask )
2. 用 Inpainting 模型(如 SDXL Inpaint 、BrushNet 、GLIGEN )修复背景
3. 再用绘制模块叠加译文文本
优点:背景无痕、视觉一致。
缺点:算力需求高、处理时间更长。
最后,奉上我的应用整体架构:
前端 : Nextjs + React + tailwindcss + shadcnui
后端 : FastAPI + Python + Honojs + cloudflare worker + postgresql + redis + Pillow + Sharp + 各大厂商大模型
第三方服务: resend 邮件服务 + 火山引擎对象存储 + 腾讯云 EdgeOne
以上就是我的应用的所有技术实现方案,基本上这些服务都有免费额度,除了服务器和域名需要花点钱,其它基本上前期都不会产生费用,可以说算是一个合格的"开发者穷鬼套餐"了[笑哭 R]
最后欢迎大家来体验这个工具,一起探索 AI 技术带给我们工作效率的全新体验[派对 R]
Deepseek OCR
AI翻译
图像重绘
1 条回复
1
x13945
1 天前
产品在哪里,怎么体验呢?
关于
·
帮助文档
·
自助推广系统
·
博客
·
API
·
FAQ
·
Solana
·
2397 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 20ms ·
UTC 11:37
·
PVG 19:37
·
LAX 04:37
·
JFK 07:37
♥ Do have faith in what you're doing.
❯