我用 Deepseek OCR 做了一款图片翻译神器

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

最近 Deepseek OCR 很火，刚刚开源了他们最新的 OCR 识别技术，即刻集成来做了一个图片识别工具体验了一下，识别效果杠杠的，以下是我的技术实现方案:
简单来说，整个过程只需要 3 步:

1️⃣ 识别文字
调用 Deepseek OCR 将图片里的文字识别出来

2️⃣ AI 翻译
将识别结果交给 AI 大模型，比如 Deeepseek 本身以及豆包大模型或者任意的 AI 模型均可进行翻译

3️⃣ 将文字进行润色后重新粘贴会选位置
这是很关键的一步，如果处理不好就无法很好的还原文字的位置。具体如下:
首先要将图片的逻辑分区(例如一张海报分标题，正文，按钮文案等)
然后将每个分区整体作为一段交给 AI 去翻译，并指定提示词让 AI 翻译的更地道

4️⃣ 润色阶段
因为中文或者其他语言长度不同于英文，所以需要计算每段文字宽度比例，尽可能的避免超出原框。

5️⃣ 文本回填与图像重绘
这个主要是把翻译后的文字重新绘制到图片原位置。怎么实现呢？一般有两种方案:
方式一：传统图像绘制（常见方案）
使用图像处理库重新渲染翻译文字。
• Node.js：canvas / sharp / jimp
• Python：Pillow / OpenCV

✅ 方式二：AI 图像修复 + 文本重构（高级方案）
用于复杂背景、渐变、阴影、艺术字体的场景。

流程：
1. 用 OCR 坐标擦除原文字区域（生成 mask ）
2. 用 Inpainting 模型（如 SDXL Inpaint 、BrushNet 、GLIGEN ）修复背景
3. 再用绘制模块叠加译文文本
优点：背景无痕、视觉一致。
缺点：算力需求高、处理时间更长。

最后，奉上我的应用整体架构:
前端 : Nextjs + React + tailwindcss + shadcnui
后端 : FastAPI + Python + Honojs + cloudflare worker + postgresql + redis + Pillow + Sharp + 各大厂商大模型
第三方服务: resend 邮件服务 + 火山引擎对象存储 + 腾讯云 EdgeOne

以上就是我的应用的所有技术实现方案，基本上这些服务都有免费额度，除了服务器和域名需要花点钱，其它基本上前期都不会产生费用，可以说算是一个合格的"开发者穷鬼套餐"了[笑哭 R]
最后欢迎大家来体验这个工具，一起探索 AI 技术带给我们工作效率的全新体验[派对 R]

Deepseek OCR

AI翻译

图像重绘

1 条回复

x13945

1 天前

产品在哪里，怎么体验呢？