求倾斜汉字 ocr 识别方案

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 537 天前的主题，其中的信息可能已经有所发展或是发生改变。

单个汉字左或右倾斜无法识别或错误识别，列出用过的方案：
1. 阿里云腾讯云百度云 API 接口方式 OCR
2. Tesseract-OCR 原生或自训练数据集
3. 百度 paddlepaddle PP-OCRv4
4. python dataset 自训练数据集
--
以上方案汉字右倾斜识别成功率较高，左倾斜识别较差。
自训练数据集：通过将单一汉字图片旋转不同角度打标签方式训练，本身汉字图片较小，也许是这个原因无法训练出正确的数据集。
--
目前方案：
灰度二值化后将图片顺逆向分别+－ 2 度旋转 20 次，得到生成后的 40 张图片，手搓 Hough 直线检测算法，筛选出投票得分最多的图片，最后通过 paddlepaddle PP-OCRv4 进行识别，成功率 70%，4h8g 耗时 4-6 秒。
--
求助大神：
目前是否有专门针对倾斜汉字 OCR 的场景模型，通过打标签训练数据集的也行。

倾斜

OCR

识别

4 条回复 • 2024-08-27 11:06:36 +08:00

zsj1029

2024 年 8 月 27 日

手动的话
先用夸克扫描王处理成平面去杂
然后再用 ocr ，识别率就非常高了

rming

2024 年 8 月 27 日

直接用公开数据集在训练中做数据增强，在 ppocrv4 基础上做迁移学习就行，自己标注意义不大，除非是字典里没有的汉字
公开数据集的话首先就规避掉了自己搞数据集的数据本身的问题
我隐约记得 ppocr 是有行高限制的，太小的图在训练时前会过滤掉，也可以用超分算法模型预处理那些小图片（但是感觉这个路子不太值得）
训练时候的预处理和预测的预处理要保持一致，也不太随便加，有时候不加反而效果更好

jason56

2024 年 8 月 27 日

@zsj1029 谢谢，我们自动化场景，用不了手动方案。

jason56

2024 年 8 月 27 日

@rming 之前我们只用了 ppocr 的 paddle_serving 方案，我们再试试增强方案，感谢。