https://mp.weixin.qq.com/s/fZLibqedhrAUOpdyl0c4Ow
这个 Demo 演示的大致处理流程是这样的:
非常感谢大家能点进来看,有想法可以指导我一下就更好了
1
dier 318 天前
我把视频看了一遍,我发现你理解的流程其实跟视频中有偏差。
你理解的流程第三步是上传了多个文件进行训练,但我看视频中并没有上传多个文件用来进行训练。 我甚至都怀疑语音讲解中提到的所谓“自动训练”只不过是他们的话术。可能这个加载的过程只是后台在基于前面框选的位置自动生成 OCR 识别后的处理脚本或程序。 因为文件内容格式基本一致,所以第一份标识完成之后,后面所有的文件都可以套用前面“自动训练”的程序来识别。 以上我的看法都是我根据视频内容推断的。不对准确性做保证 |
2
SuperMaskv OP @dier #1 非常感谢你看完了这个视频。
我为什么说有训练的过程是因为这些文档大多是扫描出来的,数据质量受到扫描的影响,可能会有旋转,偏移之类的问题。我查了一些资料,是不是可以用目标检测来定位,训练数据的话从用户标注的这一份通过平移旋转来增广,不知道这样可不可行。 |
3
dier 317 天前
@SuperMaskv 我不是 OCR 识别方面的技术人员,但我用过这种产品,之前用阿里云的车辆 VIN 码识别 OCR 时,我就发现照片中的内容不论是平、竖、斜。都可以识别,只要图片篇幅不是大得离谱,它也能在较大范围的图片中成功识别出其中的 VIN 码。所以这种识别算法肯定对选取的范围也会做一定的调整,用于适应扫描过程中纸张位置不固定导致的偏移。就像人在框选时一样,不会精确到字符的边缘,而是会尽量框大一点。
|
4
SuperMaskv OP @dier #3 铭牌这一类的会有一些图像的预处理来定位,比如膨胀拉伸定位边框,我现在的场景不只是表格而已,这些方法不太适用。
|