想请教一下各位,这个 Demo 展示的文档理解的功能是怎么实现的?

361 天前
 SuperMaskv

Demo

https://mp.weixin.qq.com/s/fZLibqedhrAUOpdyl0c4Ow

Demo 流程

这个 Demo 演示的大致处理流程是这样的:

  1. 先上传一份 demo 文件
  2. 完成一次框选,著录操作
  3. 上传一堆文件进行模型训练
  4. 后续上传的文件就可以自动著录了

疑问

  1. 对于这种固定版式的文档,是不是固定的文本框 bbox+OCR 就可以完成这样效果,为什么要加入机器学习的步骤呢?
  2. 如果机器学习的步骤可以帮助定位关键信息的位置,这个是用什么算法实现的?
  3. 为什么只标注一份就可以进行机器学习,有什么数据增广之类的技巧吗?

非常感谢大家能点进来看,有想法可以指导我一下就更好了

831 次点击
所在节点    机器学习
4 条回复
dier
361 天前
我把视频看了一遍,我发现你理解的流程其实跟视频中有偏差。
你理解的流程第三步是上传了多个文件进行训练,但我看视频中并没有上传多个文件用来进行训练。
我甚至都怀疑语音讲解中提到的所谓“自动训练”只不过是他们的话术。可能这个加载的过程只是后台在基于前面框选的位置自动生成 OCR 识别后的处理脚本或程序。
因为文件内容格式基本一致,所以第一份标识完成之后,后面所有的文件都可以套用前面“自动训练”的程序来识别。

以上我的看法都是我根据视频内容推断的。不对准确性做保证
SuperMaskv
360 天前
@dier #1 非常感谢你看完了这个视频。
我为什么说有训练的过程是因为这些文档大多是扫描出来的,数据质量受到扫描的影响,可能会有旋转,偏移之类的问题。我查了一些资料,是不是可以用目标检测来定位,训练数据的话从用户标注的这一份通过平移旋转来增广,不知道这样可不可行。
dier
360 天前
@SuperMaskv 我不是 OCR 识别方面的技术人员,但我用过这种产品,之前用阿里云的车辆 VIN 码识别 OCR 时,我就发现照片中的内容不论是平、竖、斜。都可以识别,只要图片篇幅不是大得离谱,它也能在较大范围的图片中成功识别出其中的 VIN 码。所以这种识别算法肯定对选取的范围也会做一定的调整,用于适应扫描过程中纸张位置不固定导致的偏移。就像人在框选时一样,不会精确到字符的边缘,而是会尽量框大一点。
SuperMaskv
360 天前
@dier #3 铭牌这一类的会有一些图像的预处理来定位,比如膨胀拉伸定位边框,我现在的场景不只是表格而已,这些方法不太适用。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1006775

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX