CRNN 模型的大佬们请进。。。

2020-01-06 18:16:49 +08:00
 heyhumor

最近在做基于 CRNN 模型的 OCR 识别引擎,做的是日语的识别,语料来自要处理的汽车行业数据。过程比较顺利,用自动生成的 100w 数据集进行训练,验证集也有 98%以上的正确率。但是在实际材料中表现不佳,错误比较多。模型的泛化用了 8 种字体,10 种背景以及模糊,倾斜和一些随机噪声。实际选取测试的材料清晰度也很高,不存在没有对应字体,清晰度低这类问题。想请教一下还有其他的什么原因导致实际场景印刷体识别效果差呢?

1703 次点击
所在节点    机器学习
2 条回复
csuyzt
2020-06-13 16:28:46 +08:00
生成的数据与实际数据像么?自动生成的大概逻辑是怎样的?
heyhumor
2020-06-19 09:54:14 +08:00
@csuyzt 谢谢回复,确实是泛化没做好。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/635557

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX