1
mekingname 2022-04-25 10:57:16 +08:00 1
第二种方法不行。因为 OCR 会强行把一些长得像文字的图片给你识别成最相似的文字。所以你用 OCR ,总能从没有文字的图片中识别出文字。
|
2
ldyisbest 2022-04-25 11:20:14 +08:00
首先要明确一下,哪些是文字,哪些是图表。如果有样本的话,可以用神经网络试试
|
3
coderluan 2022-04-25 11:38:04 +08:00
楼主说的“图表”是什么意思?
如果就是说一般一样的图表,表格,本身就带字那种,那么可以考虑直接识别表格中的直线,有均匀直线的是图表,没有的是文字。 如果就是普通图片,也就是识别一张图表到底带不带文字,实际上还是 OCR ,但是你得自己想一些办法解决 1 楼说的问题。 |
4
tfdetang 2022-04-25 11:39:54 +08:00
如果是比较规整的表格也很容易识别,可以用连续边缘检测 (opencv canny edge )看是否存在非常长的连续线条。 或者更简单的用 X 、Y 轴的像素投影来识别是否存在表格。
当然如果会算法,用算法来区分那是更简单了,只要有人标注就行了 |
6
crab 2022-04-25 12:27:17 +08:00
|
7
ershierdu 2022-04-25 12:50:06 +08:00
第一种已经有点像神经网络了,训练过程类似于自动找阈值
|
10
bo233 2022-04-25 13:45:44 +08:00
有标签好的数据吗,有的话可以试试训个深度神经网络,估计 alexnet 或者 vgg 就能 work
|