tesseract 的数字识别的问题

2019-02-02 23:33:24 +08:00
 woshichuanqilz

用的 python

这张图片识别成了 BS...

识别信息:

Tesseract Open Source OCR Engine v4.0.0.20181030 with Leptonica Warning: Invalid resolution 0 dpi. Using 70 instead. BS

版本:

$ D:\Tesseract-OCR\tesseract.exe -v tesseract v4.0.0.20181030 leptonica-1.76.0 libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.2.0

我已经尝试了, 把转换为 tiff 格式, 用 OpenCV 的 threshold 和 erosion 处理都不行, 我想 tesseract 的识别能力不至于这么差吧。。。 这个图片我觉得已经很简单了。

有那个老哥有相关的经验, 或者有什么其他的方法, 在线的 ocr 速度不行我这个最好还是本地的 OCR 比较好。 主要识别数字, 今天刚下载的 tesseract...

5364 次点击
所在节点    Python
7 条回复
diggerdu
2019-02-02 23:49:56 +08:00
不用 lstm 呢
realpg
2019-02-02 23:52:47 +08:00
这个图片你觉得很简单了

你到现在还没理解最基本的计算机和人的区别……
alvin666
2019-02-02 23:57:29 +08:00
炼丹吧少年
cjq8z
2019-02-03 00:04:17 +08:00
用下面语句,tesseract myimage.png stdout -c tessedit_char_whitelist=0123456789
whstarlit
2019-02-03 08:04:22 +08:00
tesseract 配置里改成只识别 0-9 数字,然后识别用 -psm 10
laqow
2019-02-03 09:34:24 +08:00
没下载好一点的训练文件,没指定 psm
nicevar
2019-02-03 10:07:16 +08:00
很明显你没配置好
pytesseract.image_to_string(image, config='./tessdata')
指定好 testdata 目录就行了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/532743

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX