tesseract-ocr 编译 dll 求助!

2021-03-01 17:12:05 +08:00
 cool1205
小弟是 python 开发员,最近在做一个 ocr 项目,使用的是 tesseract-ocr,使用的是 3.04 版本,目前遇到一个问题,想请一位大哥帮忙,具体是这样的,我在调用 tesseract 的 dll 时,总是会在控制台输出“Page 1”的红色信息,目前我不希望 python 控制台不输出该信息,只有去 tesseract 删除对应代码后重新编译,可我不会编译,想请一位大哥帮忙编译一下对应的 dll !若能解决,必有重谢!
1227 次点击
所在节点    程序员
6 条回复
joApioVVx4M4X6Rf
2021-03-01 17:16:40 +08:00
你们用 tesseract-ocr 是识别什么语种的啊?其实有比这个更好的 python 替代方案,比如 paddleocr 和 easyocr,github 可以搜到
nnnToTnnn
2021-03-01 17:20:39 +08:00
orc 我记得很多啊~ 用 tesseract-ocr 不一定是最好的
shm7
2021-03-01 17:24:50 +08:00
所以红色信息是啥?出错信息是啥。据我了解 tesseract 的编译要和本地的各种图像驱动相关的,可能有个 dll 不一定够。
laqow
2021-03-01 17:53:21 +08:00
python 好像有个 pytesseract 还是什么 tesseract 的壳,印象感觉没有输出什么来着,看看那个壳怎么写的?
dayeye2006199
2021-03-02 07:10:27 +08:00
我假设你用的 pytesseract 这个套壳包,它就是启动了一个 subprocess,叫了一下系统内安装的 tesseract 。所以你可以找到这行代码: https://github.com/madmaze/pytesseract/blob/master/pytesseract/pytesseract.py#L255

改成:
proc = subprocess.Popen(cmd_args, **subprocess_args(), stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)

这样 stdout 和 stderr 就被重定向了。
sadfQED2
2021-03-02 12:39:00 +08:00
如果你用的是 5 楼说得那个套壳包确实改改 py 代码就行

我印象中 python tesseract 还有另外一个包,是通过 cpython 实现的,那个包可能确实需要重新编译,建议别自己折腾,换 4.1 版本试试呢,3.04 已经很老了,说不定升级一次就解决了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/757348

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX