ocr 识别 latex 公式的难度是在哪?

2022-04-02 20:27:50 +08:00
 zxCoder
我记得有款工具叫 math 什么,可以识别 latex 公式,挺好用的,现在好像收费了,免费客户端好像是一个月 50 次。

这个其实对于普通用户偶尔用一两次也是够了。

不过我的问题是,这种 ocr 功能的难度,或者说资源花费主要是在哪?感觉现在 AI 技术也发展得不错,再加上 latex 公式一般都是比较标准的字体,符号也有限,而且有很多人用,就有很多的训练集,感觉模型应该不是问题。
2239 次点击
所在节点    问与答
7 条回复
handuo
2022-04-02 23:21:37 +08:00
我不是做这方面的,但是知道整个过程不只是 ocr, 需要预处理,文本检测,布局理解以及字符识别。感觉对于 latex 公式难点在于布局的多义性和歧义性,很多公式布局比较复杂。而主流学术界和工程界更重视复杂环境的文本检测,不同噪声下的字符识别,因此需要自己设计网络,采集数据和训练模型,有一定门槛
PeterD
2022-04-02 23:29:20 +08:00
现在用 Transformer 已经可以实现很好的效果了,参考下面的项目

https://github.com/lukas-blecher/LaTeX-OCR

https://arxiv.org/abs/2007.02517
ynyounuo
2022-04-03 02:08:18 +08:00
mathpix 刚涨价并且限制普通用户使用次数,我怀疑你是故意这个时候发的,哈哈哈

普通 LaTeX 数学公式 OCR 确实并不难,如果有扫描图形直接生成逻辑标准的对应 PGF/TikZ 代码才是厉害,目前 quiver 画图手动画图转换体验还行
thedrwu
2022-04-03 04:19:45 +08:00
排版和布局(例如横纵位置、kerning 、断行和对齐的位置、math[clr]lap 的处理等等)才是 LaTeX 公式的灵魂。即使同一个公式内容,换成另一种字体也需要调整处理的方式。毕竟 LaTeX 不止是公式编辑器更是个排版软件。
生硬地 reproduce 布局最后只会成为各种手动的 box 。
thedrwu
2022-04-03 04:25:41 +08:00
接上文,OCR 复杂一点公式可能需要算法根据上下文“理解”公式的内在意义,才能给出合理的等价排版代码
shadows
2022-04-03 11:48:11 +08:00
mathpix 可以找一些调用它 api 的软件使用,api 的免费计划足够使用的,不处理 pdf 的话,就只有 rate limit (新开的 api 是 50/min ,我之前开的是 200/min ),没有次数限制
shadows
2022-04-03 22:03:27 +08:00
补充#7 是每月前 1K 次请求免费

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/844635

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX