如何做本地的 latex 公式 ocr 识别？

目前看的在线 ocr 识别接口，myscript 和 mathpix 效果都不错

我们产品一年接口请求量大概 200-400w ，算了一下 myscript 贵的离谱，mathpix 大概一年在 20w-30w 的费用

使用在线 ocr 还有并发和带宽相关的问题需要测试

想问有没有本地化按年卖 license 的产品？进行本地化部署

heqing

2022-01-10 15:41:32 +08:00

现在有不少基于深度学习的 OCR 模型, 你们如果有大量的数据, 可以尝试自己训练一个试试

HashV2

2022-01-10 16:32:08 +08:00

@heqing 我们没有大量的数据集，而且我们尝试使用开源的 ocr 识别 latex 模型，找了一些数据集进行训练，识别准确率真的差太多了，基本上就是除非照着数据集的样子写，其它全错 [哭]

HashV2

2022-01-10 16:35:36 +08:00

目前就是希望大家可以推荐一款可以本地部署、按年出售 license 或永久 license 的 ocr 数学公式的产品

实在不行可以有在线按年出售无数量限制的 sdk ，不过在线 api 需要测试一下并发

Juszoe

2022-01-10 21:35:54 +08:00

你们尝试了哪些模型呢？我看数据集有十万张图片，应该不至于一点效果没呀，可能还需要多调调参数。
我搜了下发现一个 2019 的工作，https://github.com/JianshuZhang/TAP 当时的效果打败了 MyScript 等商业公司。
团队是中科大的，如果自己搞不来的话，建议你联系他们付费购买一些技术服务。

Scirocco

2022-01-11 01:51:16 +08:00

之前个人用过百度飞桨的开源 ocr ，直接用的现成的没训练，效果还算不错

dayeye2006199

2022-01-11 03:23:33 +08:00

你们的量这么大，建议联系那些公司的销售单独谈价钱。

HashV2

2022-01-11 08:55:19 +08:00

@Juszoe 团队里没人系统学习过机器学习，都是跑起来就算成功 [无奈] ，需要研究一下，成功的话每年倒是能给公司省几十个 w

HashV2

2022-01-11 08:57:28 +08:00

@Scirocco 效果不错吗？我这几天先自己跑起来试试，如果有问题的话后面可以联系你做一个资讯和技术支持吗？付费的

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/827311

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.