- 首先为取代 mathpix (到期了,价格贵)
- 发现大语言模型多模态具有识别 公式,代码块,甚至手写
- 测试用的 qwen2.5-vl-7b 感觉已经可以媲美 mathpix
- 价格便宜,平均 1¥可以识别 1000 张图
- 自己用 swiftUI 开发了一个软件,仅 2M 大小,调用大模型进行 OCR ,可实时预览及修改
- 项目地址 TextPix
- 软件界面




1
ashing May 1, 2025
看起来还不错,有空体验下。
|
2
xuemian May 2, 2025
大佬
|
3
SeaSaltPepper May 2, 2025
歪个楼:有没有什么地方能看 LLM OCR 跑分排名的
|
4
lchynn May 2, 2025 @SeaSaltPepper ocrBench ,ocrBenchV2 ,docVQA, infoVQA ,ChartQA ,TableVQA , 几个多模态指标都是看视觉模型对文字的识别理解能力的。 都有 leaderboard
|
5
yjxjn May 2, 2025
同楼咨询个问题。
我目前在做的项目,也是关于 OCR 识别。但是要识别试卷内容。进行阅卷。现在有个问题,这种大模型可以识别出试卷之类的么?用了 paddleOCR ,客观题,直接就嘎了。 |
6
lamses May 2, 2025
|
7
loadingimg May 2, 2025 via iPhone
自己基于 qwen vl 可以微调一下
|
8
zggsong May 2, 2025
|
12
HaroldFinchNYC May 3, 2025
实际上我用 ocr 的机会不多
但我知道有个行业用的比较多,就是教育行业 |
13
ztfot OP @HaroldFinchNYC 害,学生用的多嘛
|