分享一个 OCR 软件(基于 LLM 可识别 Latex) - V2EX

Home Sign Up Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 446 days ago, the information mentioned may be changed or developed.

首先为取代 mathpix (到期了，价格贵)
发现大语言模型多模态具有识别公式，代码块，甚至手写
测试用的 qwen2.5-vl-7b 感觉已经可以媲美 mathpix
价格便宜，平均 1¥可以识别 1000 张图
自己用 swiftUI 开发了一个软件，仅 2M 大小，调用大模型进行 OCR ，可实时预览及修改
项目地址 TextPix
软件界面

14 replies • 2025-05-05 01:30:42 +08:00

1

ashing

May 1, 2025

看起来还不错，有空体验下。

2

xuemian

May 2, 2025

大佬

3

SeaSaltPepper

May 2, 2025

歪个楼：有没有什么地方能看 LLM OCR 跑分排名的

4

lchynn

May 2, 2025

1

@SeaSaltPepper ocrBench ，ocrBenchV2 ，docVQA, infoVQA ，ChartQA ，TableVQA ，几个多模态指标都是看视觉模型对文字的识别理解能力的。都有 leaderboard

5

yjxjn

May 2, 2025

同楼咨询个问题。
我目前在做的项目，也是关于 OCR 识别。但是要识别试卷内容。进行阅卷。现在有个问题，这种大模型可以识别出试卷之类的么？用了 paddleOCR ，客观题，直接就嘎了。

6

lamses

May 2, 2025

@yjxjn https://bdfz.net/posts/aiyuejuan/

7

loadingimg

May 2, 2025 via iPhone

自己基于 qwen vl 可以微调一下

8

zggsong

May 2, 2025

试了一下，prompt 识别公式效果还是蛮好的，理论上使用现有的类似 Bob 配置 llm 服务也能实现该效果

9

ztfot

OP

May 3, 2025 via iPhone

@zggsong 是的，这只是做了个壳，方便用

10

duzhuo

May 3, 2025

@lamses 好变态的字体

11

lamses

May 3, 2025

@duzhuo 領會精神：）
以現在 AI 能力，所有學科本該有手寫閱卷產品落地的。

12

HaroldFinchNYC

May 3, 2025

实际上我用 ocr 的机会不多
但我知道有个行业用的比较多，就是教育行业

13

ztfot

OP

May 4, 2025 via iPhone

@HaroldFinchNYC 害，学生用的多嘛

14

guaike

May 5, 2025

@zggsong 这方法不错

About · Help · Advertise · Blog · API · FAQ · Solana · 971 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 49ms · UTC 19:28 · PVG 03:28 · LAX 12:28 · JFK 15:28
♥ Do have faith in what you're doing.