大模型都普及了,哪家的 ocr 可以比较完美的识别图中格式?

2023-10-20 13:43:45 +08:00
 dsg001

比如代码、表格、缩进

2799 次点击
所在节点    程序员
8 条回复
cccj1
2023-10-20 15:59:21 +08:00
wps 的识别还可以,表格识别很准,其他的不清楚
tool2d
2023-10-20 16:01:39 +08:00
OCR 只能识别文字,识别不了表格。一般表格识别都是硬写代码,不是用 AI 的。

AI 仅仅用于局部文本识别。
BQsummer
2023-10-20 18:17:03 +08:00
多模态的大模型还没有普及吧
RatioPattern
2023-10-20 20:39:29 +08:00
google 的可以,其他都不行
mMartin
2023-10-20 21:39:45 +08:00
paddleocr 识别表格还可以,有特定的模式
em70
2023-10-20 22:22:41 +08:00
meta 在 8 月底开源了一个 OCR 项目 nougat,对数学公式支持非常好,专门识别论文的,输出格式是 Mathpix Markdown
https://github.com/facebookresearch/nougat
ovtfkw
2023-10-20 22:28:43 +08:00
扫描全能王
uxfion
2023-10-21 17:47:56 +08:00
@em70 但是 nougat 根本就没支持中文,只有对拉丁系语言友好

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/983789

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX