V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Suinn  ›  全部回复第 1 页 / 共 2 页
回复总数  26
1  2  
4 天前
回复了 Suinn 创建的主题 问与答 最新的 PaddleOCR-VL 模型大家有尝试过吗
@Sh1xin 😂我又仔细看了下评测,PaddleOCR-VL 是 qwen2.5 比的,没和 qwen3 比。我这边目前用的是 30B-A3B 那个
34 天前
回复了 Suinn 创建的主题 Local LLM 大模型本地部署显存计算的问题
@hmbb 非常感谢,感觉这个比 huggingface 上的强了不止一点
38 天前
回复了 phpsarc55 创建的主题 Go 编程语言 pdf 转图片
word 转图片有大佬了解过吗
@kuanat 感谢分享,我图像处理和 vlm 学的还行,但确实没从事过真正生产端的 ocr 开发,你提到的需求场景几乎都采用人工复核的方式,我思考的点正是源自于是否能提供另一种模式,仅在服务不提供输出时再进行人工复核,对于输出部分的内容可以百分百信任
@showonder 其实还是不太一样,说到底 ocr 本质基本是特征提取+分类,但 vlm 是有语义空间的,这种融合的说服力其实比单纯 ocr 的叠加要强上不少
@retrocode o(* ̄▽ ̄*)ブ感谢分享,这个思路确实很新颖
@billbob 目前这个方案虽然无限降低了召回率,但几乎也过滤了所有假阳性的情况,现在比较头疼的点确实在于没法论证能达到百分百的准确率,直觉上来说总感觉就是无限逼近 100%😂
@InkAndBanner 感谢分享,vlm 这块你们有试过 InternVL 或者 glmVL 吗,看最近的分数都挺高但是不知道实际能力和 qwen 比如何
@gbw1992 一般主要是体现在出现了大量的 False Rejection 吗,其实这个方案只有能保证识别出来的没问题,我觉得就 ok 了
@paopjian 对,因为主要是账单的数字识别,文本上不会有太多
@gpt5 是的,主要还是预设业务场景属于要么不识别,要么尽量百分百识别的那种。所以想请各位大佬看看这个方案是否存在大的问题
@RotkPPP 对,主要就是如果单纯只用 ocr 识别,光看置信度不能保证出来的一定准,这种做法相当于用 VLM 加了一层校验
@8355 主要是有些业务场景,人家的要求是要么不识别,要么就要识别准,所以我才会有了这个方案
103 天前
回复了 lzy4223 创建的主题 问与答 有没一些与大众印象不同的程序员?
@victor ┭┮﹏┭┮收徒弟吗
@chesha1 CosyVoice 3 好像还没开源┭┮﹏┭┮
185 天前
回复了 Suinn 创建的主题 程序员 百万数据下的大模型校验应用
@z1829909 哈哈,目前来看也只能这样了。
186 天前
回复了 Suinn 创建的主题 程序员 百万数据下的大模型校验应用
@NoOneNoBody 目前用的 deepseek ,主要还是担心批量给到模型后会影响输出质量
186 天前
回复了 Suinn 创建的主题 问与答 关于 Rag 本地知识库落地的问题求助
@hui9000 目前来看只能做到辅助,关键点还是多文档下 rag 准确率问题,llm 能力感觉是够的
2024-09-24 20:39:52 +08:00
回复了 Suinn 创建的主题 问与答 关于 Rag 本地知识库落地的问题求助
@mumu9 非常感谢你的指点,我自己这几天也尝试了几种不同的方案,目前本地验证下来 qdrant+元数据过滤的模式可以是最符合我需要的,打算按这个思路进一步做做看
1  2  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2090 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 25ms · UTC 00:30 · PVG 08:30 · LAX 17:30 · JFK 20:30
♥ Do have faith in what you're doing.