Sh1xin 最近的时间轴更新
Sh1xin

Sh1xin

V2EX 第 223763 号会员,加入于 2017-03-30 18:33:52 +08:00
Sh1xin 最近回复了
4 天前
回复了 Suinn 创建的主题 问与答 最新的 PaddleOCR-VL 模型大家有尝试过吗
PaddleOCR-VL 才 0.9B.怎么跟 Qwen3-vl 比...
你用的是 Qwen3-vl-32B 版本吗,我这边想私有化部署。不知道私有化的识别效果怎么样,2.5-vl-32B 的还有一些场景效果不好
@SuperDaniel313 这不就是传统 RPA 的业务场景
@loloX 我是做业务流程自动化,不是测试自动化。比如现在有一个业务需求是登录系统 A ,然后点击菜单栏"信息录入",然后在出现的表格上面把 excel 信息录入进去。
@duuu 目前最火的 n8n 和 dify 。一个是老牌的 workflow 工具,一个可以实现多 LLM 方便对接。如果 OPENAI 只允许使用自家的 LLM,那应该不容易获取用户吧,如果也选择开放 LLM ,又会影响自家的营收。刚刚试用了一下 Agent builder ,感觉还好简陋的状态
68 天前
回复了 Sh1xin 创建的主题 程序员 Dify LLM 视觉参数问题请教
@mrbananaeros 感谢,另外还有个问题想请教下:如果开始节点上传的图片需要处理后再调用大模型识别。那如何做呢。我测试代码节点生成的类型好像都没法在 LLM 的视觉中获取
100 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@tool2dx 你那边漏字的场景方便详细说下嘛;我试了 5 页 PDF 包含表格和多行文本,可以正常提取表格内容
100 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@youyouzi ollama 。但是我不知道具体细节,运维帮我在弄
100 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
感谢各位指导🙏,目前在线验证 Qwen2.5-VL-32B 识别效果非常好,除了部分数字场景千分位和小数点识别错误,其他都 OK 。私有化部署验证中
100 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@beginor 一般的多模态大模型识别文本准确率不如 OCR 吧,我这边对精准度要求比较高。所以考虑 OCR 识别后 LLM 分析内容获取
100 天前
回复了 Sh1xin 创建的主题 程序员 私有化部署 OCR 解决方案请教
@apkapb https://github.com/PaddlePaddle/PaddleOCR/discussions/16114
PaddleOCR 感觉已经很好了,可惜差一点点
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   877 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 16ms · UTC 22:56 · PVG 06:56 · LAX 15:56 · JFK 18:56
♥ Do have faith in what you're doing.