V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
dandankele
V2EX  ›  程序员

有什么 AI 应用平台可以支持多模态模型、带图提问检索的?

  •  
  •   dandankele · 3 天前 · 997 次点击

    需要构建一个硬件设备维修 RAG 应用,可以通过拍照传图+文字描述、纯拍照传图、纯文字描述等方式,让应用根据知识库内容来回答设备可能出现什么故障并且如何检查和维修。

    目前的主要问题点就是在于图文混合,用户提问可能只是拍照,也可能是拍照和文字描述等。我已经看了 coze 、dify 、ragflow 等,多少都有点受限或者不支持。

    有没有实践成功的兄弟姐妹。。多模态模型选什么好?用不用开源的 AI 应用平台?还是说图和文分开处理的、不在同一个向量空间里存储?

    8 条回复    2025-08-29 17:03:32 +08:00
    longredzzz
        1
    longredzzz  
       3 天前
    多模态的话,现在应该没有比 gemini 更好的选择了吧。
    miaoblyat
        2
    miaoblyat  
       3 天前
    qwen 有多模态模型可以图片视频加文本提问
    zcf0508
        3
    zcf0508  
       3 天前 via Android
    glm 4.5v
    dandankele
        4
    dandankele  
    OP
       3 天前
    主要是各位有没有具体的实践啊,选了多模态模型之后,开源的 AI 工作流平台选哪个,coze 貌似还不支持多模态模型,dify 好像仅能用 gemini ? ragflow 中添加了工具之后就无法分析上传的图片。。。
    tanglindan6
        5
    tanglindan6  
    PRO
       3 天前
    https://imini.com/ iMini AI 新上的
    razertory
        6
    razertory  
       3 天前
    感觉要拆成两个问题。
    1. 多模态检索,比如搜图,这个有非常多的方案。但是要把图片向量到 RAG 系统,得有专门的实践。
    2. 多模态对话,也就是上传图片,这个就是头部几家公司的模型做得不错。
    GotKiCry
        7
    GotKiCry  
       3 天前
    Dify 接 Gemini 应该是可以达到要求的
    lizy0329
        8
    lizy0329  
       3 天前
    只有 豆包 了
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   904 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 21:40 · PVG 05:40 · LAX 14:40 · JFK 17:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.