V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
chanlk
V2EX  ›  程序员

低成本识图方案?

  •  
  •   chanlk · 46 天前 · 4550 次点击
    这是一个创建于 46 天前的主题,其中的信息可能已经有所发展或是发生改变。
    目前正在预研一个低成本的识图方案,场景是家用安防摄像机的。

    目前调研了有两个方向

    一个是以 yolo 、aws rekonition 为代表的传统的 CNN 识图方案,
    其中 yolo 面临的问题是现成的模型有标签不足够覆盖场景,要自己训练心里没底
    直接用 aws rekonition 的成本很高,谈了折扣算下来也还是很高

    传统方案有另一个弊端就是对于抽象的"词"无法理解,比如想要对"危险情况"做识别,只能分解到具体的事物,比如火焰、枪支、刀具等。


    另一个是走大模型的识图方向
    1. 自己部署开源模型,Qwen2.5 VL 系列和 Janus-Pro ,7B 和 32B 都试了,感觉效果不佳
    2. 调 Api ,试了几家,发现 aws nova 在价格和效果上都很不错

    我纯后端开发,计算机视觉和大模型方面是个小白
    站内的大佬有在这方面有经验的吗,有什么经验可以分享一下,谢谢你~
    39 条回复    2025-05-26 18:42:45 +08:00
    kuro1
        1
    kuro1  
       46 天前   ❤️ 1
    YOLO 自己训练
    jimrok
        2
    jimrok  
       46 天前
    你这个方向不是图像识别和事态感知的内容吗,军工和自动驾驶行业的人能帮你判断一下吧。
    chanlk
        3
    chanlk  
    OP
       46 天前
    @kuro1 我看 YOLO 很多的应用场景在 B 端,聚焦的场景很单一,我们这个是家用的场景,用户可能放在卧室、客厅、户外都有可能,而且场景里会出现的物品和事件太多了,感觉很难弄一个通用的 YOLO 模型出来。
    chanlk
        4
    chanlk  
    OP
       46 天前
    @jimrok 事态感知?没见过这个名词,我去查查看。我们是做 C 端的哈,就是最常见的家用安防摄像机。
    lyxxxh2
        5
    lyxxxh2  
       46 天前
    但是 api 不错,真的是实际场景图吗?
    我用 grok chat,前几张好识别的,确实可以回答出来。
    但是不好识别的,一样 gg 。

    yolo:
    安防数据集,算是挺常见的。
    去网上找训练好的模型,让 ai 帮你测试。
    数据集也行,自己训练下。
    lyxxxh2
        6
    lyxxxh2  
       46 天前
    https://docs.ultralytics.com/zh/guides/security-alarm-system/
    如果你找好了模型,自己都不用写什么代码,官方都有示例。
    hwdq0012
        7
    hwdq0012  
       46 天前
    安防一般不是用目标识别吧, 一般是移动侦测,姿态分析(摔倒)
    monkeyWie
        8
    monkeyWie  
       46 天前
    最近不是有个 FastVLM 吗,很快运行条件也低
    monkeyWie
        9
    monkeyWie  
       46 天前
    不对,是叫 smolvlm
    wyntalgeer
        10
    wyntalgeer  
       46 天前
    @chanlk #3 那就弄 N 个出来
    raydied
        11
    raydied  
       46 天前
    @chanlk yolo 的 coco 集就有多达 80 种物品识别。
    而且属于预训练模型,训练成本很低的。
    chanlk
        12
    chanlk  
    OP
       46 天前
    @hwdq0012 移动侦测老古董了,一点风吹草动给你告警。
    hwdq0012
        13
    hwdq0012  
       46 天前
    @chanlk 那异常模型呢 patchcore 之类的,用大量正例训练,检测反例
    leven87
        14
    leven87  
       46 天前
    自己训练最灵活,或者找一个别人的模型,自己调参
    chanlk
        15
    chanlk  
    OP
       46 天前
    @lyxxxh2 #5 是实际场景,从网上找出来的。给你看一个示例。
    sleeepyy
        16
    sleeepyy  
       46 天前
    gemini api 很便宜效果也不错
    chanlk
        17
    chanlk  
    OP
       46 天前
    @raydied 安防场景不是很适用,里面很多的衣服鞋子、运动物品、家庭电器什么的。
    xytest
        18
    xytest  
       46 天前
    收藏一下 期待 小而美的解决方案
    chanlk
        19
    chanlk  
    OP
       46 天前
    @wyntalgeer 有这么想过,但是怕弄出来效果也不好。
    wyntalgeer
        20
    wyntalgeer  
       46 天前
    @chanlk #19 玩 YOLO 不要想着一劳永逸,一开始效果注定不好,但是你要给一个“疑似”报警并收集下来,继续训。迭代久了就值钱了
    rockdodos
        21
    rockdodos  
       46 天前
    Qwen 微调效果还行
    bluesenzhu
        22
    bluesenzhu  
       46 天前
    摄像头厂家不是吹自己就能告警吗
    encro
        23
    encro  
       46 天前
    既然放在卧室,那么如何识别男女主人是在造人还是在家暴?
    clemente
        24
    clemente  
       46 天前
    找海康威视贴牌 OEM
    chanlk
        25
    chanlk  
    OP
       46 天前
    @encro 额,如果是大模型的话,NSFW 的内容不知道会怎么处理,晚上回家测一下
    chanlk
        26
    chanlk  
    OP
       46 天前
    @bluesenzhu 最早期移动侦测、声音告警,近些年有人体告警(装了红外感应),或者有一些人体侦测算法集成在摄像机里。稍微复杂的识别摄像机带不动。
    chanlk
        27
    chanlk  
    OP
       46 天前
    @rockdodos 怎么微调呀,你试过吗?
    rockdodos
        28
    rockdodos  
       46 天前
    @chanlk #27 用 LLaMA-Factory 微调,看官方文档调的。
    wanghui22718
        29
    wanghui22718  
       46 天前
    https://www.corerain.com/solution
    端侧解决方案,了解一下
    Liftman
        30
    Liftman  
       46 天前
    你这个还不够低。来。让我掏出来一个给你。https://github.com/apple/ml-fastvlm 500m 的小模型。我在 mac 上跑。100ms 一次解析都嫌慢。不过再快也没意义了。。毕竟看不清了已经。。。。
    Liftman
        31
    Liftman  
       46 天前   ❤️ 1
    https://github.com/ngxson/smolvlm-realtime-webcam 用这个项目跑我楼上的模型比较简单。。
    zzhpeng
        32
    zzhpeng  
       46 天前
    实时分析好吃带宽,如果远端录像识别
    xytest
        33
    xytest  
       46 天前
    @rockdodos #21 请问是 Qwen-VL 吗?
    openmynet
        34
    openmynet  
       44 天前
    可以测试下用 clip 做零样本分类
    yuxian
        35
    yuxian  
       43 天前   ❤️ 1
    很简单,分为多部分。方便吹牛 B ;
    1 ,在终端,使用通用的 YOLO ,嵌入端,可以用压缩好的模型。性能佳。无需训练。直接调用 sdk ,即可使用。作为泛用场景监控。只需要有疑似的图像,视频片段上传即可,精度可以自行根据严格模式调节。
    2 ,在服务端,处理终端上传的疑似数据。优先使用自训练的 yolo 。对于依然无法确认的,可以调用视觉大模型,再次核对。如果依然无法确定结果的,人工接入审核。
    AmaQuinton
        36
    AmaQuinton  
       43 天前
    项目上用过某个研究院提供的 api ,用于道路违停和火灾预警实时监测
    chanlk
        37
    chanlk  
    OP
       43 天前
    @Liftman #31 要用 mac 才能跑吗,我有个老 mac ,Intel 时代的了,跑得动吗?
    chanlk
        38
    chanlk  
    OP
       43 天前
    @yuxian 终端暂时不考虑了,我们的设备有部分是第三方的。感觉还是直接上大模型算了了,我们人太少、资源不足搞不了 yolo ,这事儿从头到尾就我一个人干.....
    Liftman
        39
    Liftman  
       43 天前
    @chanlk 无所谓啊。https://github.com/ngxson/smolvlm-realtime-webcam 用这个项目跑我楼上的模型比较简单。。这个直接跑。不需要 mac 。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   924 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 21:32 · PVG 05:32 · LAX 14:32 · JFK 17:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.