V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
jiayouzl
V2EX  ›  程序员

今天使用 YOLO 第一次训练视觉模型,真的好强大。

  •  1
     
  •   jiayouzl · 23 天前 · 8175 次点击

    之前一直有听说 YOLO 非常牛逼,但一直没项目用到也就没特别关注过,最近有东西要做问了 AI 解决思路推荐用视觉大模型。立马 clone 了 YOLO V8 仓库,标注,训练,测试。感觉发现新大陆一样,真的好强大!可以说超出了认知范围,因为如果按没有大模型年代的思路想完成真的是个好庞大的工程。

    54 条回复    2025-09-27 12:12:34 +08:00
    ATKLLL
        1
    ATKLLL  
       23 天前
    主要是性能太强了 中端游戏显卡随便跑
    owen800q
        2
    owen800q  
       23 天前 via iPhone
    @ATKLLL 可以识别车牌吗, 最近有个项目要搞这个
    ptstone
        3
    ptstone  
       23 天前
    可以同时识别车牌 道路标识 人脸的模糊吗,我需要做视频脱敏处理,还没开始做,网上推荐使用这个库,现在是 YOLO 11 比较好了
    sillydaddy
        4
    sillydaddy  
       23 天前
    能具体说下做的是什么嘛?
    Myprajna
        5
    Myprajna  
       23 天前
    而且配置要求很低,200 元的开发版都能跑。
    jackenliu
        6
    jackenliu  
       23 天前
    每次出现 AI 都很强大,次次都强大,评分永远没比过 OpenAI
    Muniesa
        7
    Muniesa  
       23 天前   ❤️ 27
    @jackenliu #6 转人工
    YsHaNg
        8
    YsHaNg  
       23 天前 via iPhone   ❤️ 2
    @jackenliu 卖好码吃上了吗
    jiayouzl
        9
    jiayouzl  
    OP
       23 天前
    @sillydaddy 统计相关的一个项目。
    jiayouzl
        10
    jiayouzl  
    OP
       23 天前
    @ATKLLL 是的,我这边目前就一块 3060ti 一直闲置着正好能跑 CUDA ,然后训练的模型转下格式就可以在 macos 下继续调用开发了。
    jiayouzl
        11
    jiayouzl  
    OP
       23 天前
    @Myprajna 是的,很方便。
    jiayouzl
        12
    jiayouzl  
    OP
       23 天前
    @ptstone YOLO v11 我没用过,我是看了下文章在 V5 和 V8 里选择了下,反正都能用,v12 也出了现在。并不是说 V 越高=越好,只是划分的领域更细点的区别。
    yolee599
        13
    yolee599  
       23 天前 via Android
    @jackenliu #6 别上来就比,起码要了解过再说话啊,YOLO 根本就不是大语言模型,你拿鸭跟鸡比怎么比?
    Belmode
        14
    Belmode  
       23 天前   ❤️ 1
    @jackenliu #6 YOLO 是传统 NLP 深度学习模型,和现在的 AI 大模型也不一样啊?而且 YOLO 也不是现在才流行,我都看不懂你这话里话外的意思。
    Belmode
        15
    Belmode  
       23 天前
    之前做过一个 YOLOV8 的 LOL 助手,效果确实不错。用英雄头像训练,可以记录小地图英雄最后丢失的位置和英雄丢失时间,防 gank 效果非常好。
    bybyte
        16
    bybyte  
       23 天前
    @Belmode YOLO 不是 CV 领域的模型吗,,怎么是 NLP 了。。
    PinkPumpkin
        17
    PinkPumpkin  
       23 天前   ❤️ 1
    yolo 不是大模型,是小模型,而且卖点就是又小又快
    Jakarta
        18
    Jakarta  
       23 天前 via Android   ❤️ 1
    yolo 跟大模型没啥关系,甚至是两个不同的 AI 方向,一个是视觉,一个是语言。
    gpt5
        19
    gpt5  
       23 天前   ❤️ 1
    当人们提到“ai 应用”的时候,保守说,1/3 都用到了 yolo 。
    srsman
        20
    srsman  
       23 天前
    用 Hailo-8 跑
    Tink
        21
    Tink  
    PRO
       23 天前
    @jackenliu #6 不是一个东西,你这个比法,相当于潜水艇比飞机
    listen2wind
        22
    listen2wind  
       23 天前 via Android   ❤️ 1
    想问下 yolo 可以做比如建筑垃圾、河道垃圾、违章建筑之类的一些识别区分吗?
    capric
        23
    capric  
       22 天前   ❤️ 1
    @listen2wind 当然可以
    okampfer
        24
    okampfer  
       22 天前
    @jiayouzl #10 转格式是转成 ONNX 吗?
    nayenizhenmei
        25
    nayenizhenmei  
       22 天前 via iPhone
    @jiayouzl 我硕士就是搞 cv ,用 yolo 的,一般来说,工程上用 v5v8v11 ,主要是其后面的 u 公司对 yolo 的工程化比较好,也不是说其他的系列不好,对于检测精度来说肯定是越来越高速度也越来越快,但工程化角度看集成度没那么好
    rrubick
        26
    rrubick  
       22 天前
    我想做一个截图记账的功能,这个应该可以用吧?
    lxxiil
        27
    lxxiil  
       22 天前 via iPhone
    现在写游戏脚本 yolo ,opencv ,寻路算法,这些都是是必备技能
    hwdq0012
        28
    hwdq0012  
       22 天前
    @srsman #20 同
    hwdq0012
        29
    hwdq0012  
       22 天前
    去年做了个工具训练 https://github.com/nocanstillbb/label-image

    给公司做的更强大,加了一些网络设备的功能,标注多了缩放功能,还有一个 vncviewer 嵌入,从采集到模型部署 一个软件全包了
    neroxps
        30
    neroxps  
       22 天前 via iPhone
    我们产品期望用 yolo 做自助餐菜品自动识别
    iOCZS
        31
    iOCZS  
       22 天前
    @Jakarta 大模型是大规模预训练模型,大语言模型是大规模预训练模型的一种特定类型。
    jiayouzl
        32
    jiayouzl  
    OP
       22 天前
    @neroxps 我实战前看了不少文章,其中就有对自助餐盘里菜品识别的文章,搭配好点的摄像头完全没问题的。
    565656
        33
    565656  
       22 天前
    @jackenliu #6 openai 还真做不了检测, 细分场景不如
    someonesnone
        34
    someonesnone  
       22 天前
    超市自动识别物品称重那称, 都足够好玩
    BruceWooong
        35
    BruceWooong  
       22 天前
    啊啊啊! YOLO 都已经玩透了,发论文都会遭到嫌弃。难道在工业界还没有普及吗?何止 v8 ,现在 v13 ( https://arxiv.org/pdf/2506.17733 )都有了,而且还有 DETR ( https://arxiv.org/abs/2005.12872 )这种基于 Transformer 的模型更加厉害,第一版是 2020 年出的。你提到的 yolo 第一版是 2015 年提出来的( https://arxiv.org/abs/1506.02640 ),到现在已经 10 年过去了。
    roundgis
        36
    roundgis  
       22 天前 via Android
    @BruceWooong 我們公司也是最近才開始用

    安排我負責研究怎麼用在提高生產管理上

    可見一門技術要推廣 並且得到廣泛使用

    有漫長的過程
    visper
        37
    visper  
       21 天前
    yolo 是一个极出色的模型,有兴趣的人都可以去试一下,以后能用到的地方就可以考虑用上。模型小,速度快,标注训练简单。转 onnx 在 java 之类里面跑也很方便。
    2en
        38
    2en  
       21 天前
    @Belmode #15 说难听点,你这种是作弊,是挂
    2en
        39
    2en  
       21 天前
    当年还用 yolo v5 做过自瞄,效果好而且封不掉
    gsw945
        40
    gsw945  
       20 天前 via iPhone   ❤️ 1
    之前用 YOLOv5 做过发票识别,200 张图片微调训练的模型,准确率能稳在 95%以上,同发票图的准确率超过 PaddleOCR 官方 demo 。
    背景说明: 有纸质发票的扫描件,需要数字化归档,识别出内容,PaddleOCR 识别出来的是很多个识别块,发票是历史发票,表格线很多缺失,也有部分扫描缺角,大部分扫描件都有倾斜,ocr 识别后,将块内容对应到字段很困难,穷尽表格识别各种算法后效果仍不好。后改变思路,参考猫狗识别的例子,以发票固定文字(字段)作为为标注分类,比如"纳税人识别号"等,标注后训练大概 2 小时不到,推理时先 YOLO 识别出各个字段的坐标范围,ocr 识别后,识别块的坐标经过比对,很容易就能对应到字段了。
    AlexRoot
        41
    AlexRoot  
       20 天前
    @neroxps 大米好像已经有了,我感觉用 YOLO 完全可以实现。
    wingor2015
        42
    wingor2015  
       20 天前
    @owen800q 识别车牌这种,估计都不需要自己训练,网上应该能找到现有的模型
    cz5424
        43
    cz5424  
       20 天前 via iPhone
    刚接触,有什么好用的标注平台可以推荐吗,需要得到物体的四个角位置,不是识别
    lingxipaofan
        44
    lingxipaofan  
       19 天前
    目前项目就是转 onnx 在 unity 里面做骨骼识别
    layxy
        45
    layxy  
       19 天前
    @ptstone YOLO 目前的大部分使用场景就是干你说的这个的,还有生产中的质检也会用
    poorcai
        46
    poorcai  
       19 天前
    楼上说的识别车牌这种需求,以前研究 opencv 时就有很多开源的成熟的项目了!另外想问下,Yolo 和 OpenCV 的区别?
    ioioj5
        47
    ioioj5  
       19 天前
    刚接触
    capric
        48
    capric  
       19 天前
    @poorcai yolo 是训练模型然后部署到目标机器上推理(目标识别,追踪),opencv 是纯手撮用一些数学的方法(比如灰度化、二值化、边界变化)来做目标分割等
    axunzzzz
        49
    axunzzzz  
       19 天前
    @lxxiil 老哥,寻路算法这块有啥关键词吗,最近在写一个 ARPG 游戏脚本就差寻路这块不知道怎么实现了
    gsw945
        50
    gsw945  
       19 天前 via iPhone
    @cz5424 不确定你想要的是否是 LabelImg 或 LabelMe 这种标注工具
    gsw945
        51
    gsw945  
       19 天前 via iPhone
    @axunzzzz 寻路算法讲的最好的: https://www.redblobgames.com/pathfinding/a-star/introduction.html ,除了 A 星(A*),还有跳点搜索(JPS)也很常用,不过如果你的游戏是 3D 的,也可以搜索"Recast Navigation"
    evilcat
        52
    evilcat  
       18 天前
    @axunzzzz 佬在写作弊器么,还是游戏自动托管😄
    axunzzzz
        53
    axunzzzz  
       18 天前
    @gsw945 #51 感谢
    @evilcat #52 算不上佬,刷子游戏想弄个全自动脚本看看效果
    okampfer
        54
    okampfer  
       2 天前
    @lingxipaofan #44
    ONNX runtime 不是 C++的么?是怎么用到 C#写的 unity 项目里面的?
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1002 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 22:49 · PVG 06:49 · LAX 15:49 · JFK 18:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.