今天使用 YOLO 第一次训练视觉模型，真的好强大。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 179 天前的主题，其中的信息可能已经有所发展或是发生改变。

之前一直有听说 YOLO 非常牛逼，但一直没项目用到也就没特别关注过，最近有东西要做问了 AI 解决思路推荐用视觉大模型。立马 clone 了 YOLO V8 仓库，标注，训练，测试。感觉发现新大陆一样，真的好强大！可以说超出了认知范围，因为如果按没有大模型年代的思路想完成真的是个好庞大的工程。

yolo

视觉模型

训练

54 条回复 • 2025-09-27 12:12:34 +08:00

ATKLLL

2025 年 9 月 6 日

主要是性能太强了中端游戏显卡随便跑

owen800q

2025 年 9 月 6 日 via iPhone

@ATKLLL 可以识别车牌吗，最近有个项目要搞这个

ptstone

2025 年 9 月 6 日

可以同时识别车牌道路标识人脸的模糊吗，我需要做视频脱敏处理，还没开始做，网上推荐使用这个库，现在是 YOLO 11 比较好了

sillydaddy

2025 年 9 月 6 日

能具体说下做的是什么嘛？

Myprajna

2025 年 9 月 6 日

而且配置要求很低，200 元的开发版都能跑。

jackenliu

2025 年 9 月 6 日

每次出现 AI 都很强大，次次都强大，评分永远没比过 OpenAI

Muniesa

2025 年 9 月 6 日

@jackenliu #6 转人工

YsHaNg

2025 年 9 月 6 日 via iPhone

@jackenliu 卖好码吃上了吗

jiayouzl

2025 年 9 月 6 日

@sillydaddy 统计相关的一个项目。

jiayouzl

2025 年 9 月 6 日

@ATKLLL 是的，我这边目前就一块 3060ti 一直闲置着正好能跑 CUDA ，然后训练的模型转下格式就可以在 macos 下继续调用开发了。

jiayouzl

2025 年 9 月 6 日

@Myprajna 是的，很方便。

jiayouzl

2025 年 9 月 6 日

@ptstone YOLO v11 我没用过，我是看了下文章在 V5 和 V8 里选择了下，反正都能用，v12 也出了现在。并不是说 V 越高=越好，只是划分的领域更细点的区别。

yolee599

2025 年 9 月 6 日 via Android

@jackenliu #6 别上来就比，起码要了解过再说话啊，YOLO 根本就不是大语言模型，你拿鸭跟鸡比怎么比？

Belmode

2025 年 9 月 6 日

@jackenliu #6 YOLO 是传统 NLP 深度学习模型，和现在的 AI 大模型也不一样啊？而且 YOLO 也不是现在才流行，我都看不懂你这话里话外的意思。

Belmode

2025 年 9 月 6 日

之前做过一个 YOLOV8 的 LOL 助手，效果确实不错。用英雄头像训练，可以记录小地图英雄最后丢失的位置和英雄丢失时间，防 gank 效果非常好。

bybyte

2025 年 9 月 6 日

@Belmode YOLO 不是 CV 领域的模型吗，，怎么是 NLP 了。。

PinkPumpkin

2025 年 9 月 6 日

yolo 不是大模型，是小模型，而且卖点就是又小又快

Jakarta

2025 年 9 月 6 日 via Android

yolo 跟大模型没啥关系，甚至是两个不同的 AI 方向，一个是视觉，一个是语言。

gpt5

2025 年 9 月 6 日

当人们提到“ai 应用”的时候，保守说，1/3 都用到了 yolo 。

srsman

2025 年 9 月 6 日

用 Hailo-8 跑

Tink

PRO

2025 年 9 月 7 日

@jackenliu #6 不是一个东西，你这个比法，相当于潜水艇比飞机

listen2wind

2025 年 9 月 7 日 via Android

想问下 yolo 可以做比如建筑垃圾、河道垃圾、违章建筑之类的一些识别区分吗？

capric

2025 年 9 月 7 日

@listen2wind 当然可以

okampfer

2025 年 9 月 7 日

@jiayouzl #10 转格式是转成 ONNX 吗？

nayenizhenmei

2025 年 9 月 7 日 via iPhone

@jiayouzl 我硕士就是搞 cv ，用 yolo 的，一般来说，工程上用 v5v8v11 ，主要是其后面的 u 公司对 yolo 的工程化比较好，也不是说其他的系列不好，对于检测精度来说肯定是越来越高速度也越来越快，但工程化角度看集成度没那么好

rrubick

2025 年 9 月 7 日

我想做一个截图记账的功能，这个应该可以用吧？

lxxiil

2025 年 9 月 7 日 via iPhone

现在写游戏脚本 yolo ，opencv ，寻路算法，这些都是是必备技能

hwdq0012

2025 年 9 月 7 日

@srsman #20 同

hwdq0012

2025 年 9 月 7 日

去年做了个工具训练 https://github.com/nocanstillbb/label-image

给公司做的更强大，加了一些网络设备的功能，标注多了缩放功能，还有一个 vncviewer 嵌入，从采集到模型部署一个软件全包了

neroxps

2025 年 9 月 7 日 via iPhone

我们产品期望用 yolo 做自助餐菜品自动识别

iOCZS

2025 年 9 月 7 日

@Jakarta 大模型是大规模预训练模型，大语言模型是大规模预训练模型的一种特定类型。

jiayouzl

2025 年 9 月 7 日

@neroxps 我实战前看了不少文章，其中就有对自助餐盘里菜品识别的文章，搭配好点的摄像头完全没问题的。

565656

2025 年 9 月 7 日

@jackenliu #6 openai 还真做不了检测, 细分场景不如

someonesnone

2025 年 9 月 7 日

超市自动识别物品称重那称, 都足够好玩

BruceWooong

2025 年 9 月 7 日

啊啊啊！ YOLO 都已经玩透了，发论文都会遭到嫌弃。难道在工业界还没有普及吗？何止 v8 ，现在 v13 （ https://arxiv.org/pdf/2506.17733 ）都有了，而且还有 DETR （ https://arxiv.org/abs/2005.12872 ）这种基于 Transformer 的模型更加厉害，第一版是 2020 年出的。你提到的 yolo 第一版是 2015 年提出来的（ https://arxiv.org/abs/1506.02640 ），到现在已经 10 年过去了。

roundgis

2025 年 9 月 7 日 via Android

@BruceWooong 我們公司也是最近才開始用

安排我負責研究怎麼用在提高生產管理上

可見一門技術要推廣並且得到廣泛使用

有漫長的過程

visper

2025 年 9 月 8 日

yolo 是一个极出色的模型，有兴趣的人都可以去试一下，以后能用到的地方就可以考虑用上。模型小，速度快，标注训练简单。转 onnx 在 java 之类里面跑也很方便。

2en

2025 年 9 月 8 日

@Belmode #15 说难听点，你这种是作弊，是挂

2en

2025 年 9 月 8 日

当年还用 yolo v5 做过自瞄，效果好而且封不掉

gsw945

2025 年 9 月 9 日 via iPhone

之前用 YOLOv5 做过发票识别，200 张图片微调训练的模型，准确率能稳在 95%以上，同发票图的准确率超过 PaddleOCR 官方 demo 。
背景说明: 有纸质发票的扫描件，需要数字化归档，识别出内容，PaddleOCR 识别出来的是很多个识别块，发票是历史发票，表格线很多缺失，也有部分扫描缺角，大部分扫描件都有倾斜，ocr 识别后，将块内容对应到字段很困难，穷尽表格识别各种算法后效果仍不好。后改变思路，参考猫狗识别的例子，以发票固定文字(字段)作为为标注分类，比如"纳税人识别号"等，标注后训练大概 2 小时不到，推理时先 YOLO 识别出各个字段的坐标范围，ocr 识别后，识别块的坐标经过比对，很容易就能对应到字段了。

AlexRoot

2025 年 9 月 9 日

@neroxps 大米好像已经有了，我感觉用 YOLO 完全可以实现。

wingor2015

2025 年 9 月 9 日

@owen800q 识别车牌这种，估计都不需要自己训练，网上应该能找到现有的模型

cz5424

2025 年 9 月 10 日 via iPhone

刚接触，有什么好用的标注平台可以推荐吗，需要得到物体的四个角位置，不是识别

lingxipaofan

2025 年 9 月 10 日

目前项目就是转 onnx 在 unity 里面做骨骼识别

layxy

2025 年 9 月 10 日

@ptstone YOLO 目前的大部分使用场景就是干你说的这个的,还有生产中的质检也会用

poorcai

2025 年 9 月 10 日

楼上说的识别车牌这种需求，以前研究 opencv 时就有很多开源的成熟的项目了！另外想问下，Yolo 和 OpenCV 的区别？

ioioj5

2025 年 9 月 10 日

刚接触

capric

2025 年 9 月 10 日

@poorcai yolo 是训练模型然后部署到目标机器上推理(目标识别，追踪)，opencv 是纯手撮用一些数学的方法(比如灰度化、二值化、边界变化)来做目标分割等

axunzzzz

2025 年 9 月 10 日

@lxxiil 老哥，寻路算法这块有啥关键词吗，最近在写一个 ARPG 游戏脚本就差寻路这块不知道怎么实现了

gsw945

2025 年 9 月 10 日 via iPhone

@cz5424 不确定你想要的是否是 LabelImg 或 LabelMe 这种标注工具

gsw945

2025 年 9 月 10 日 via iPhone

@axunzzzz 寻路算法讲的最好的: https://www.redblobgames.com/pathfinding/a-star/introduction.html ，除了 A 星(A*)，还有跳点搜索(JPS)也很常用，不过如果你的游戏是 3D 的，也可以搜索"Recast Navigation"

evilcat

2025 年 9 月 11 日

@axunzzzz 佬在写作弊器么，还是游戏自动托管😄

axunzzzz

2025 年 9 月 11 日

@gsw945 #51 感谢
@evilcat #52 算不上佬，刷子游戏想弄个全自动脚本看看效果

okampfer

2025 年 9 月 27 日

@lingxipaofan #44
ONNX runtime 不是 C++的么？是怎么用到 C#写的 unity 项目里面的？