任何一个会用 Python 的人,入门 CV 只需要一周:三天看一篇 CV 今年的 paper,两天搞定 Github 上的源码,两天自己调参,加起来一共七天。
肯定有人骂我:“看一篇 paper 就能入门计算机视觉?”
我觉得还真的算入门,因为我在面试中遇到过太多这样的人了。看了几篇 paper,发几篇水会,就自信满满的来面试了。最可怕的是,HR 还真的把简历初筛给他过了,是不是非常 amazing 。
都能参加面试了,难道还不算入门?
当然,如果你连 Python 基础都没有,可能你还需要再上几节 7 天入门 Python 小课。
当然,我得给各位泼个冷水:看得懂论文、发得了 paper 当然算得上入门,但一般这类人在面试中只能成为炮灰。计算机视觉入门容易,但精进困难,想要拿到好的 offer,还是要老老实实学 CV:看资料、看网课、做项目、最重要的是,潜下心去学!
所以,我整理了 CV 从入门到精(放)通(弃)的全部资料,覆盖视频、书籍、网课、练手项目、常见面试题,有需要的朋友尽管自取:
主要要有一定的高等数学知识,包括概率论、数理统计、矩阵论、多变量微积分、线性代数、信息论等。
这种偏理论的东西,视频也不用看太多了,大学基础知识应该就学得差不多了。如果你的基础确实很差,这里推几本工具书,不必熟读,需要的时候看一看即可:
概率论与数理统计:包括初等概率计算、随机变量及其分布、数字特征、多维随机向量、极限定理、统计学基本概念、点估计与区间估计、假设检验、回归相关分析、方差分析等。书中精选了百余道习题,并在书末附有提示与解答。书讲的非常细,循循善诱这个词用在这里再恰当不过。
线性代数与矩阵论:这本书里面的知识点很全面,基本涵盖了北大第三版的《高等代数》和蒋尔雄的《线性代数》等书的内容,是国内难得的一本讲矩阵讲的很翔实的书,但作为从空间角度的描述还是不够,配合张贤科的高等代数会很好的了解矩阵于变换。
信息论基础:主要内容包括:熵、信源、信道容量、率失真、数据压缩与编码理论和复杂度理论等方面的介绍。把信息论的主要思想,以及这些思想在包括博弈、金融、数学、物理、算法复杂性等理论的应用都讲出来了,而且能够把信息论之中蕴含的深刻科学思想讲出来。
编程基础主要包含 Python 和 matlab 。
《算法基础班 Python 》:这是市面上比较全面且内容详实的 Python 入门课。从基础的算法与数据结构讲起,还覆盖了大量的老师手把手教 coding 环节。不但能让你学会编程,还让你从中掌握算法和数据结构的知识框架,构建完善的知识体系。
《 MATLAB 》:主要是介绍 matlab 的一些基本语法和数据结构,这方面讲得还可以,能解决你很多问题。
工具上,现在一般是用框架,其他常用的框架tensorflow 、pytorch 、mxnet。
基础知识入门后,想把这些零散的知识点应用起来还需要具体的实战。这时候我推荐去看一些相关的视频 /网课。我个人是不排斥上课的,只要不是那种纯属捞钱的课,有个行业资深的老师帮你领进门再好不过。
入了门之后,无论是自学还是在工作中学习都会轻松许多,而不是一味拆东墙补西墙。
《 AI 入门项目课:3 节课玩转 KNN & CNN 》:基于 keras,TensorFlow 框架的 AI 入门项目课,零基础也通用。通过 2 个 AI 基础项目了解 KNN 和 CNN,快速入门人工智能。主讲老师讲得真的很不错,生动易懂,如果对于入门有点难度,可以来免费体验一下本课。
**CS231n**:斯坦福社区的课程,介绍了计算机视觉的所有必须掌握的基础知识。在 Youtube 上有课程视频,课后练习也非常实用,能带你快速入门 CV 。
**深度学习**:GitHub 大佬的深度学习课程,涉及深度学习和表示学习的最新技术,重点是有监督和无监督的深度学习,嵌入方法,度量学习,卷积和递归网络,并应用于计算机视觉,自然语言理解和语音识别。
可以说在 CV 方向的学习和求职中,项目是不可缺少的一环。除了在《 AI 入门项目课:3 节课玩转 KNN & CNN 》**的两个项目,还可以去挑战一些更深度的项目,一来是面试官再怎么问也不虚,就着项目延伸知识点,二来可以极大增加简历通过率。
这时候就要祭出 GitHub 这个宝库了:
**中文车牌识别系统**:EasyPR 是一个开源的中文车牌识别系统,其目标是成为一个简单、高效、准确的非限制场景(unconstrained situation)下的车牌识别库。
**物体检测**:这是用于对象检测的高分辨率表示形式的官方代码。从高分辨率构建多级表示,并将其应用于 Faster R-CNN,Mask R-CNN 和 Cascade R-CNN 框架。
**真实场景中的镜子和玻璃检测**:一个很有意思的项目,简单来说就是检测出场景中的镜子。由于镜子和玻璃没有自己的外观,因此开发自动算法进行检测和分段并不是一件容易的事。但是,如果我们无法可靠地检测到它们,则可能会出现问题。例如,基于视觉的深度传感器可能会错误地估计一块镜子 /玻璃的深度,因为它内部的物体的深度,机器人可能没有意识到镜子 /玻璃墙的存在以及无人机可能碰撞成高楼。
到这个阶段,我相信再怎么诸神内卷,你也找到工作了。
这时候我也没有太多的资料可以推荐给你,每个人都在自己的知识领域往深处挖,这时候的学习更多的依托在工作中的不断升级和被迫接受行业前沿知识。
有人说 CV 已经没有前途了,实际上,但凡是有脑子的人都知道:每个行业一定一直会有“闷声发大财”的人。计算机再卷,难道就没人想进大厂了?考公 /考研再难,难道每年的考公 /研人数下滑了?
别危言耸听了,做好自己。
既然选择了远方,便只能风雨兼程。不想被“卷”走,就做不可被替代的那个。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.