传送门: https://github.com/vkit-dev/vkit
一图胜千言😄:
项目简介
vkit 是一个面向计算机视觉(特别是文档图像分析与识别方向)开发者的工具包,特性如下:
-
丰富的数据增强策略支持
- 支持常见的光度畸变策略,如各类色彩空间操作、各类噪音操作
- ⭐ 支持常见的几何畸变策略,如各类仿射变换、各类非线性变换(如 Similarity MLS ,基于相机模型的 3D 曲面、翻折效果等)
- ⭐ 支持在几何畸变过程中,图片与各种标注数据类型的一致变换。例如,在旋转图片的同时,vkit 也可以同时旋转关联标注的位置信息
-
较为全面的数据类型封装与可视化支持
- 图片类型(基于 PIL 的封装,支持各类图片的读写)
- 标注类型:蒙板( mask )、评分图( score map )、框( box )、多边形( polygon ) 等
-
工业级代码质量
- 友好的代码自动补全与类型检查支持,为开发体验保驾护航
- 成熟的包管理与依赖管理机制
- 自动化风格检查(基于 flake8 )与静态类型分析(基于 pyright )
注:
- 🚧 表示施工中,未完全支持
- ⭐ 表示本项目的亮点(其他项目没有,或是做得不够好的地方)
项目愿景
作者作为一名 CV/NLP 算法工程师,希望可以通过 vkit 这个项目,从以下几个方面给大家提供便利:
- 将开发者从繁琐的数据治细节中解放出来,将宝贵的时间放在更有价值的工作上,如数据治理策略、算法模型设计与调优等
- 整合常见的数据增强策略,助力文档图像分析与识别方向的科研工作、构建工业级场景数据方案(即工业界算法落地所需的那点 "secret sauce")
- 构建工业级开源文档图像分析与识别解决方案(如扭曲复原、超分辨率、OCR 、版面分析等)