当下人工智能的发展是前所未有的迅猛,而计算机视觉(computer vision)无疑是人工智能一个非常重要的分支,计算机视觉的发展也成为了很多科研人员和业界开发人员聚焦的热点。我们常说的无人驾驶、智能安防、人脸识别、文字识别、以图搜图、vr/ar、3d重构等等都是以计算机视觉做为技术基础的应用实践。
在计算机视觉项目的开发中,opencv作为最大众的开源库,拥有了丰富的常用图像处理函数库,采用c/c++语言编写,可以运行在linux/windows/mac等操作系统上,能够快速的实现一些图像处理和识别的任务。此外,opencv还提供了java、python、cuda等的使用接口、机器学习的基础算法调用,从而使得图像处理和图像分析变得更加易于上手,让开发人员更多的精力花在算法的设计上。
本文主要介绍opencv开发的一些基础知识以及入门上手的方法。
1、opencv的起源背景
opencv诞生于intel研究中心,其目的是为了促进cpu密集型应用。为了达到这一目的,intel启动了多个项目,包括实时光线追踪和三维显示墙。一个在intel工作的opencv作者在访问一些大学时,注意到许多顶尖大学中的研究组(如mit媒体实验室)拥有很好的内部使用的开放计算机视觉库(在学生们间互相传播的代码),这会帮助一个新生从一个很高的起点开始ta的计算机视觉研究。这样一个新生可以在以前的基础上继续开始研究,而不用去从底层编写基本函数。
因此,opencv的目的是开发一个普遍可用的计算机视觉库。在intel的性能库团队的帮助下,opencv实现了一些核心代码以及算法,并发给intel俄罗斯的库团队。这就是opencv的诞生之地:在与软件性能库团队的合作下,它开始于intel的研究中心,并在俄罗斯得到实现和优化(这再一次验证了俄罗斯程序员的卓越之处!)。
俄罗斯团队的主要负责人是俄罗斯人vadim pisarevsky,他负责管理项目、写代码并优化opencv的大部分代码,在opencv中很大一部分功劳都属于他。跟他一起,victor eruhimov帮助开发了早期的架构,valery kuriakin管理俄罗斯实验室并提供了很大的支持。在开始时,opencv就定下了以下三大目标:
(1)为基本的视觉应用提供开放且优化的源代码,以促进视觉研究的发展。能有效地避免“闭门造车”。
(2)通过提供一个通用的架构来传播视觉知识,开发者可以在这个架构上继续开展工作,所以代码应该是非常易读的且可改写。
(3)本库采用的协议不要求商业产品继续开放代码,这使得可移植的、性能被优化的代码可以自由获取,可以促进基于视觉的商业应用的发展。
这些目标说明了opencv的缘起。计算机视觉应用的发展会增加对快速处理器的需求。与单独销售软件相比,促进处理器的升级会为intel带来更多收入。这也许是为什么这个开放且免费的库出现在一家硬件生产企业中,而不是在一家软件公司中。从某种程度上说,在一家硬件公司里,在软件方面会有更多创新的空间。就像华为这样的网络通讯设备公司,与硬件相配套的软件也是非常的强大!
2、opencv简介
opencv的全称是:open source computer vision library。opencv是一个基于bsd许可(开源)发行的跨平台计算机视觉库,可以运行在linux、windows、android和mac os操作系统上。它是轻量级的,而且是高效的,由一系列c函数和少量c++类构成,同时提供了python、ruby、matlab等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。
opencv用c++语言编写,它的主要接口也是c++语言,但是依然保留了大量的c语言接口。该库也有大量的python、java and matlab/octave的接口。这些语言的api接口函数可以通过在线文档获得。如今也提供对于c#、ruby等的支持。
opencv是一个用于图像处理、分析、机器视觉方面的开源函数库。无论你是做科学研究,还是商业应用,opencv都可以作为你理想的工具库,因为对于这两者,它完全是免费的。
同时,由于计算机视觉与机器学习密不可分,该库也包含了比较常用的一些机器学习算法,比如图像识别、机器视觉在安防领域有广泛的应用。但很少有人知道,在航拍图片、街道图片(例如google street view)中,要严重依赖于机器视觉的摄像头标定、图像融合等技术。
近年来,在入侵检测、特定目标跟踪、目标检测、人脸检测、人脸识别、人脸跟踪等领域,opencv可谓大显身手,而这些,仅仅是其应用的冰山一角。
如今,来自世界各地的各大公司、科研机构的研究人员,共同维护支持着opencv的开源库开发。这些公司和机构包括:微软,ibm,索尼、西门子、google、intel、斯坦福、mit、cmu、剑桥。
计算机视觉市场巨大而且持续增长,且这方面没有标准api,如今的计算机视觉软件大概有以下三种:
(1)研究代码(慢,不稳定,独立并与其他库不兼容)
(2)耗费很高的商业化工具(比如halcon, matlab+simulink)
(3)依赖硬件的一些特别的解决方案(比如视频监控,制造控制系统,医疗设备)这是如今的现状。
如果能有一个统一的标准api,将简化计算机视觉程序和解决方案的开发,而opencv致力于成为这样的标准api。
opencv致力于真实世界的实时应用,通过优化的c代码的编写对其执行速度带来了可观的提升,并且可以通过购买intel的ipp高性能多媒体函数库(integrated performance primitives)得到更快的处理速度(注:opencv 2.0版的代码已显著优化,无需ipp来提升性能,故2.0版不再提供ipp接口)。下图为opencv与当前其他主流视觉函数库的性能比较。
3、opencv内部构成
opencv主体分为五个模块,其中四个模块如下所示:
opencv的cv模块包含基本的图像处理函数和高级的计算机视觉算法。ml是机器学习库,包含一些基于统计的分类和聚类工具。highgui包含图像和视频输入/输出的函数。cxcore包含opencv的一些基本数据结构和相关函数。
目前,opencv的最高版本为opencv4.3.0。其中opencv3.0和opencv2.0的版本相比,改动比较大,主要改动如下:
(1)大体上保留了opencv 2经典的c++和python编程接口风格。其中,python接口大大增强,也加入了python 3.x的支持。一般来说,以前版本的程序只要做少数修改,就可以使用opencv 3了。另外还改善了java接口,并且加入了matlab支持。
(2)架构调整。图片、视频编解码从highgui模块分离出来,组成了imgcodecs和videoio。原先的opencl模块ocl事实上与其 它模块融为一体,而cuda加速模块gpu分解成了数个以cuda开头的模块。此外,除了官方支持的opencv代码,还有一些自发贡献的内容、不稳定的 内容,或者版权尚存争议的内容,都放到了新的仓库opencv_contrib中。
(3)更多新算法。新版本包括了tld、鱼眼镜头模型等全新算法,还包括了一些更高层次可以直接拿来用的高级封装,比如汽车检测等。
(4)引入t-api,使opencl加速更容易。目前可以参考opencv源代码中t-api的范例。可以发现,开启和关闭opencl加速,只需要一个语句就够了。这也就是为什么ocl模块会消失了吧。
(5)更多指令集优化。除了之前为intel cpu做的优化以外,opencv 3还容纳了arm平台neon指令集的支持。通过英特尔的帮助,opencv 3对x86和x64平台默认使用ipp。下图是opencv3.0中部分函数得到加速的示意图。
下面主要介绍opencv3.0版本的东西。
opencv3.0的sources文件结构:
(1)3rdparty/,包含第三方的库,比如视频解码用的 ffmpeg,jpg、png、tiff等图片的开源解码库。
(2)apps/,包含进行 haar 分类器训练的工具,opencv 进行人脸检测便是基于 haar 分类器。如果你想检测人脸以外的图片,千万不要错过这几个工具。
(3)cmake/,包含生成工程项目时 cmake 的依赖文件,用于智能搜索第三方库,普通开发者不需要关心这个文件夹的内容。
(4)data/,包含 opencv 库以及范例中用到的资源文件,haar 物体检测的分类器位于haarcascades子文件中。
(5)doc/,包含生成文档所需的源文件以及辅助脚本。
(6)include/,包含入口头文件。opencv 子文件夹中是 c 语言风格的api,也就是《learning opencv (第一版)》中描述的api函数,官方将逐渐淘汰 c 风格函数,因此我不推荐大家使用该文件夹中的头文件。opencv2 子文件中只有一个 opencv.hpp 文件,这是 cv2 以及 cv3 推荐使用的头文件。
(7)modules/,包含核心代码,opencv 真正的代码都在这个文件夹中。opencv 从2.0开始以模块的方式组织各种功能,近两年模块的数量增长得很快,后面我会依次介绍每个模块的作用。
(8)platforms/,包含交叉编译所需的工具链以及额外的代码,交叉编译指的是在一个操作系统中编译供另一个系统使用的文件。
(9)samples/,范例文件夹。
常用模块介绍:
(1)androidcamera/,仅用于android平台,使得可以通过与其他平台相同的接口来控制android设备的相机。
(2)core/,核心功能模块,定义了基本的数据结构,包括最重要的 mat 类、xml 读写、opengl三维渲染等。
(3)imgproc/,全称为 image processing,即图像处理。包括图像滤波、集合图像变换、直方图计算、形状描述子等。图像处理是计算机视觉的重要工具。
(4)imgcodec/,负责各种格式的图片的读写,这个模块是从以前的 highgui 中剥离的。
(5)highgui/,高级图形界面及与 qt 框架的整合。
(6)video/,视频分析模块。包括背景提取、光流跟踪、卡尔曼滤波等,做视频监控的读者会经常使用这个模块。
(7)videoio/,负责视频文件的读写,也包括摄像头、kinect 等的输入。
(8)calib3d/,相机标定以及三维重建。相机标定用于去除相机自身缺陷导致的画面形变,还原真实的场景,确保计算的准确性。三维重建通常用在双目视觉(立体视觉),即两个标定后的摄像头观察同一个场景,通过计算两幅画面中的相关性来估算像素的深度。
(9)features2d/,包含 2d 特征值检测的框架。包含各种特征值检测器及描述子,例如 fast、mser、obrb、brisk等。各类特征值拥有统一的算法接口,因此在不影响程序逻辑的情况下可以进行替换。
(10)objdetect/,物体检测模块。包括haar分类器、svm检测器及文字检测。
(11)ml/,全称为 machine learning,即机器学习。包括统计模型、k最近邻、支持向量机、决策树、神经网络等经典的机器学习算法。
(12)flann/,用于在多维空间内聚类及搜索的近似算法,做图像检索的读者对它不会陌生。
(13)photo/,计算摄影学。包括图像修补、去噪、hdr成像、非真实感渲染等。如果读者想实现photoshop的高级功能,那么这个模块必不可少。
(14)stitching/,图像拼接,可用于制作全景图。
(15)nonfree/,受专利保护的算法。包含sift和surf,从功能上来说这两个算法属于features2d模块的,但由于它们都是受专利保护的,想在项目中可能需要专利方的许可。
(16)shape/,形状匹配算法模块。用于描述形状、比较形状。
(17)softcascade/,另一种物体检测算法,soft cascade 分类器。包含检测模块和训练模块。
(18)superres/,全称为 super resolution,用于增强图像的分辨率。
(19)videostab/,全称为 video stabilization,用于解决相机移动时拍摄的视频不够稳定的问题。
(20)viz/,三维可视化模块。可以认为这个模块实现了一个简单的三维可视化引擎,有各种ui控件和键盘、鼠标交互方式。底层实现基于 vtk 这个第三方库。
cuda加速模块,cuda 是显卡制造商 nvidia 推出的通用计算语言,在cv3中有大量的模块已经被移植到了cuda 语言。
(1)cuda/,cuda-加速的计算机视觉算法,包括数据结构 cuda::gpumat、 基于cuda的相机标定及三维重建等。
(2)cudaarithm/,cuda-加速的矩阵运算模块。
(3)cudabgsegm/,cuda-加速的背景分割模块,通常用于视频监控。
(4)cudacodec/,cuda-加速的视频编码与解码。
(5)cudafeatures2d/,cuda-加速的特征检测与描述模块,与features2d/模块功能类似。
(6)cudafilters/,cuda-加速的图像滤波。
(7)cudaimgproc/,cuda-加速的图像处理算法,包含直方图计算、霍夫变换等。
(8)cudaoptflow/,cuda-加速的光流检测算法。
(9)cudastereo/,cuda-加速的立体视觉匹配算法。
(10)cudawarping/,实现了 cuda-加速的快速图像变换,包括透视变换、旋转、改变尺寸等。
(11)cudaev/,实现 cuda 版本的核心功能,类似 core/ 模块中的基础算法。
4、在vs2013中配置使用opencv
了解了opencv 的数据结构和功能后,下面介绍opencv 的配置,win7 64 + vsw2013 + opencv3.0步骤。
(1)下载安装opencv 3.0。下载地址:https://opencv.org/releases/。
(2)配置环境变量:计算机属性->高级系统设置->环境变量->path->变量值。
(3)配置vs2013。首先打开vs2013建立一个win32控制台项目。然后,在“项目->工程属性->vc++目录”中,加入包含目录
..opencvuildinclude; ..opencvuildincludeopencv;
..opencvuildincludeopencv2。(..代表opencv安装的文件夹目录)
加入库目录..opencvuild\x64vc12lib。
“项目->工程属性->链接器->输入->附加依赖”中添加附加依赖项。
opencv_ts300d.lib;opencv_world300d.lib
配置完成后,就可以在vs2013中使用opencv3.0中的函数了。
5、在vs2013中简单的调用opencv
经过以上的基础知识介绍后,就可以进行入门的实践了。在上面配置完成的工程中,来显示一幅幅图片,验证一下是否成功。
在解决方案资源管理器中,打开源文件main.cpp(没有可以自己创建),添加以下代码
#include
using namespace cv;
int main(){
mat src = imread(lena.jpg); //图片必须添加到工程目录下
imshow(src , src);
waitkey();
}
然后点击本地windows调试器,或者按f5运行程序,程序启动后就可以显示这张图像了
6、总结
本文简单的介绍了opencv的起源和应用领域,以及基本数据结构和组成,可以作为opencv开发的一般入门指导。希望能对大家有所帮助。
汽车蓄电池低电量报警系统设计
AMD锐龙9 3990X处理器无人能挡 未来一两年内都不太可能有同级别的对手出现
[图文]扩大三端稳压块的输入电压范围
交流弧焊机的保养内容
rtu水文专用(支持SL/T427-2021等大部分协议)
OpenCV的起源和应用领域
iPhone4被制成标本售卖 售价1000 你会买吗
尊嘟假嘟,中兴通讯星辰探月免费送!
元器件导航器实现个性化设置
医院场景会不会成为医用机器人行业下一个重点细分行业?
AGV类型及导航形式为您提供详尽解读
5G为何在通信史上别具意义?
华为Mate40系列服务升级:华为智慧助手•今天打造全链路服务
华为p10和小米5c长一样,难道这是今年的新潮流?
大佬预测:2030年的汽车市场将是啥样?
ADI搭建物理与数字世界的桥梁助推创新进入快车道
UJT松弛振荡器电路分享
《重庆市自动驾驶道路测试管理办法》征求意见发布
雷诺卡缤:五星碰撞佳绩,高科技配置超越同级
区块链可以解决哪些中心化方式都解决不了的问题