图像处理依赖于得到一幅图像(例如,一张照片和一个视频帧)并通过应用信号处理技术的“播放”(playing)来得到预期的结果。
本节展示如何使用由 OpenCV 提供的函数从文件中读取图像。
OpenCV 基本 API 概念
Mat 类是存储和操作 OpenCV 中图像的主要数据结构。这个类是在 core 模块中定义的。OpenCV 已经实现了对于这些数据结构自动分配和释放内存的机制。但是,当数据结构共享相同的缓冲存储器时,程序员仍然应该特别注意。
例如,赋值运算符并没有从一个对象(Mat A)到另一个对象(Mat B)复制内存内容;而只是对其引用(相应内容的存储地址)的复制。之后,一个对象(A 或 B)的改变对两个对象都有影响。为了复制一个 Mat 对象的内存内容,应该使用成员函数 Mat::clone()。
注意,OpenCV 中的许多函数在处理密集的单通道或多通道数组时,常使用 Mat 类。但是在某些场合,使用一个不同的数据类型可能很方便。例如,std::vector<>、Matx<>、Vec<> 或 Scalar。为此,OpenCV 提供了代理类 InputArray 和 OutputArray,允许前面的任意类型作为函数的参数使用。
Mat 类用于密集的 n 维单通道或多通道数组。实际上它可以存储实数或复数值向量和矩阵、彩色图像或灰度图像、直方图、点云等。
有许多种不同的方式可用来创建一个 Mat 对象,最流行的方法是构造函数,其数组的大小和类型被指定为:
Mat(nrows,ncols,type,fillValue)
数组元素的初始值可以由 Scalar 类设置为一个典型的四元素向量(对于存储在数组中的图像的每个 RGB 和透明度分量)。下面展示 Mat 的一个使用示例:
Mat img_A(4,4,CV_8U,Scalar(255));
//白色图像;
//具有 8 位无符号整数的 4x4 单个通道数组
//(最多 255 个值,对灰度图像有效,例如,255=白色)
DataType 类定义 OpenCV 的基本数据类型。基本数据类型可以是 bool、unsigned char、signed char、unsigned short、signed short、int、float、double 或者是以这些基本类型之一的值构成的一个元组(或称数组)。任何基本类型都可以用一个标识符以下面的形式定义:
CV_<bit depth>{U|S|F}C(<number of channels>)
在上面的代码中,U、S 和 F 分别代表 unsigned、signed 和 float 数据类型。
对于单通道数组,可应用下面的枚举类型,其数据类型的描述为:
enum{CV_8U=0,CV_8S=1,CV_16U=2,CV_16S=3,CV_32S=4,CV_32F=5,CV_64F=6};
需要注意的是,这三个声明是等价的:CV_8U、CV_8UC1 和 CV_8UC(1)。该单通道声明最适合于灰度图像的整型数组,然而一个数组的三通道声明更适合于具有三个分量(例如,RGB、BRG、HSV 等)的图像。对于线性代数运算,可以使用 float(F) 类型的数组。
我们可以为多通道数组(高达 512 个通道)定义上面所有的数据类型。图 1 说明一幅具有单个通道(CV_8U,灰度)图像的内部表示和具有三个通道(CV_8UC3,RGB)的同一幅图像。图 1 是通过在一个 OpenCV 可执行文件(showImage 示例)的窗口中所显示的一幅图像的放大来获得的:
图 1 一幅 RGB 彩色图像和灰度图像的一个 8 位表示
注意,使用 OpenCV 函数正确地保存一幅 RGB 图像是很重要的,该图像必须按照 BGR 通道顺序在内存中存储。按照同样的方式,当从一个文件中读取一幅 RGB 图像时,应按照 BGR 通道顺序将其存储在内存中。而且,需要补充第四个通道(alpha)来处理具有三个通道(RGB)的图像,加上了一个透明度。对于 RGB 图像,整数值越大,意味着像素更亮或 alpha 通道更透明。
所有的 OpenCV 类和函数都在 cv 命名空间(namespace)中,因此,在源代码中还有如下两个选项:
- 在包含头文件后还应添加使用命名空间 cv 的声明(using namespace cv)(这是本书所有代码示例所使用的选项)。
- 对用到的所有 OpenCV 类、函数和数据结构上附加 cv:: 前缀。如果由 OpenCV 提供的外部名字与常用的标准模块库(standard template library,STL)或其他库冲突,那么就推荐使用这个选项。
OpenCV支持图像文件的格式
OpenCV 支持最常见的图像格式。但是,某些图像格式需要(免费提供的)第三方类库。由 OpenCV 支持的主要格式有:
- Windows bitmaps(*.bmp、*dib);
- Portable image formats(*.pbm、*.pgm、*.ppm);
- Sun rasters(*.sr、*.ras);
需要辅助库的格式有:
- JPEG(*.jpeg、*.jpg、*.jpe);
- JPEG 2000(*.jp2);
- Portable Network Graphics(*.png);
- TIFF(*.tiff、*.tif);
- WebP(*.webp);
对于 OpenCV 3.0 版本,除了上面列出的格式外,它还包含一个由地理数据抽象库(Geographic Data Abstraction Library,GDAL)所支持格式(NITF、DTED、SRTM等)的驱动器,通过 CMake 的选项 WITH_GDAL 来设置。注意,在 Windows OS 上,对 GDAL 的支持还没有经过广泛测试。
在 Windows 和 OS X 中,默认对这些格式(libjpeg、libjasper、libpng和libtiff)使用 OpenCV 附带的编解码器。之后,在这些操作系统中,可以读取 JPEG、PNG 和 TIFF 格式。Linux(和其他类 UNIX 开源操作系统)会寻找安装在系统中的编解码器。在 OpenCV 之前,可以安装编解码器或从 OpenCV 包中通过在 CMake 中设置正确的选项(例如,BUILD_JASPER、BUILD_JPEG、BUILD_PNG 和 BUILD_TIFF)来构建其他库。
OpenCV示例代码
为了说明如何使用 OpenCV 读、写图像文件,现在,我们将描述 showImage 示例,如图 2 所示。
图 2 showImage示例的输出窗口
从命令行执行该示例,对应的输出窗口如下:
<bin_dir>\showImage.exe fruits.jpg fruits_bw.jpg
在本示例中,两个文件名称作为参数给出。第一个是读取的输入图像文件。第二个是使用输入图像的一个灰度副本写入的图像文件,接下来,展示源代码及其说明:
- #include <opencv2/opencv.hpp>
- #include <iostream>
- using namespace std;
- using namespace cv;
- int main(int, char *argv[])
- {
- Mat in_image, out_image;
- // Usage: <cmd> <file_in> <file_out>
- //读取原始图像
- in_image = imread(argv[1], IMREAD_UNCHANGED);
- if (in_image.empty()) {
- //检查是否读取图像
- cout << "Error! Input image cannot be read...\n";
- return -1;
- }
- //创建两个具有图像名称的窗口
- namedWindow(argv[1], WINDOW_AUTOSIZE);
- namedWindow(argv[2], WINDOW_AUTOSIZE>;
- //在之前创建的窗口中显示图片
- imshow(argv[1], in_image);
- cvtColor(in_image, out_image, COLOR BGR2GRAY);
- imshow(argv[2], in_image);
- cout << "Press any key to exit...\n";
- waitKey(); // Wait for key press
- //写入图像
- imwrite(argv[2], in_image);
- return 0;
- }
此处,使用 #include 指令包含 opencv.hpp 头文件,实际上,它包含所有的 OpenCV 头文件。通过包含该单个文件,不再需要包含其他文件。
声明所使用的 cv 命名空间之后,在这个命名空间内的所有变量和函数都不再需要 cv:: 前缀。在主函数中要做的第一件事情就是检查命令行中传递的参数个数。之后,如果出现错误,则显示一个帮助消息。
OpenCV读取图像文件
如果参数个数正确,那么使用函数 imread(argv[1],IMREAD_UNCHANGED)将图像文件读入到 Mat 对象 in_image 中。这里,第一个参数是在命令行中传递的第一个实参(argv[1]),第二个参数是一个标志(IMREAD_UNCHANGED),这就意味着存储到内存图像中的图像不会被改变。函数 imread 决定图像类型(编解码器)来自文件内容而不是来自文件扩展名。
函数 imread 的原型如下:
Mat imread(const String& filename,int flags = IMREAD_COLOR)
flag 指定读取图像的颜色,并在 imgcodecs.hpp 头文件中由如下枚举类型定义和解释:
- enum { IMREAD_UNCHANGED = -1, // 8 位,彩色或非彩色
- IMREAD_GRAYSCALE = 0, // 8 位,灰度
- IMREAD_COLOR = 1, //未改变深度、颜色
- IMREAD_ANYDEPTH = 2, //任意深度,未改变颜色
- IMREAD_ANYCOLOR = 4, //未改变深度,任意颜色
- IMREAD_LOAD_GDAL = 8 // 使用 gdaL 驱动程序
- };
注意,在 OpenCV 3.0 版本中,函数 imread 是在 imgcodecs 模块中,而不是像 OpenCV 2.x 在 highgui 模块中。另外,因为一些函数和声明被移入到 OpenCV 3.0 中,所以连接器可能会由于找不到一个或多个声明(符号和/或函数)而得到一些编译错误。
为了弄清楚在什么地方(*.hpp)定义一个符号并且链接到哪个库,推荐使用 Qt 生成器 IDE 的如下技巧:向代码添加声明 #include<opencv2/opencv.hpp>。将鼠标光标放在该符号或函数上并按 F2 功能键;这样就会打开声明了该符号或函数的 *.hpp 文件。
读取输入的图像文件之后,应检查操作是否成功。可使用成员函数 in_image.empty() 来实现这个检查。如果读取图像文件时没有发生错误,会创建两个窗口分别显示输入图像和输出图像。使用如下函数进行窗口的创建:
void namedWindow(const String& winname,int flags = WINDOW_AUTOSIZE)
OpenCV 窗口是通过程序中一个意义明确的名字来识别的。通过下面 highgui.hpp 头文件中的枚举给出该标志的定义及其说明:
- enum { WINDOW_NORMAL = 0x00000000,
- //用户可以调整窗口的大小(无约束)
- //还可以将一个全屏窗口切换为常规窗口
- WINDOW_AUTOSIZE = 0x00000001,
- //用户不能调整窗口的大小,
- //窗口的大小由显示的图像所限制
- WINDOW_OPENGL = 0x00001000, // OpenGL 支持的窗口
- WINDOW_FULLSCREEN = 1,
- WINDOW_FREERATIO=0x00000100,
- //图像可任意使用(调整图像时可没有比例限制)
- WINDOW_KEE PRATIO = 0x00000000
- //调整图像时保持图像的缩放比例
- };
一个窗口的创建不会在屏幕上显示任何内容。在一个窗口中显示一幅图像的函数(属于 highgui 模块)是:
void imshow(const String& winname,InputArray mat)
如果使用 WINDOW_AUTOSIZE 标志创建该窗口(winname),那么所显示的是原始大小的图像(mat)。
在 showImage 示例中,第二个窗口显示输入图像的一个灰度副本。为了将一幅彩色图像转换为灰度图像,使用 imgproc 模块的函数 cvtColor。实际上使用这个函数来改变图像的颜色空间。
在一个程序中创建的任何窗口都可以从默认设置下调整大小和进行移动。当不再需要任何窗口时,应该销毁窗口,以便释放其资源。像示例中那样,在一个程序结束时,会隐式地完成资源的释放。
在内部循环中处理事件
如果在一个窗口上显示一幅图像之后不再做任何事情,出乎意料地,将不再显示图像。在一个窗口显示一幅图像之后,我们应该开始一个循环,以获取和处理与用户和窗口交互有关的事件。通过如下函数可执行这样一个任务(从 highgui 模块中):
int waitKey(int delay=0)
这个函数在数毫秒(delay>0)内等待一个按键操作,并返回键的编码,如果延迟结束时没有按键则返回 -1。如果 delay 是 0 或负数,那么函数一直等待直到一个键被按下。
记住,只有至少创建和激活一个窗口时,函数 waitKey 才会工作。
OpenCV写入图像文件
imgcodecs 模块中的另一个重要函数是:
bool imwrite(const String& filename,InputArray img,const vector<int>& params=vector<int>())
这个函数将一幅图像(img)保存到一个文件(filename),作为第三个可选参数,一个“属性-值”对的向量指定编解码器的参数(为使用默认值将其设置为空)。编解码器由文件的扩展名决定。