基于OpenVINO™ 2022.2与oneAPI构建GPU视频分析服务流水线

科学与技术
实时 ai 视频分析是一种基于人工智能的技术，可分析视频流以检测特定行为和事件。这种类型的系统通过人工智能机器学习引擎检查来自监控摄像头的视频流来进行相关工作。该引擎使用一系列深度学习算法和程序来理解数据，并将数据转换为可理解的、有意义的信息。
以车辆检测这是任务为例，我们可以把 ai 视频分析分为以下几个通用步骤：
1. 视频流拉流
2. 媒体解码
3. 图像前处理缩放
4. 深度学习推理，识别车辆
5. 后处理画框
6. 媒体编码传输
7. 分析结果可视化呈现
图：通用 ai 视频分析流程
随着边缘计算技术的日渐成熟，我们逐步将 ai 算力与分析服务下沉到边缘设备侧，以获取更好的实时性，并减少视频流传输对于带宽资源的占用。此时，ai box 边缘计算设备将作为媒体数据分析的核心节点，直接接入并读取 ip 摄像头编码后的视频流数据，进行实时的解码和推理工作，并将结果数据推送至后端机房。后续配合视频监控服务机完成对推理结果的后处理分析与告警，以及将编码后的事件关键帧留存，以供人工追溯。
鉴于边缘测的算力资源有限，大家不难发现这个流程中性能的瓶颈往往会发生在 ai box 的视频解码或者是推理任务中。同时出于方案成本的考虑，我们也希望可以用相同的硬件资源，接入更多路的视频流分析业务，因此如何进一步优化这部分的工作流程，便成为了本示例希望分享的核心重点。
图：边缘 ai 视频分析架构
1. openvino 工具套件简介
用于高性能深度学习的英特尔发行版 openvino 工具套件基于 oneapi 而开发，以期在从边缘到云的各种英特尔平台上，帮助用户更快地将更准确的真实世界结果部署到生产系统中。通过简化的开发工作流程，openvino 工具套件可赋能开发者在现实世界中部署高性能应用程序和算法。
在推理后端，得益于 openvino 工具套件提供的“一次编写，随处部署”特性，转换后的模型能够在不同的英特尔硬件平台上运行，无需重新构建，有效简化了构建与迁移过程。此外，为了支持更多的异构加速单元，openvino 工具套件的 runtime api 底层采用了插件式的开发架构，基于 oneapi 中的 mkl-dnn、onednn 等函数计算加速库，针对通用指令集进行优化，为不同的硬件执行单元分别实现了一套完整的高性能算子库，提升模型在推理运行时的整体性能表现。
这里值得提一句的是，目前 openvino 2022.2版本可以直接支持英特尔最新的独立显卡产品（dgpu）执行推理任务。
可以参考文章：
官宣：支持英特尔独立显卡的openvino 2022.2新版本来啦
2. 英特尔 oneapi 简介
英特尔 oneapi 是一项行业倡议，旨在创建一个开放、基于标准的跨架构编程模型，在面对大量跨各种架构（cpu、gpu、fpga 和其他加速器）的工作负载时简化开发工作。它包括跨架构语言 data parallel c ++（基于 iso c ++ 和 khronos group 的 sycl）、高级库和社区扩展。许多公司、研究机构和大学均支持 oneapi。
作为 oneapi 中最重要的高级库组件之一，onevpl （intel oneapi video processing library）可以在英特尔的 cpu、gpu 等硬件平台上实现对视频数据的解码，编码与处理功能，支持 avi，h.256 (hevc)，h.264 (avc)，mpeg-2，vp9 等多种媒体标准的硬件解码能力。目前 onevpl 已经适配以下型号的 gpu 硬件：
11th generation intel core processors with xe architecture gpus
intel iris xe max
intel arc a-series graphics
intel data center gpu flex series
upcoming gpu platforms
更多关于英特尔硬件编解码格式的支持可以参考
任务开发流程
该方案将依托于英特尔的 gpu 设备执行视频分析业务，主要有以下几个原因：
通常情况下，在性能和功耗等方面，相较 cpu 的软解码，gpu 中专用编解码器往往可以提供更强大的硬件解码能力，输入视频的分辨率越高，这里的性能差异也越明显。
此外鉴于 gpu 设备在并行能力上的优势，openvino 在调用英特尔最新的集成显卡 igpu 和独立显卡 dgpu 推理时，也能发挥出比较优异的吞吐量表现。
最后调用 gpu 推理也能最大化提升英特尔架构的资源利用率，在边缘计算的任务架构中，系统不需要 gpu 来处理图像的渲染业务，而 cpu 往往需要承担更多资源调度方面的工作，通过将视频分析任务搬运到 cpu 自带的集成显卡中，不光能充分利用这部分闲置的资源，并且可以减轻 cpu 上的工作负载，进一步优化方案成本。
因此我们要确保在整个视频流分析链路中，中间数据可以被“保留”在 gpu 的内存中，避免与 host 之间额外的传输开销，同时也减少在同一设备中的数据搬运，也就是所谓的“零拷贝”，从而实现 gpu 处理性能的最大化。
图：gpu 视频分析流水线
接下来我们就通过一个简单的单通道示例，还看下如何优化 gpu 上的视频分析服务。在这个示例中，输入数据是一段 h.265 的视频文件，我们可以把整个流水线分成以下4个部分，分别对应 onevpl 和 openvino 工具套件中不同的组件接口。
1. 视频解码（libva）
onevpl依赖于libva库，通过对va-api （video acceleration api）接口的上层封装，实现了 gpu 硬件编解码能力。在这个示例中关于解码部分可以有以下几个步骤被抽象出来：
利用 mfxvideodecode_init 接口，通过 onevpl session 初始化解码模块：
sts = mfxvideodecode_init(session, &mfxdecparams);
向右滑动查看完整代码
读取视频流，并封装到 bitstream buffer 中：
sts = readencodedstream(bitstream, source);
向右滑动查看完整代码
调用 mfxvideodecode_decodeframeasync 接口执行解码任务，将解码后的数据写入 pmfxdecoutsurfac 地址
sts = mfxvideodecode_decodeframeasync(session,                                       (isdrainingdec) ? null : &bitstream,                                       null,                                       &pmfxdecoutsurface,                                       &syncp);
向右滑动查看完整代码
2. 图像缩放（vpp）:
接下来使用 onevpl 中的 vpp（video processing functions）模块来实现对于图像的缩放处理，首先我们需要定义一些关键参数，例如输出图像的色彩通道与缩放后的图像尺寸，这里为了能实现编码输出与推理输入的零拷贝共享，我们需要将输出的色彩格式设置为 nv12：
mfxvppparams.vpp.out.fourcc = mfx_fourcc_nv12;mfxvppparams.vpp.out.chromaformat  = mfx_chromaformat_yuv420;mfxvppparams.vpp.out.width         = align16(vppoutimgwidth);mfxvppparams.vpp.out.height        = align16(vppoutimgheight);
向右滑动查看完整代码
利用 mfxvideovpp_init 接口，初始化 vpp 模块：
sts = mfxvideovpp_init(session, &mfxvppparams);
向右滑动查看完整代码
将解码后的输出数据地址送入 mfxvideovpp_processframeasync 接口，进行图像缩放处理，并以指定的色彩通道输出：
mfxvideovpp_processframeasync(session, pmfxdecoutsurface, &pmfxvppsurfacesout);
向右滑动查看完整代码
3. 色彩空间与数据排布转换（openvino preprocessing api）：
preprocessing api 是openvino 2022.1版本中新增加的一个功能，可以实现将一些常规的前处理操作以 node 节点的形式集成到openvino模型的 runtime 执行图中，从而实现将这部分计算过程加载到指定的硬件平台进行执行，同时利用 openvino 强大的模型加速能力，提升前处理任务性能，这里可以被支持的前处理任务包含：
精度转换：u8 buffer to fp32
layout转换：transform to planar format: from {1, 480, 640, 3} to {1, 3, 480, 640}
resize ：640x480 to 224x224
色彩空间转换：bgr->rgb
normalization：mean/scale
图：preprocessing api 功能示意
这里我们将部分 vpp 不支持的前处理算子，通过 preprocessing api 的方式将他们放到 gpu 上去执行，一方面可以减少 cpu 上任务的负载，一方面可以避免额外的 device to host 内存拷贝。查询 open model zoo 的预训练模型说明可知，本示例用到车辆检测模型的输入数据通道要求为 bgr，数据排布为 nchw，因此在调用 preprocessing api 时，我们需要实现这两种格式的转换：
图：vehicle-detection-0200 模型输入要求说明
回到代码部分，我们调用 pre_post_process 头文件中的相应函数实现对 vpp 输出数据的色彩空间转换（yuv->bgr）和排布转换（nhwc->nchw），并且最终通过 build 方法，将这部分前处理任务集成到原始模型的执行图中，生成新的 model 对象:
auto p = prepostprocessor(model);p.input().tensor().set_element_type(ov::u8)                 // yuv images can be split into separate planes                 .set_color_format(ov::nv12_two_planes, {y, uv})                 .set_memory_type(ov::surface);// change color formatp.input().preprocess().convert_color(ov::bgr);  // change layoutp.input().model().set_layout(nchw);model = p.build();
向右滑动查看完整代码
此处，nv12 会被拆分为 y 和 uv 两个分量，如果不执行 nchw 的转换，运行时会由于通道维度不匹配而报错。
4. 模型推理（openvino runtime）：
为了实现零拷贝的诉求，该示例中用到的 openvino 的“remote tensor api of gpu plugin”相关接口，以实现与 va-api 组件对于 gpu 内存中视频数据的共享。具体步骤如下：
创建 gpu 中共享内存的上下文：
auto shared_va_context = ov::vacontext(core, lvadisplay);
向右滑动查看完整代码
获取vpp输出结果的句柄，并通过 create_tensor_nv12 接口将 va-api surface 转化并封装成 openvino 的 tensor 内存对象：
lvasurfaceid = *(vasurfaceid *)lresource;// wrap vpp output into remoteblobs and set it as inference inputauto nv12_blob = shared_va_context.create_tensor_nv12(height, width, lvasurfaceid);
向右滑动查看完整代码
在推理请求中载入该内存对象，并执行推理：
infer_request.set_tensor(new_input0->get_friendly_name(), nv12_blob.first);infer_request.set_tensor(new_input1->get_friendly_name(), nv12_blob.second);// start inference on gpuinfer_request.start_async();infer_request.wait();
向右滑动查看完整代码
可以发现，不同于原始模型，这里输入数据变成两份，原因是在上一步调用 preprocessing api 的过程中，我们将 nv12 还原到 y 和 uv 两个分量，所以原始模型的输入数据数也要做相应调整。
参考示例使用方法
本示例已在 ubuntu20.04 及第十一代英特尔酷睿 igpu 及a rca380dgpu 环境下进行了验证。
1. 下载示例
2. 安装相应组件和依赖
可以参考该示例仓库中的readme文档进行环境安装：
https://github.com/openvino-dev-contest/decode-infer-on-gpu
3. 下载预训练模型
这个示例中我们用到了 open model zoo 的 vehicle-detection-0200 模型用于对视频流中的车辆进行检测，具体下载命令如下：
4. 编译并执行推理任务
5. 运行输出
最终效果如下：
该示例会输出每一帧画面中被检测到车辆的置信度，以及在画面中的坐标信息等。
结论
利用 oneapi 的 onevpl 组件，以及 openvino 的 preprocessing api 和 remote tensor 接口，我们可以在英特尔 gpu 硬件单元上构建从解码，前处理，推理的视频分析全流程应用，且没有额外的内存拷贝，大大提升对 gpu 资源的利用率。随着越来越多的英特尔独立显卡系列产品的推出，相信这样一套参考设计帮助开发者在 gpu 平台上实现更出色的性能表现。

安森美半导体的高能效方案如何用最尖端的持续感知器技术实现无电池应用
华为P20最新消息：AI拍照是亮点 3月27日登场
Roadster开源了哪些内容？
医疗设备的备份电池解决方案
销售传感器年入2亿的索迪龙终止上市
基于OpenVINO™ 2022.2与oneAPI构建GPU视频分析服务流水线
辽宁工信厅副厅长一行到华进公司调研集成电路发展情况
传统服务器与云服务器到底有什么区别
烽火通信新研发SR1041H千兆双频Wi-Fi 6路由器
网站视频不清晰？浅谈不可忽视的比特成本
暑期购机推荐：努比亚Z17、小米6、三星S8、一加5、荣耀9总有你的菜！
浙江成为全国农业“机器换人”示范省大力推进农业全程机械化发展
智慧物联网边缘协同感知（EICS）技术方案：无线场景感知
看意法半导体如何实现空中运动控制功能
如何用外设复位修改只读寄存器
OpenAI新模型Sparse Transformer，预测长度超过去30倍
SiC FET — “图腾” 象征？
用声发射和电机电流检测技术实现刀具破损的监测
电蚊拍的工作过程_电蚊拍基本电路图
请问外部噪声引入目标系统的途径和抑制方法有哪些？