由于流行病相关的关闭和在家办公的政策,视频会议、音频和视频流以及电信最近出现了爆炸性增长。企业、教育机构和公共部门机构对虚拟协作和内容创建应用程序的需求正在飙升。在线交流的关键部分是视频流,无论是简单的视频通话还是面向广大受众的流媒体内容。同时,这些流是在线通信中网络带宽最密集的部分,通常伴随着噪声和伪影。
为了解决这些视频质量挑战, nvidia maxine 视频效果 sdk提供了基于人工智能的视觉功能,将嘈杂、低分辨率的视频流转换为令人愉悦的用户体验。这篇文章演示了如何使用标准网络摄像头输入运行这些效果,并轻松地将它们集成到视频会议和内容创建管道中。
添加细节并提高分辨率
对于因图像帧的低分辨率而导致的低视频质量, maxine video effects sdk 提供了两种基于人工智能的最先进视觉效果:超分辨率和放大。
超分辨率从提供的输入图像生成具有更高分辨率和更好纹理的优质图像。它提供了全面的增强功能,同时保留了内容。这种视觉效果最好用于无损压缩数据,如 h 。 264 。您可以使用此功能将介质缩放 1 。 33 倍、 1 。 5 倍、 2 倍、 3 倍和 4 倍。
要调整超分辨率效果,请选择其模式:
0 :建议用于包含编码工件的流和使用有损压缩编码的流。
1 :应用强大的视觉增强功能,建议用于使用无损压缩编码的流
upscaler是一种快速且轻量化的方法,用于提高输入视频的视频分辨率,同时也为图像添加细节。它着重于框架内容的几何结构,并增强其细节。除了更好的图像分辨率外,放大效果还能产生更清晰的图像。
您可以在[0 , 1]范围内设置 upscaler 的增强参数:
0 :在不增强图像的情况下提高分辨率。
1 :最大图像清晰度和清晰度视觉效果增强。
默认情况下, upscaler 的增强参数设置为 0 。 4 。
消除网络摄像头视频噪音并减少编码瑕疵
造成或破坏最终用户体验的视频噪音的根本原因有很多。然而,两种最常见的噪声源是网络摄像头噪声和编码伪影。
网络摄像头噪声源的示例包括摄像头传感器类型、曝光或照明级别。在最终用户生成的流的环境中,如果环境照明不好或使用的相机质量较差,则情况尤其如此。这些类型的噪音在很大程度上取决于摄像头中传感器的类型。
视频流中的编码伪影是传输帧所需的带宽限制的结果。有损压缩通常包括丢弃图像中的一些纹理信息以及数据编码。有损压缩标准的常见示例是图像的 jpeg 和视频的 h 。 264 。流式传输此媒体时,每单位时间的流带宽称为比特率。
在流式传输环境中,可用于流式传输压缩内容的带宽不是恒定的。这种可变性导致编码器的比特数少于压缩帧所需的比特数,从而产生压缩伪影。压缩工件可以有多种形式,但最常见的形式之一是块状工件。
maxine video effects sdk 的视频去噪功能使您能够消除网络摄像头流的噪音并保留细节,从而获得更好的最终用户体验。
此功能有两个具有强度值的变体:
0 :用于较弱的降噪效果,以确保纹理质量的保持。这是低噪音介质的理想选择。
1 :对于可能影响纹理质量的大量降噪效果。此变体可以轻松地与放大或超分辨率链接,以添加细节、增强和提高分辨率。
maxine 伪影减少功能减少了视频通话带宽下降时遇到的块状伪影。它还减少了ringing和蚊子的噪音,同时保留了原始视频的细节。
此基于 ai 的功能针对两种模式进行了优化:
0 :保留低梯度信息,同时减少瑕疵。此模式更适合于更高比特率的视频。
1 :提供更好的输出流。此模式应适用于具有较低比特率的高质量无损视频。
允许最终用户选择虚拟背景
为了使最终用户能够在既不涉及个人又不分散注意力的环境中参加会议, maxine video effects sdk 提供了虚拟背景功能。
虚拟背景功能基本上生成了一个遮罩来分割前景,在本例中,是来自流的人。您可以提供任何媒体作为背景,无论是图像还是视频。您还可以实现多个创造性应用程序,例如在同一背景中添加多个用户。例如,如果两位评论员正在谈论一个现场活动,您可以在该活动的现场提要上对这两个评论员进行分段。另一个例子是将用户分割出来,并将其覆盖在计算机的实时提要上。这样,一个或多个用户可以同时实时呈现,同时保持沉浸感。所有这些操作都使用 gpu 提供的并行性,增加了可实时处理的流的数量。
虚拟背景功能以两种模式运行:
质量模式:实现最高分割质量
性能模式:实现最快的性能
您还可以使用此功能生成具有可调模糊强度的模糊背景。
连锁视频效果功能
为了处理预压缩的视频或带有噪声的视频,以及提供更高的分辨率,我们建议将 upscaler 链接到伪影减少或视频去噪,具体取决于使用情况。有关更多信息,请参阅探索 api 。您还可以使用 sdk 打包的upscalepipeline 示例应用程序获得开箱即用的体验。
在 windows 和 linux 上使用容器和安装 video effects sdk
nvidia 通过 docker 容器以 sdk 包的形式在 windows 和 linux 平台上提供 maxine video effects sdk 。
使用容器的好处是高可扩展性,并且由于减少了部署和采用时间而节省了时间和成本。将容器与 kubernetes 一起使用提供了一种健壮且易于扩展的部署策略。此外,由于容器的预包装性质,您不必担心容器内的特定安装。
在本文中,我们将重点介绍如何在容器和窗口中使用 maxine video effects sdk 。继续安装之前,请确保满足所有硬件要求。
如果您对 nvidia 软件堆栈有丰富的经验,并且希望在裸机 linux 系统上部署视频效果 sdk ,请参阅maxine 开始了页面。
在 docker 容器中使用视频效果 sdk
在容器上安装和利用高性能视频效果 sdk 及其最先进的 ai 模型需要四个步骤:
下载 nvidia 驱动程序
下载 docker 和 nvidia -docker用于将 gpu 暴露在容器中,如 nvidia 容器安装指南中所述
使用ngc api 密钥登录 ngc 注册表
拉动视频效果 sdk 容器
您需要访问 nvidia 图灵、 nvidia 伏特或 nvidia 安培体系结构生成数据中心 gpu s : t4 、 v100 、 a100 、 a10 或 a30 。
在 windows 上安装视频效果 sdk
在 windows 上安装 sdk 是一个简单的过程:
下载适用于 windows 的 nvidia 图形驱动程序
下载 microsoft visual studio 2017 或更高版本(确保安装构建工具。)
从开始页面下载最新的视频效果 sdk 软件包
您必须拥有 nvidia rtx 卡,才能从 windows 上 maxine video effects sdk 的加速吞吐量和缩短延迟中获益。要在数据中心卡(如 a100 )上运行此 sdk ,请使用 linux 包。
示例应用程序
video effects sdk 附带五个示例应用程序:
aigseffectapp
batcheffectapp
denoiseeffectapp
upscalepipelineapp
videoeffectsapp
这些应用程序包含运行 video effects sdk 中所有功能的示例代码。要体验这些功能,还可以构建应用程序并使用预构建的 windows bash 脚本来运行它们。
您可以使用 sdk 的/videofx/share文件夹中的build_samples.sh脚本构建应用程序。如果您使用的是 docker 容器,则这是条目文件夹。
该脚本构建示例应用程序并安装一些示例应用程序特定的依赖项。这一步 mig 需要几分钟的时间。构建后,在构建应用程序的文件夹中,每个应用程序至少可以找到一个 bash 脚本。以下是其中一个应用程序的详细介绍:
这是一个引用示例应用程序之一videoeffectsapp的命令行示例。您可以调整以下参数以体验不同的功能:
--effect:选择效果:工件 ctr 导出、超级资源或高级。
--mode:在两种模式之间切换: 0 、 1 。
--strength:切换放大倍增器增强倍增器: 0 , 1 。
--resolution:用于输入所选介质的目标分辨率。例如,如果要翻倍 720p 介质,请使用 1440 。
在本地运行这些效果时,您可以使用键盘控件切换效果,并通过网络摄像头提要实时体验效果。有关更多信息,请参阅示例应用程序参考。如果您对链接这些效果感兴趣,请继续阅读。最后,如果您有兴趣了解有关批处理和最大化吞吐量的更多信息,请参阅batcheffectapp示例应用程序。
使用 api 链接多个视频效果功能
链接效果对于许多应用程序来说都非常有趣。这篇文章主要关注如何将两种效果很好地结合在一起:工件减少和放大。另一个例子是为嘈杂的网络摄像头流运行视频噪声消除和超分辨率或放大。您可以选择最适合您的用例的效果。
下面是关于 api 及其用法的更多信息。图 6 显示了使用 video effects sdk 函数的高级过程:
创建和配置效果
配置 cuda 流、分配缓冲区和加载模型
加载数据并运行效果
图 6 。使用 video effects sdk api 的三个简单步骤
下面的视频介绍了这个流程,但是这个流程有很多细节,我们将在后面的文章中讨论。此外,视频还介绍了在 maxine 虚拟背景下使用 gpu 和 api 详细信息时必须了解的基本知识。本文中的所有代码示例都可以在 sdk 示例应用程序中找到。
创建和配置效果
第一步是创建要使用的效果。在这篇文章中,我们将讨论伪影减少和放大。您可以使用nvvfx_createeffect函数创建指定类型的视频效果过滤器的实例。此函数需要效果选择器并返回效果句柄。效果选择器是一个字符串,您可以使用它拾取要创建的效果。
大多数视频特效 sdk 功能都有模式。如前所述,这些模式本质上是相同效果的两种不同变体。在这种情况下,伪影减少有两种模式,您可以使用nvvfx_setu32函数设置。对于 upscaler ,这是一个浮点值,可以使用nvvfx_setf32函数设置为 0 到 1 之间的任何数字。
配置 cuda 流、分配缓冲区和加载模型
创建效果后,下面介绍如何使用 cuda 并加载模型。 cuda 流是一组按照发出操作的确切顺序执行的操作。记住这一点,第一步是创建这个流。您可以使用nvvfx_cudastreamcreate函数创建此流。
cuda 流已经就位,下面介绍如何移动数据。在本例中,您正在移动图像帧。如果您是 gpu s 的新手,您 mig ht 会问:“为什么我们要将数据移动到哪里?”
gpu 通常有自己的专用视频 ram ( vram )。这就像插入系统主板的普通 ram 一样。拥有专用 vram 的关键优势在于,存储在该存储器中的数据处理速度明显快于常规 ram 上的数据。当我们说“将数据从 cpu 内存移到 gpu 内存”时,我们指的是这两种 ram 之间的内存传输。
图 7 。 cpu 与 gpu 缓冲区概述
在使用单一效果的典型场景中,此传输将毫不费力,需要两个 cpu 内存缓冲区和两个 gpu 缓冲区。在这两种情况下,一个用于源,另一个用于已处理的帧。
图 8 。在 gpu 和 cpu 上的不同内存缓冲区之间移动数据
当您链接需要两种不同图像像素布局的功能时,会增加一层复杂性。 gpu 上还必须有两个缓冲区,一个用于存储第一个效果的输出帧,另一个用于存储第二个效果的输入。图 9 显示了流程。现在不要担心函数名;我们将在本文后面的“运行效果”部分中对它们进行回顾。
图 9 。在 gpu 和 cpu 上的不同内存缓冲区之间移动数据,同时考虑像素格式
考虑到这种高层次的理解,下面介绍如何设置管道。设置此管道有两个步骤:分配内存和指定输入和输出缓冲区。
首先,使用nvcvimage_alloc函数为 gpu 缓冲区分配内存。
这似乎是一个复杂的函数,但在较高的层次上,您正在为给定类型的图像帧指定所需类型的缓冲区的基本参数。例如,它是 rgba 图像吗?每个组件都有 8 位吗?这些位是平面、粗块还是其他格式?有关详细信息,请参阅设置输入和输出图像缓冲区。
其次,使用nvvfx_setimage函数指定为每个效果创建的输入和输出缓冲区。
运行效果
现在管道已经设置好,您可以继续运行效果。将帧从 cpu / gpu 源移动到相应的输入缓冲区。nvcvimage_transfer函数可用于移动帧, nvvfx _ run 函数用于运行效果。
第一步,似乎有多个运动部件,但只有三个主要步骤:创建效果、设置 cuda 流以及管理数据流,最后运行效果。
所有三种 maxine sdk- 视频效果 sdk、音频效果 sdk和增强现实 sdk的设计都类似。您可以将相同的概念应用于音频效果和增强现实 sdk ,只需稍作修改。
将视频效果 sdk 集成到您的应用程序中
如本文所示, maxine video effects sdk 提供了许多 ai 功能,使您能够拍摄嘈杂的低分辨率视频,并向最终用户提供高质量的视频。此外,您可以将多个效果链接在一起,并创建视频管道。要将这些视觉效果应用于视频会议、流媒体或电信应用程序。
关于作者
about tanay varshney
tanay varshney 是 nvidia 的一名深入学习的技术营销工程师,负责广泛的 dl 软件产品。他拥有纽约大学计算机科学硕士学位,专注于计算机视觉、数据可视化和城市分析的横断面。
about gordana neskovic
gordana neskovic 是ai/dl产品营销团队的成员,负责 nvidia maxine。在加入 nvidia 之前,gordana曾在vmware、wells fargo、pinterest、sfo-itt和kla tencor担任过各种产品营销、数据科学家、ai架构师和工程职位。她拥有博士学位。圣塔 clara 大学,塞尔维亚贝尔格莱德大学电气工程硕士和学士学位。
中国红十字会向智利地震灾区提供10万美元国际人道主义紧急援款
冷热冲击试验箱/冷热冲击试验机/温度冲击试验机
to-247 mos管封装尺寸 to-247封装型号选型
Cadence发布7纳米工艺Virtuoso先进工艺节点扩展平台
功率转换的突破推动机器人革命
NVIDIA Maxine视频效果SDK帮助解决视频质量问题
NIDays携手NI共创物联时代
研华嵌入式宝藏新品大揭秘!
风向风速仪是什么,它的工作原理是怎样的
高温投入式液位计的原理
下一代人工智能基础设施的产品和服务是什么样的
华为荣耀v9不止是速度快还有着媲美iPhone7的颜值
在BuildRelay中会调用Codegen函数
赛微电子投资成立微系统科技公司,注册资本15亿元
PIC单片机读写I2C实例源程序一
物联网设备的安全硬件解决方案
BTU回流焊产品介绍
智能人脸识别门禁——远景达F3功能强大、质量可靠
百度是如何布局无人驾驶的?
油烟在线监测系统的组成结构是怎样的