新版NVIDIA Maxine为实时音频和视频通信铺平道路

抢先体验 ai 微服务在云端提供的优质通信。
新版 nvidia maxine 为实时音频和视频通信铺平了道路。无论是参加视频会议、致电客户服务中心,还是进行直播,maxine 都能够助您实现清晰明确的沟通,增强虚拟交互的效果。
nvidia maxine 是一套由 gpu 加速的 ai 软件开发套件 (sdk) 和云原生微服务,用于部署经过优化和加速的 ai 功能,可达到实时增强音频、视频和增强现实 (ar) 效果的目的。
借助 maxine 的先进模型,最终用户无需使用昂贵的设备即可改进音频和视频质量。基于 nvidia ai 的技术使标准的麦克风和摄像头设备也能够达到这些高质量的效果。
在 gtc 上,nvidia 宣布为云原生微服务重新构建 maxine,并推出了 maxine 音频效果微服务的抢先体验版。此外,还推出了新的 maxine sdk 功能,包括发言者聚焦和人脸表情估计,并正式推出了眼神交流功能。nvidia maxine 现在还包含现有 sdk 功能的增强版。
maxine 实现云原生
maxine 的云原生微服务允许开发者构建实时 ai 应用。微服务可以独立管理,并在云端进行无缝部署,从而缩短开发周期。
抢先体验版的 audio effects 微服务中包含四种先进的音频功能:
背景噪音消除:使用 ai 模型消除多种常见的背景噪音,同时保留说话者的自然声音。
房间回声消除:使用 ai 模型消除音频中的混响,恢复说话者声音的清晰度。
音频超高分辨率:提高音频信号的时间分辨率,改善音频质量。该功能目前支持 8 khz 到 16 khz 以及 16 khz 到 48 khz 的上采样。
声学回声消除:消除输入音频流中的实时声学设备回声,从而去除不匹配的声对和双声。借助基于 ai 的技术,maxine 实现了比传统数字信号处理算法更有效的回声消除。
pexip 是一家领先的企业视频会议和协作解决方案提供商,正在利用 nvidia 的 ai 技术将虚拟会议提升到更高水平,为现代员工队伍提供先进的功能。
pexip 战略联盟高级副总裁 eddie clifton 表示:“随着 maxine 向云原生微服务的转化,我们能够更加轻松地将 nvidia 的先进 ai 技术与我们独特的服务器端架构结合起来。这使我们的 pexip 团队能够为虚拟会议提供更强的体验。”
探索 sdk 的增强功能
maxine 提供了三款由 gpu 加速的 sdk,能够通过 ai 重塑实时通信的音频、视频和 ar 效果。
音频效果 sdk 可提供多效果、低延迟,以及基于 ai 的音频质量增强算法。发言者聚焦是抢先体验版中的新功能,该功能能够分离前景和背景发言者的音轨,使听众能够更加轻松地识别每种声音。此外,还更新了音频超高分辨率 sdk 功能,使其具备更高的质量。
视频效果 sdk 会使用标准网络摄像头输入创建基于 ai 的视频效果。虚拟背景功能已获得更新,增强了时间稳定性,该功能能够分割个人形象并应用由 ai 驱动的背景去除、替换或模糊功能。
ar sdk 基于标准网络摄像头馈送,提供基于 ai 的实时 3d 面部追踪和身体姿态估计。新功能包括:
眼神交流:通过预估和将视线与摄像头对齐来模拟眼神交流。
人脸表情估计:追踪人脸并推断主体所呈现的表情。
更新了以下 ar 功能:
身体姿态估计:以 2d 和 3d 形式预测和追踪人体的 34 个关键点,并且现已支持多人追踪。
面部特征点追踪:使用 126 个关键点来识别面部特征和轮廓。现已可使用“画质”模式来追踪由于头部运动和表情造成的头部姿势和面部变形(实时追踪的自由度为 3 度),实现了更高质量的跟踪效果。
人脸网格:以高达 3000 个顶点和 6 个自由度的 3d 网格表示人脸,并且现在包括 usc 创意技术研究所的 3d 可变形模型。
直接体验 maxine 的惊艳效果。
体验由 ai 的强大功能带来的先进效果
maxine sdk 和微服务可为您提供一套低延迟的 ai 效果,且可与现有的客户基础设施进行集成。由于 maxine 的尖端 ai 功能的构建以 nvidia ai 平台为基础,并且拥有领先的预训练模型,所以开发者用户可利用其来创建、定制和部署优质的音频和视频质量功能。
maxine 也是 nvidia omniverse avatar cloud engine 的一部分,nvidia omniverse avatar cloud engine 是一系列基于云的 ai 模型和服务,可供开发者构建、定制和部署交互式虚拟形象。maxine 的可定制云原生微服务允许您在 ai 效果制作流程中进行独立部署。而且,您可以在本地、云端或边缘部署 maxine。


成都出台网络预约移动通讯终端维修服务规范
CAN总线接口保护电路
大数据对于智慧城市有什么催化作用
科大讯飞到底有何魔力,成为人工智能和智能语音行业的领头羊?
内置线性稳压器的电源无法启动的故障案例
新版NVIDIA Maxine为实时音频和视频通信铺平道路
基于机器学习的磁盘故障预测的挑战及设计思想
直流电上行电流和下行电流的区别
MAX15091/MAX15091A集成热插拔控制器的解决方案
北京电信:落实责任“三实”原则,确保全国两会、汛期通信“双保险”
iOS13Beta7体验 到底有哪些改动
区块链的价值通过什么途径变现
当设计工程师遇到安全问题时
加快新旧动能转换,全面落实可持续发展建设
3个故障案例:复杂故障简而意赅的描述清楚,也能体现工程师个人技术水平
华为五大协同融合与六大智能金字塔架构,最终实现客户需求
HWD2163组成的耳机功放电路图
有源音箱的制作
一文解析NAT 穿透的技术原理
中国智能手机市场发展趋势报告