NVIDIA加速虚拟人项目渲染与推理效率

腾讯ai lab致力于打造产学研用一体的 ai 生态，主要的研究方向包括计算机视觉、语音识别、自然语言处理和机器学习，结合腾讯场景与业务优势，在社交ai、游戏ai、内容ai及平台ai等领域取得了显著的成果，技术被应用于微信、qq、天天快报和qq音乐等上百个腾讯产品。其中围棋ai “绝艺” 多次获得世界人工智能围棋大赛的冠军。
腾讯ai lab打造的虚拟人，具有自然、生动且饱含情绪的表情，其背后由一套腾讯 ai lab 自研的复杂系统支撑，系统首先要从文本中提取不同信息，包括表情、情感、重音位置、和激动程度等；提取之后，这些信息被输入到模型中生成，再同步生成语音、口型和表情参数，最终才有了虚拟人自然生动的表现。
虚拟人物打造需要更高效平台
根据虚拟人物需要表达的语言和情感，生成自然生动的人脸，是打造虚拟人重要的一个阶段。需要先渲染人脸的纹理图和渲染图，并将它们输入到深度学习模型中，最终生成自然生动的人脸。在这个过程中，需要用到opengl、opencv、cuda、tensorflow等软件技术，腾讯原有的方案有很多cpu与gpu的数据交互，且有很多计算型的操作通过cpu来实现，效率非常低下，无论是吞吐还是延时都不满足要求，具体体现在：
opengl在gpu上渲染好图像绘制到framebuffer后，需要先用glreadpixels拷贝数据到cpu，再用cudamemcpy将数据从cpu拷回到gpu以进行深度学习模型的推理，这里有两次不必要的cpu与gpu之间的数据传输。
颜色空间转换方面，深度学习推理的前后处理等操作在cpu上完成，效率非常低下。
nvidia 加速虚拟人项目渲染与推理效率
nvidia 技术在虚拟人项目的渲染和推理阶段均提供了强大的支持。在渲染阶段，nvidia 助力提升了颜色空间转换效率，降低整体延时，主要体现在：
1. 用nvidia cuda/opengl interoperability 代替腾讯之前使用glreadpixels在cuda和opengl之间拷贝数据的方案，大幅减少了cpu和gpu之间的数据拷贝，从而降低了整体的延时。
2. 把原来在cpu上做的颜色空间转换的操作，迁移到nvidia t4 gpu上用cuda kernel实现，利用gpu的并行优势，大大提高了颜色空间转换的效率，进一步降低了整体的延时。
3. 将多帧的mesh组成一个batch分别绘制到framebuffer的不同区域，在提高opengl并行度的同时，给下一阶段的深度学习模型的推理提供了更大的输入数据的batch size，充分发挥nvidia t4 gpu高并发计算的优势，进一步提高gpu的利用率，从而提高整体的吞吐。
在推理阶段，nvidia助力提高推理整体吞吐，降低推理延时，主要体现在以下几点：
1. 用nvidia tensorrt替换tensorflow对模型推理进行加速，并利用nvidia t4 gpu上的fp16 tensor core可以极大提高矩阵乘等操作速度的特性，在最终视觉效果几乎不变的情况下，进一步提升推理的吞吐，降低推理延时。
2. 在nvidia t4 gpu上利用cuda kernel 替代原始流程中在cpu上使用opencv实现 mat-to-tensor 和 tensor-to-mat 等格式转换操作，并使用opencv-cuda版替换opencv-cpu版的部分操作（如resize等），充分发挥gpu相对于cpu更高的并发优势，在加速这些操作的同时减少gpu到cpu的数据传输通信量，提高格式转换效率，降低端到端的推理延时。
3. 通过pipeline的方式，使gpu和cpu上的操作进行overlap，并结合nvidia的mps技术提高单卡上多个进程同时处理多个数据流的同时提高整体的吞吐。

腾讯ai lab致力于打造产学研用一体的 ai 生态，主要的研究方向包括计算机视觉、语音识别、自然语言处理和机器学习，结合腾讯场景与业务优势，在社交ai、游戏ai、内容ai及平台ai等领域取得了显著的成果，技术被应用于微信、qq、天天快报和qq音乐等上百个腾讯产品。其中围棋ai “绝艺” 多次获得世界人工智能围棋大赛的冠军。腾讯ai lab打造的虚拟人，具有自然、生动且饱含情绪的表情，其背后由一套腾讯 ai lab 自研的复杂系统支撑，系统首先要从文本中提取不同信息，包括表情、情感、重音位置、和激动程度等；提取之后，这些信息被输入到模型中生成，再同步生成语音、口型和表情参数，最终才有了虚拟人自然生动的表现。
虚拟人物打造需要更高效平台
根据虚拟人物需要表达的语言和情感，生成自然生动的人脸，是打造虚拟人重要的一个阶段。需要先渲染人脸的纹理图和渲染图，并将它们输入到深度学习模型中，最终生成自然生动的人脸。在这个过程中，需要用到opengl、opencv、cuda、tensorflow等软件技术，腾讯原有的方案有很多cpu与gpu的数据交互，且有很多计算型的操作通过cpu来实现，效率非常低下，无论是吞吐还是延时都不满足要求，具体体现在：
opengl在gpu上渲染好图像绘制到framebuffer后，需要先用glreadpixels拷贝数据到cpu，再用cudamemcpy将数据从cpu拷回到gpu以进行深度学习模型的推理，这里有两次不必要的cpu与gpu之间的数据传输。
颜色空间转换方面，深度学习推理的前后处理等操作在cpu上完成，效率非常低下。
nvidia 加速虚拟人项目渲染与推理效率
nvidia 技术在虚拟人项目的渲染和推理阶段均提供了强大的支持。在渲染阶段，nvidia 助力提升了颜色空间转换效率，降低整体延时，主要体现在： 1. 用nvidia cuda/opengl interoperability 代替腾讯之前使用glreadpixels在cuda和opengl之间拷贝数据的方案，大幅减少了cpu和gpu之间的数据拷贝，从而降低了整体的延时。 2. 把原来在cpu上做的颜色空间转换的操作，迁移到nvidia t4 gpu上用cuda kernel实现，利用gpu的并行优势，大大提高了颜色空间转换的效率，进一步降低了整体的延时。 3. 将多帧的mesh组成一个batch分别绘制到framebuffer的不同区域，在提高opengl并行度的同时，给下一阶段的深度学习模型的推理提供了更大的输入数据的batch size，充分发挥nvidia t4 gpu高并发计算的优势，进一步提高gpu的利用率，从而提高整体的吞吐。
在推理阶段，nvidia助力提高推理整体吞吐，降低推理延时，主要体现在以下几点：
1. 用nvidia tensorrt替换tensorflow对模型推理进行加速，并利用nvidia t4 gpu上的fp16 tensor core可以极大提高矩阵乘等操作速度的特性，在最终视觉效果几乎不变的情况下，进一步提升推理的吞吐，降低推理延时。
2. 在nvidia t4 gpu上利用cuda kernel 替代原始流程中在cpu上使用opencv实现 mat-to-tensor 和 tensor-to-mat 等格式转换操作，并使用opencv-cuda版替换opencv-cpu版的部分操作（如resize等），充分发挥gpu相对于cpu更高的并发优势，在加速这些操作的同时减少gpu到cpu的数据传输通信量，提高格式转换效率，降低端到端的推理延时。

MediaTek助力次世代游戏体验持续进化
湖北省发布新一代人工智能发展总体规划（2020—2030年）
vivoX27设计手稿曝光升降式前置摄像头的灵感竟源自一瓶香水
饿了么监控系统 EMonitor 与美团点评 CAT 的对比
大山深处的教育信息化：安道国产化教学一体机为农村学校赋能
NVIDIA加速虚拟人项目渲染与推理效率
新型货币资产管理平台XBank介绍
“一切皆服务：云网安一体化MSP转型”专题分享会成功召开，华为北京携手伙伴共创MSP+ISP合作新范式
关于电阻电容的相关知识
iOS13加入未知来电者静音功能可避免骚扰电话打扰
未来中国人工智能市场规模将不断攀升,2030年产业规模超过1万亿元
测试程序及测试板开发注意事项
GJB标准军用设备环境试验方法
水冷电阻如何安装及使用
配电站房、变电所动环辅控系统解决方案
rfid技术在制造业中的应用
中央空调相比挂机空调受消费者喜欢是有原因的
中国移动公布的数据显示，其正在艰难度过最为困难的时刻
电磁阀电气符号和图形_电磁阀接线图解
创成式设计+数字孪生：澳汰尔助力MX3D实现工业机器人定制