使用NVIDIA Riva实现将语音转录成文本

每天，电信、金融和统一通信即服务（ ucaas ）等行业都会产生数百万分钟的音频。这些音频会议记录可以转录，以便为呼叫中心代理提供实时建议，从客户呼叫记录中提取见解，或在视频会议中生成实时字幕。
图 1 。人工智能在工业中的应用
自动语音识别使您能够将语音转录成文本。生成高质量的文字记录是一项挑战，因为这些技能需要理解特定于行业的术语、数百到数千分钟特定于领域的培训音频以及实时运行的管道。 nvidia riva 语音识别是一项技术，可为跨行业的几个常见用例提供世界级的实时准确度。
在这篇文章中，我们讨论 riva 语音识别。后续文章将讨论如何定制语音识别模型，并将其作为优化技能进行部署：
customizing speech recognition models to your domain using tao toolkit
deploying speech recognition models to production using riva
riva 语音识别
riva 是 gpu 加速的 ai 语音 sdk ，用于实时转录和虚拟助理等对话 ai 应用程序。 riva 具有以下优点：
ngc 中经过预训练的最先进的语音模型
没有编码工具，例如tao toolkit，用于在自定义数据集上微调这些模型
用于高性能推理的优化语音识别和语音合成管道
riva 下面的模型是基于数百到数千小时的开放和真实世界数据进行训练的，这些数据来自电信、金融、医疗保健和 nvidia 超级计算机上的教育等行业。数据集样本还来自嘈杂的环境、自发的语音对话、多种英语口音和不同的采样率。所有这些属性都有助于生成噪声鲁棒、高质量的转录。
riva 语音识别技能在各种真实世界的用例数据集上进行评估，包括视频会议、联络中心、播客和技术视频。您可以在云中、数据中心和边缘部署这些技能。
riva 语音识别管道在保持准确性的同时，为新的最先进的体系结构提供支持。图 2 显示了在过去 3 年中，通过新的模型体系结构、训练方法以及最新的基于 tensorrt 和 gpu 的优化，语音准确性的提高。
图 2 。 riva asr 精度改进
使用 riva ，您可以在流式或批处理模式下以实时延迟快速部署和扩展到数百和数千个并发流。
关于作者
about sirisha rella
sirisha rella 是 nvidia 的技术产品营销经理，专注于计算机视觉、语音和基于语言的深度学习应用。 sirisha 获得了密苏里大学堪萨斯城分校的计算机科学硕士学位，是国家科学基金会大学习中心的研究生助理。
about tanay varshney
tanay varshney 是 nvidia 的一名深入学习的技术营销工程师，负责广泛的 dl 软件产品。他拥有纽约大学计算机科学硕士学位，专注于计算机视觉、数据可视化和城市分析的横断面。

IBM 将从 Software AG 收购 StreamSets 和 webMethods 平台
控制EMC的主要方法
基于点云标注的自动驾驶系统的安全性与可靠性
Palm倒下的意义：不仅权是智能手机
去中心化的区块链理念解读
使用NVIDIA Riva实现将语音转录成文本
低压配电柜防雷保护装置的作用和种类
预测到2022年中国智慧城市投资将达到两千亿元人民币
拓展坞的广泛应用场景6023AQ
英特尔联手长安汽车,致力推动汽车智能化进程
DLP投影机的基本原理与优势
Unity 2020.1发布，全新流线型UI可减少AR/VR项目时间
InnoSwitch3－Pro系列电源参考设计
黑鲨2触控体验极佳压感按键吃鸡如开挂
基于首款波场开发的放置类区块链游戏“魔法游戏”介绍
物联网数据交易是怎样兴起的
工信部：加快集成电路、5G关键元器件等重点标准研制
无服务器化的潜力有多大？能否成为云计算的未来？
嵌入式处理器是怎样分类的
Verilog的两个误区