语音交互将成为可穿戴设备一个新的拐点

随着智能可穿戴设备的发展,语音交互正在迎来一个新的拐点。
它其实早已走进我们的生活,从可智能对话的机器人,到有事没事“嘿 siri”,再到风靡全球的智能音箱,“小度”、“小爱”……这些指令甚至是三岁孩童也能脱口而出。而随着可穿戴设备的传输、续航、价格等痛点被逐个击破,类似 tws 耳机这样的设备也有望普遍具备 ai 语音功能,让 ai 能力随身行走。
不过,语音唤醒——作为语音交互的第一步,在超低功耗场景下的性能、集成度、成本等突破就变得更加重要。
为可穿戴设备增加语音唤醒,难在哪里?
针对 tws 等可穿戴设备,杭州国芯日前专门推出了一款 ai 语音唤醒芯片 gx8002,将 ai 唤醒做到了“微瓦”级别。
为什么要给 tws 增加专门的语音唤醒能力?主要挑战有哪些?杭州国芯 ai 事业部总经理凌云告诉《与非网》,语音唤醒需要 always on 工作状态,这样设备在休眠或锁屏状态下也能检测到用户的声音,一旦接收到唤醒词,立刻让设备进入等待指令的状态,开启语音交互第一步。
由于需要持续工作,包含麦克风、adc、语音处理识别等整个链路都要工作。因此在可穿戴设备中增加唤醒功能,最大的挑战就是功耗,以往一些蓝牙 soc 芯片做这类应用,待机功耗需要十几毫瓦,这对产品待机时间影响非常大。
方寸之间见天地——超低功耗、高集成度的背后
gx8002 采用了 mcu+npu 架构,集成了国芯第二代自研神经网络处理器 gxnpu v200、平头哥 ck804 处理器等。经测试,该芯片在 vad 待机模式下功耗低至 70μw,运行功耗为 0.6mw,支持多级唤醒,通过 npu 能力,单芯片可实现语音唤醒、指令识别、ai 降噪、声纹识别等众多功能。
据了解,gx8002 超低功耗的背后,离不开两大技术突破——自研神经网络处理器 gxnpu v200 和自研硬件 vad。与第一代神经网络处理器相比,第二代专门针对低功耗进行了优化,计算能效达到了普通 dsp 的 10 倍以上。支持 dnn/cnn/rnn 等各种模型,自动实现网络量化压缩,可以和 tensorflow 等训练平台直接对接。
同时,国芯设计了全新的 vad 模块,通过增加更多特征分析来判断人声,过滤能力更强。凌云表示,传统 vad 大多是基于声音的能量来做 vad 判断,当处于嘈杂环境时容易失效。为此,国芯设计了全新的 vad 模块,通过对信号进行频谱分析,抽取语音的多个特征信息,进行智能判断。同时会跟踪环境的底噪,自动调整判决的阈值。而所有的 vad 处理都是通过硬件实现的,不依赖于主系统,这对于所有的 ai 语音应用都是有效的,对低功耗产品则更加重要。
除了将复杂逻辑硬件化,提升 vad 的待机比例对于整个产品的功耗降低也非常有价值,根据实际测试,在办公室、地铁、马路、咖啡馆等场合,gx8002 可以让 vad 待机的比例平均达到 70%以上,即 70%以上时间处于 70μw 的 vad 待机模式。通过 vad 的有效过滤,芯片日常使用的平均功耗基本低于 300μw。
“传统的语音 ai 主要还是以 cpu 软解为主,在一些功耗成本不敏感的产品可以继续使用”,凌云表示,“但是在可穿戴设备市场,必须要追求极致。”
为了将唤醒部分所占用的体积尽可能缩减,国芯将唤醒所需的所有部件进行了集成,包括音频 adc、flash、电源 ldo 等,甚至还有晶振。单芯片就可以完成所有唤醒工作,无需外围器件。
gx8002 首批产品采用 qfn20,3mm*3mm 封装,五月份已量产,预计今年下半年会有相关产品陆续上市。据称,q3 还将推出更小的 wlcsp 封装,尺寸可达 1.4*2.4mm,满足更加精密产品的需求。
tws+语音 ai 是未来趋势
tws——已经成为智能音箱之后一个新的现象级应用。根据 idc 数据显示,tws 耳机 2019 年全球出货量为 1.705 亿台,与 2018 年的 4860 万台相比,增长了 250.5%,占据整个可穿戴设备市场的 50.7%。
剖析 tws“网红体质”的背后,不仅仅是可观的市场规模,还有它作为 aiot 智能连接入口的潜质。过去认为 ai 多用于机器人,后来发现似乎不需要这么复杂的身躯,智能音箱爆发了。而仅靠语音唤醒就可以获得 ai 能力,其实这个载体还可以更小。
在 tws 第一波市场潮流中,主流的蓝牙音频供应商盆满钵盈,于是更多的小玩家涌入,试图切一角蛋糕。但是,正如所有消费电子的发展趋势一样,如果没有差异化卖点和功能创新,市场将很快走向红海,陷入价格的侵蚀之中。
对于广大投身于 tws 的中小品牌来说,突破无线连接、通话体验的同时,产品本身的创新点也是增加消费者粘性的重要因素。国芯最新的语音唤醒芯片,对于这些厂商显得尤为及时。gx8002 几乎适配市场上所有的蓝牙方案,它与蓝牙芯片搭配使用,就如同增加了一个语音开关按键,通过共用的麦克风,实现语音触发。
这就极大地方便了那些使用成熟蓝牙方案的设备商,在不改变原有主体设计的情况下,叠加 ai 芯片,就可以将蓝牙耳机升级为智能耳机,满足了灵活、快速的设计需求。价格方面,国芯采用了累积采购量的阶梯价格模式,起步价 0.65 美元,尽量减轻成本负担。
tws 加入语音 ai 将成为趋势。对于品牌耳机来说,能够在硬件方面更进一步,打通硬件品质、软件服务的体验;白牌耳机则可以在保证高性价比的前提下提供更丰富的功能。
目前,国芯已经打通了杰理、恒玄、络达、瑞昱、博通、易兆微、中科蓝讯等蓝牙合作方,这将为设备商大大节省具有 ai 语音能力的 tws 研发周期。
“国芯尽量通过技术优化提升 aiot“入口”建设的便利性,并提升产品的体验。通过在 ai 语音领域的持续耕耘,将 ai 技术应用到各种场景,之前已经有了高性能的产品应用在智能家居和车载领域,gx8002 的推出补齐了低功耗和近场的应用”,凌云表示,“目前我们完成了人 - 车 - 家的全场景覆盖,ai 语音产品可以说是国内市场上较为齐全的。”
当前,ai 的两大应用当属语音和视觉,这两大领域之间也有着一定的传承性和关联性。语音 ai 仍是一个早期成长中的市场,国芯一方面在扩大覆盖场景,另一方面也在寻找体量较大的细分市场(例如车载、tws 等),进行更深入、更有针对性地布局。据凌云透露,未来,国芯会在语音业务的基础上,开拓视觉 ai 业务,以及语音+视觉的多模态产品方向。

紫光存储与群联签署战略合作协议 共同提升全球存储市场影响力
在固定业务频段将IMT技术用于固定无线宽带的研究明确新方向
人工智能在拉丁美洲的应用正在迅速增长
硅胶开裂发黑发脆失效分析
人工智能技术的风险与应对措施
语音交互将成为可穿戴设备一个新的拐点
丙烯酸LED灯的制作
国星光电为何频频获各类科技大奖?
无人机到底该不该持证飞行_无人机归谁管
苹果计划发布3款5G iPhone,或将撼动三星霸主地位
安森美第四季度业绩超预期,宣布30亿美元股票回购计划
应变式传感器的相关特性以及应用概述
比亚迪新能源汽车荣膺第十八届“中国芯”优秀市场表现产品奖
半导体制造之等离子工艺
偏置电流、失调电流与噪声增益对输出直流噪声的影响
打造Smarter Vision开发环境 机器视觉生产力大幅提升
Windows下基于MSVC搭建libuvc开发环境
单片机的寄存器类型及操作教程
基于RASC的keil电子时钟制作(瑞萨RA)(6)----定时器驱动数码管
有了硬件模拟器“加持”以太网SoC测试才能“稳准狠”