揭秘Amazon Echo语音控制的神秘面纱

亚马逊(amazon) echo可说是目前最热销的物联网(iot)装置,无论你称它为智慧麦克风、虚拟数位助理、家用机器人、语音控制或r2-d2,这一类以语音为基础的产品正迅速崛起。..
相较于echo,最新的第二代echo dot的价格从89.99美元调整为49.99美元,并将于本月在美国上市销售。
amazon echo(及其随后推出的dot)开辟了一个新的市场,让装置供应商能够在语音撷取、提高麦克风音讯解析度、更先进的背景杂讯过滤、更好的音场侦测与稳定连线能力等方面展开竞争,以提供更佳音讯品质。
amazon echo (左)及其第二代产品dot
而像xmos等公司虽然自家晶片并未用于echo中,但也瞄准了这个新的语音介面市场。xmos行销与业务发展副总裁paul neil表示,“物联网目前正是一场快速移动的盛宴。为了控制iot装置,语音是最自然的使用者介面。”
neil说,由于融合了“传统的微控制器(mcu)性能、嵌入式dsp以及灵活的i/o组合,使得我们的技术成为语音介面的理想选择。”
然而,硬体装置之间的战争只是构成整个智慧麦克风/扬声器市场的一部份。ihs markit连网家庭资深分析师paul erickson强调,“真正的竞争变数来自云端。”
为了追求更“聪明”的智慧麦克风(能够处理复杂的查询和随机问题),云端服务领域的竞争越来越激烈。 google预计将于今年年底推出google home与google assistant (google now的新版本),并借此进入这个市场。erickson表示,“而且市场上盛传苹果(apple)很可能将在2017年挟其siri进入这个领域。”
amazon echo——这款iot装置如此热门的另一个原因在于它极具潜力,可实现iot的重要优点:经得起时间考验(future-proofing)。
芯科科技(silicon labs)软体副总裁skip ashton解释,future-proofing的意思是“确保装置可随时间进展持续添加更多功能特性。”例如,alexa为echo提供的语音服务功能一开始有70种,如今已经增加到超过1,700种了。
echo可以回答问题、阅读新闻、为运动评分、控制灯光、从amazon网站订购产品以及设定闹铃等。使用者还可以利用该装置向uber叫车或订购披萨外送等。
“目前echo大约每两周透过云端更新一次,”ashton说,“amazon会在星期五时发送电子邮件给echo用户发布新功能, ”而echo用户“也对于产品的功能持续增加怀抱着期待。”
本地智慧
ihs markit嵌入式处理器首席分析师tom hackenberg剖析amazon echo对于电子产业带来重大影响的原因:智慧麦克风/智慧扬声器应用“对于处理器供应商来说极具价值。”
因为这种装置关键之处并不只是提供了“本地智慧”。语音介面正普遍应用在广大的市场领域。不只是数位助理市场出现,成为智慧型手机app的消费电子装置版本,还有扬声器,也不是它唯一的外形应用。
例如,他解释说,“家庭自动化中心和数位助理可以内建于电视、机上盒(stb)、hvac/环境控制中枢等等。此外,在车载资讯娱乐方面也存在大量的应用,特别是着眼于其免手持的优点。”
拆解echo与echo dot
透过拆解echo与echo dot并进一步比较后,hackenberg说,“除了记忆体供应商,我发现echo和echo dot的处理元件并没有明显的不同。”
拆解echo与echo dot (来源:ifixit)
根据ifixit所进行的拆解,amazon echo采用:
三星(samsung) k4x2g323pd-8gd8 256mb lpddr1 ram (挥发性记忆体)
sandisk sdin7dp2-4g 4gb inand ultra flash (非挥发性储存)
而到了新版的dot则改用:
美光(micron) mt46h64m32lfbq 256mb (16meg x 32 x 4banks) lpddr sdram (挥发性记忆体)
三星klm4g1fepd 4gb高性能emmc nand flash (非挥发性储存)
两款产品使用的处理器则是相同的。在echo与dot的核心采用的是“德州仪器(texas instruments;ti)的媒体处理器dm3725”,此外,高通(qualcomm) atheros qca6234应用专用标准处理器则用于提供“连接性”。
hackenberg解释说,虽然记忆体可能稍微影响性能,但记忆体定价是波动的。因此,对于echo系列的所有产品而言,在其整个生命周期中改变所使用的元件也很平常。
相形之下,“连线模组,尤其是媒体处理器更加复杂,如果不是重大的产品更新,一般并不会改变,”他说。
hackenberg指出,atheros处理器专用于作为连接应用标准产品。其设计是以tensilica客制化xtensa核心为基础,而且“它只做一件事——协调与网路的通讯,以利作业进行。”
erickson补充说,“连接能力至关重要,因为它涉及哪些资料可被撷取、传送与接收云端资料的速度与可靠度等。由于速度/响应的可用性因素,它直接影响到与扬声器之间的互动有多么“即时”。因此,wi-fi的吞吐量、服务品质(qos)与范围的改善,都将有所帮助。”
所有的“本地”(local)智慧功能是由ti dm3725进行处理。hackenberg指出,“这是一款专为stb、tv、显示器、视讯游戏系统等各种多媒体应用而设计的系统单晶片(soc)。”
dm3725是一款以arm cortex a8为基础打造的元件,并整合ti的c64x+dsp与3d绘图加速引擎。“cortex a8是一款成熟且经济型的应用处理器,但又完全足够用于本地执行简单的任务,”hackenberg表示。
然而,“如果应用变得复杂,而不只是一款扬声器这么单纯,可能就会有所变化。”
amazon echo dot主板 (来源:ifixit)
整合dsp
根据hackenberg,这颗soc的关键就在于整合了dsp,甚至可能是gpu。
“在一个典型的设计中,存在多个输入感测器(主要是麦克风)。整个音讯输入首先经dsp高度滤波,使系统快速地理解用户的语音和环境杂讯之间的差异,”他说。
“它甚至能够解读相对于该装置的位置或甚至发话者是谁;它还建立了一种模式,能够经过处理以匹配该模式(通常发送至云端),”他补充说。
但是,gpu做什么呢?
hackenberg认为,“对于本地智慧,gpu可以用于更简单、但快速且高效的本地模式匹配。”
这可以让装置仍然回应所储存的控制模式,例如“降低音量”、“切换频道”或其他简单的控制,而无需网路连接,他解释说。 “接着,应用核心根据所需提供的回应、启动/关闭所需的输入或控制以及必须显示的内容等条件来执行应用程式。”
麦克风阵列
amazon echo和dot之所以吸引人之处在于它使用了7麦克风阵列。amazon声称,echo和dot由于使用了多支麦克风和波束成型技术,因而“能在整个室内都听到你的声音——即使是正在播放音乐的环境下。”该公司还表示,echo是一款专业级的调音扬声器,能以360°沉浸式音效充满在整个房间中。
根据ihs markit负责mems和感测器的资深分析师marwan boustany表示,echo采用了楼氏电子(knowles)的mems麦克风。
dot采用7支麦克风阵列
boustany指出,为声音频率提升其讯号杂讯比(snr)、匹配和性能,将有助于远场音讯撷取,同时改善语音辨识。
但最终,“演算法才是实现更优质语音辨识的真正关键,”他说,“所谓的『智慧』就在于云端可能持续作为关键应用,而本地处理则可以提高对于简单/预定义片语(如hey siri等)的辨识能力。”
他以cypheras为例表示,“这一类的软体供应商将有利于智慧家庭系统(如alexa)中的语音辨识功能。”
amazon echo dot (来源:ifixit)
竞争日益加剧
以供应商来看,目前有几家提供微控制器(mcu)和连接用assp的供应商可能在此领域展开竞争,包括apple、博通(broadcom)、赛普拉斯 (cypress)、微芯科技(microchip)、恩智浦(nxp)、瑞萨(renesas)、意法半导体(stmicroelectronics) 以及芯科科技(silicon labs)等。boustany表示,”802.11n与bt 4.0的组合并不常见,但有些设计针对较低成本的解决方案或许将会只用蓝牙。
媒体处理器较为棘手。虽然多家行动装置应用处理器供应商都可提供,但对于简单的应用来说成本太高。根据hackenberg的观察,供应商们可能会选择不提供性能相当的dsp或模式匹配功能。
“我可能会考虑采用apple ax、broadcom bcm7xxxx、海思(hisilicon) hi3xxx、nxp i.mx、联发科mt8xxx、意法stihxxx、高通(qualcomm)snapdragon等。当然,ti或许在成本方面具有最佳dsp支援(对于语音辨识至关重要)的优势,但其他的这几家供应商也在不断地缩小差距中。”
xmos相信该公司将在这个市场上获得动能。对于诸如echo这一类的语音助理产品,提高性能的关键在于远场语音撷取能力、波束成型与处理速度等。neil认为,“凭藉着大量的处理能力和嵌入式dsp,我们的xmos单晶片元件提供了可扩展和差异化的解决方案。”
xmos xcore语音介面案例 (来源:xmos)
编译:susan hong
(参考原文:amazon echo & how it resonates,by junko yoshida)

手机中集成的各类传感器
闪测仪能测量哪些产品?
SRRC认证有哪些标准?认证过程需要注意什么事项?
人工智能击败人类的决定性因素是什么?
新型氧化铪材料是如何将存储容量提升100倍的
揭秘Amazon Echo语音控制的神秘面纱
培育开源人才,助力开源生态发展|2023开放原子全球开源峰会校源行分论坛圆满落幕
苹果发布了2019财年第一财季业绩报告,对外宣称营收达到843.00亿美元
电容的单位有哪些? 分别是?
case后边可以跟多个语句吗
数字化成为新基建的主旋律 新华三:从我做起
RFID技术可以为企业带来什么
全面分析数字沙盘与电子沙盘之间的区别
畅玩6x和红米note4x哪个值得买?一文读懂区别评测
欧洲能源危机持续升级!欧洲各国面临能源危机不断加剧局面
手持or车载式测绘仪器CPU芯片用底部填充胶
浅谈微控制器的音频编码技术
EMC认证极其三个重要规律解读
如何选择合适的芯片或模块进行物联网开发
STM32CubeMX系列的开发配置步骤解析