AI芯片不只拼算力,还得看可不可靠

当我们谈及ai芯片,脑海中不免都会想起tops、l4/l5自动驾驶、图像识别和处理算法等词。但在初创企业、芯片大厂纷纷追逐“ai热“的情况下,芯片的可靠性成了一个大问题,甚至对终端应用也有较大的影响。
自动驾驶故障,不止oem要担责
经常关注汽车新闻的读者想必都很清楚,近年来因为自动/辅助驾驶引发的事故越来越多,起因多种多样,但很少会将其追溯到芯片上。有的车企为了追求快速上市,其ai芯片很可能只有aec-q100认证,而没有iso 26262这样的功能安全认证,在他们看来这些标准太过
“传统”了,对于产品的创新流程来说有些多余了。
这在消费者眼里也是如此,我们对功能的感知是最为直观的,而对故障的感知只要在接受范围来就好。这就使得此类车厂可以以一种“手机app”开发式的模式运作,实现快速迭代。然而,这并不代表功能安全可以被忽视,毕竟当坏事落在自己头上时,总得要个说法吧。
在实现功能安全的过程中,从提出要求、架构、设计、编程到测试阶段,都有对应的确认与验证工作,然而通过验证是一回事,能否实现追溯就是另一回事了。比如设计上的改动可能会违背芯片要求等等,最终导致实际性能不符等问题,所以在功能安全开发设计和认证的过程中,必须要做到可追溯。
harmony trace芯片设计追溯 / arteris
ip厂商arteris提出了一个追溯方案名为harmony trace,帮助芯片厂商更好地实现功能安全。harmony trace在这些分散的流程系统之间创造了一层整合系统,用于追踪半导体产品寿命周期中的所有失误。一旦违反芯片要求的错误出现,这套系统就会通知工程师这项改动需要进行检查,从而自动化车规认证的审查流程。当然了,芯片开发厂商所用的开发工具流都是不尽相同的,所以harmony trace也提供了对现有主流eda工具、认证流程的支持。
在自动驾驶安全标准继续演进,iso 21448和ul4600等标准提出的额外要求下,在ai芯片设计中保证可追溯性或许是缩短产品开发认证周期的一条捷径。
可靠性第一
事实证明,不止自动驾驶领域,云端同样需要可靠的ai计算芯片。我们从现在的云端计算集群来看,多个节点为云服务提供了强大的计算能力,但正是因为这般复杂的架构,每一个节点都有可能成为整个系统的阿喀琉斯之踵。
这样的案例我们也见多了,甚至开始影响到我们的生活,热搜上时不时就会冒出“某某应用崩了”的消息,互联网公司经受的服务器故障可谓数不胜数,而且苦于定位故障来源,这其中,芯片也脱离不了干系。
造成这些后果的芯片可靠性问题主要有三种,早期失效(elf)和正常设备运行下的随机失效,还有不可避免的设备老化。芯片都是有着工作寿命的,所以最后一项难以从设计上解决,最多尽可能延长其寿命,而前面两者才是当下云端需要提防的问题。
常见的早期失效有闸极氧化层失效、老化效果不好和软击穿等,随机失效很多与运行环境有关,比如温度过高、辐射过高等等。
为了进一步让ai芯片免受这些可靠性问题的影响,初创公司ceremophic公布了自己研发的qs1芯片。这是一款基于5nm工艺的分层学习芯片,集成了2ghz自定义机器学习处理器、2ghz的自定义fpu处理机器学习计算,还有一个基于threadarch的risc-v处理器和arm cortex-m55应用处理器,ceremophic称后者主要用于元宇宙相关应用的视频处理。在接口方面,该芯片支持到x16 pcie 6.0/cxl 3.0。
那么这款芯片在可靠性上的亮点又有哪些呢?ceremophic称对于早期失效而言,他们选用了高效的asic实现方式来使用抗elf的逻辑库,在正确的逻辑单元组合下以最小的设计开销做到低elf。
而在面对随机失效上,ceremophic用到了自己的多线程技术,利用两个多线程处理器运行同一程序,一旦检测到错误,就会利用多个结果来做出表决,并进行修正,接着程序执行会直接从检测到错误发生的地方开始运行,而不是一个未知的安全起始点,消耗更多的功耗。
在传统的高可靠性设计中,往往都得采用高成本的解决方案,比如冗余,就像是需要在两个地方做同一件事,带来计算资源和功耗的双重增加。不仅如此,解决方式也需要消耗更多的运行周期,这也是为何云端服务器出现故障后,不能快速恢复的原因。

MAX2136 ISDB-T/DVB-T低IF调谐器
华为nova 8i在德国上市发售
TOPCon、HJT、XBC的发展如何
了解精密、可靠、易于设计的能源管理解决方案
干簧电阻式液位变送器的原理及特点
AI芯片不只拼算力,还得看可不可靠
IBM 最新报告 勒索软件威胁居高不下亚洲位列攻击目标榜首
黑科技太过炫酷!iPhone8将装备虹膜扫描仪
魅族Flyme6最新消息:Flyme6第三方ROM正式上线,第一批适配机型已出你的手机在吗?
高质量条幅/调频收音机电路(ULN2242),ULN2242 AM/FM RADIO
Nature新子刊《自然-机器智能》悄然上线
区块链将如何影响房地产业
联想在IFA2018发布多个领域的新品
无线通信网络之LoRa技术介绍
嵌入式Linux的SOHO路由器电路设计
一款支持全平台射击游戏的VR体感设备
Arduino积极应对中国市场与物联网浪潮
机械式PTZ摄像机和PTZ网络快球的主要区别是什么
MOSFET发生EOS的失效模式有哪些?如何区分是什么原因失效的?
【教程】串口IO设备与顾美PLC通信例程