什么是AI芯片?为什么需要AI芯片?

(1)性能与传统芯片,比如cpu、gpu有很大的区别。在执行ai算法时,更快、更节能。
(2)工艺没有区别,大家都一样。至少目前来看,都一样。
所谓的ai芯片,一般是指针对ai算法的asic(专用芯片)。
传统的cpu、gpu都可以拿来执行ai算法,但是速度慢,性能低,无法实际商用。
比如,自动驾驶需要识别道路行人红绿灯等状况,但是如果是当前的cpu去算,那么估计车翻到河里了还没发现前方是河,这是速度慢,时间就是生命。如果用gpu,的确速度要快得多,但是,功耗大,汽车的电池估计无法长时间支撑正常使用,而且,老黄家的gpu巨贵,经常单块上万,普通消费者也用不起,还经常缺货。另外,gpu因为不是专门针对ai算法开发的asic,所以,说到底,速度还没到极限,还有提升空间。而类似智能驾驶这样的领域,必须快!在手机终端,可以自行人脸识别、语音识别等ai应用,这个必须功耗低,所以gpu out!
所以,开发asic就成了必然。
说说,为什么需要ai芯片。
ai算法,在图像识别等领域,常用的是cnn卷积网络,语音识别、自然语言处理等领域,主要是rnn,这是两类有区别的算法。但是,他们本质上,都是矩阵或vector的乘法、加法,然后配合一些除法、指数等算法。
一个成熟的ai算法,比如yolo-v3,就是大量的卷积、残差网络、全连接等类型的计算,本质是乘法和加法。对于yolo-v3来说,如果确定了具体的输入图形尺寸,那么总的乘法加法计算次数是确定的。比如一万亿次。(真实的情况比这个大得多的多)
那么要快速执行一次yolo-v3,就必须执行完一万亿次的加法乘法次数。
这个时候就来看了,比如ibm的power8,最先进的服务器用超标量cpu之一,4ghz,simd,128bit,假设是处理16bit的数据,那就是8个数,那么一个周期,最多执行8个乘加计算。一次最多执行16个操作。这还是理论上,其实是不大可能的。
那么cpu一秒钟的巅峰计算次数=16x4gops=64gops。
这样,可以算算cpu计算一次的时间了。
同样的,换成gpu算算,也能知道执行时间。因为对gpu内部结构不熟,所以不做具体分析。
再来说说ai芯片。比如大名鼎鼎的谷歌的tpu1.
tpu1,大约700m hz,有256x256尺寸的脉动阵列,如下图所示。一共256x256=64k个乘加单元,每个单元一次可执行一个乘法和一个加法。那就是128k个操作。(乘法算一个,加法再算一个)
另外,除了脉动阵列,还有其他模块,比如激活等,这些里面也有乘法、加法等。
所以,看看tpu1一秒钟的巅峰计算次数至少是=128k x 700mhz=89600gops=大约90tops。
对比一下cpu与tpu1,会发现计算能力有几个数量级的差距,这就是为啥说cpu慢。
当然,以上的数据都是完全最理想的理论值,实际情况,能够达到5%吧。因为,芯片上的存储不够大,所以数据会存储在dram中,从dram取数据很慢的,所以,乘法逻辑往往要等待。另外,ai算法有许多层网络组成,必须一层一层的算,所以,在切换层的时候,乘法逻辑又是休息的,所以,诸多因素造成了实际的芯片并不能达到利润的计算峰值,而且差距还极大。
可能有人要说,搞研究慢一点也能将就用。
目前来看,神经网络的尺寸是越来越大,参数越来越多,遇到大型nn模型,训练需要花几周甚至一两个月的时候,你会耐心等待么?突然断电,一切重来?(曾经动手训练一个写小说的ai,然后,一次训练(50轮)需要大约一天一夜还多,记得如果第一天早上开始训练,需要到第二天下午才可能完成,这还是模型比较简单,数据只有几万条的小模型呀。)
修改了模型,需要几个星期才能知道对错,确定等得起?
突然有了tpu,然后你发现,吃个午饭回来就好了,参数优化一下,继续跑,多么爽!
计算速度快,才能迅速反复迭代,研发出更强的ai模型。速度就是金钱。
gpu的内核结构不清楚,所以就不比较了。肯定的是,gpu还是比较快的,至少比cpu快得多,所以目前大多数都用gpu,这玩意随便一个都能价格轻松上万,太贵,而且,功耗高,经常缺货。不适合数据中心大量使用。
总的来说,cpu与gpu并不是ai专用芯片,为了实现其他功能,内部有大量其他逻辑,而这些逻辑对于目前的ai算法来说是完全用不上的,所以,自然造成cpu与gpu并不能达到最优的性价比。
谷歌花钱研发tpu,而且目前已经出了tpu3,用得还挺欢,都开始支持谷歌云计算服务了,貌似6点几美元每小时吧,不记得单位了,懒得查。
可见,谷歌觉得很有必要自己研发tpu。
目前在图像识别、语音识别、自然语言处理等领域,精度最高的算法就是基于深度学习的,传统的机器学习的计算精度已经被超越,目前应用最广的算法,估计非深度学习莫属,而且,传统机器学习的计算量与 深度学习比起来少很多,所以,我讨论ai芯片时就针对计算量特别大的深度学习而言。毕竟,计算量小的算法,说实话,cpu已经很快了。而且,cpu适合执行调度复杂的算法,这一点是gpu与ai芯片都做不到的,所以他们三者只是针对不同的应用场景而已,都有各自的主场。
至于为何用了cpu做对比?
而没有具体说gpu。是因为,我说了,我目前没有系统查看过gpu的论文,不了解gpu的情况,故不做分析。因为积累的缘故,比较熟悉超标量cpu,所以就用熟悉的cpu做详细比较。而且,小型的网络,完全可以用cpu去训练,没啥大问题,最多慢一点。只要不是太大的网络模型。
那些ai算法公司,比如旷世、商汤等,他们的模型很大,自然也不是一块gpu就能搞定的。gpu的算力也是很有限的。
至于说cpu是串行,gpu是并行
没错,但是不全面。只说说cpu串行。这位网友估计对cpu没有非常深入的理解。我的回答中举的cpu是ibm的power8,百度一下就知道,这是超标量的服务器用cpu,目前来看,性能已经是非常顶级的了,主频4ghz。不知是否注意到我说了这是simd?这个simd,就代表他可以同时执行多条同样的指令,这就是并行,而不是串行。单个数据是128bit的,如果是16bit的精度,那么一周期理论上最多可以计算八组数据的乘法或加法,或者乘加。这还不叫并行?只是并行的程度没有gpu那么厉害而已,但是,这也是并行。
不知道为啥就不能用cpu来比较算力?
有评论很推崇gpu。说用cpu来做比较,不合适。
拜托,gpu本来是从cpu中分离出来专门处理图像计算的,也就是说,gpu是专门处理图像计算的。包括各种特效的显示。这也是gpu的天生的缺陷,gpu更加针对图像的渲染等计算算法。但是,这些算法,与深度学习的算法还是有比较大的区别,而我的回答里提到的ai芯片,比如tpu,这个是专门针对cnn等典型深度学习算法而开发的。另外,寒武纪的npu,也是专门针对神经网络的,与tpu类似。
谷歌的tpu,寒武纪的diannao,这些ai芯片刚出道的时候,就是用cpu/gpu来对比的。
看看,谷歌tpu论文的摘要直接对比了tpu1与cpu/gpu的性能比较结果,见红色框:
这就是摘要中介绍的tpu1与cpu/gpu的性能对比。
再来看看寒武纪diannao的paper,摘要中直接就是diannao与cpu的性能的比较,见红色框:
回顾一下历史
上个世纪出现神经网络的时候,那一定是用cpu计算的。
比特币刚出来,那也是用cpu在挖。目前已经进化成asic矿机了。比特大陆了解一下。
从2006年开始开启的深度学习热潮,cpu与gpu都能计算,发现gpu速度更快,但是贵啊,更多用的是cpu,而且,那时候gpu的cuda可还不怎么样,后来,随着nn模型越来越大,gpu的优势越来越明显,cuda也越来越6,目前就成了gpu的专场。
寒武纪2014年的diannao(npu)比cpu快,而且更加节能。asic的优势很明显啊。这也是为啥要开发asic的理由。
至于说很多公司的方案是可编程的,也就是大多数与fpga配合。你说的是商汤、深鉴么?的确,他们发表的论文,就是基于fpga的。
这些创业公司,他们更多研究的是算法,至于芯片,还不是重点,另外,他们暂时还没有那个精力与实力。fpga非常灵活,成本不高,可以很快实现架构设计原型,所以他们自然会选择基于fpga的方案。不过,最近他们都大力融资,官网也在招聘芯片设计岗位,所以,应该也在涉足asic研发了。
如果以fpga为代表的可编程方案真的有巨大的商业价值,那他们何必砸钱去做asic?
说了这么多,我也是半路出家的,因为工作需要而学习的。按照我目前的理解,看tpu1的专利及论文,一步一步推导出内部的设计方法,理解了tpu1,大概就知道了所谓的ai处理器的大部分。然后研究研究寒武纪的一系列论文,有好几种不同的架构用于不同的情况,有兴趣可以研究一下。然后就是另外几个独角兽,比如商汤、深鉴科技等,他们每年都会有论文发表,没事去看看。这些论文,大概就代表了当前最先进的ai芯片的架构设计了。当然,最先进,别人肯定不会公开,比如谷歌就不曾公开关于tpu2和tpu3的相关专利,反正我没查到。不过,没事,目前的文献已经代表了最近几年最先进的进展了。

车载逆变电源的Saber与Simulink联合仿真
我国电子特气市场规模约152亿元,国产替代步伐加快
计算机视觉的重要性及如何帮助解决问题
汽车零部件仓储WMS系统解决方案
TCLP618L评测 续航领域里最好的手机
什么是AI芯片?为什么需要AI芯片?
世界首台特高压1000千伏变压器在沈阳研制成功
一图读懂升级苹果iOS 10.2后的亮点,“电视”应用与中国无关
曝苹果新一代iPad Pro将在明年年初发布
卡类终端的PCB热设计方案
北京现代在智能纯电动SUV领域的首款产品已正式落地
人工智能技术在遥感解译领域会产生怎样的效果?
TI成本优化的电表解决方案
配网行波型故障预警与定位装置:智能电网的关键组成部分
电子膨胀阀如何选型_电子膨胀阀5线怎样区分
应战智造变革嘉拓智能产品矩阵“亮剑”(上)
建筑机器人盖房正成为现实
中国人工智能市场正在进入产业化新纪元
美国的芯片是军方大力扶持的产物
红魔7S Pro搭载骁龙8+芯片带来惊喜体验