英特尔决心全力发展ai,明年现有的xeon e5、xeon phi处理器平台都将推出新一代产品,并将以xeon搭配新开发的「lake crest」芯片,专攻类神经网络的加速应用
【英特尔ai应用主打4种服务器处理器】若要在数据中心环境当中建构ai系统,英特尔预计将提供4种运算平台:xeon、xeon phi、xeon搭配fpga(arria 10)、xeon搭配nervana(lake crest),分别主打基本用途、高效能、低延迟与可程序化、类神经网络加速等不同需求。图片来源:ithome
这一年来,除了云端服务、大数据、行动应用持续走红以外,人工智能(ai)无疑是下一个即将起飞的热门it技术,许多人已经开始积极投入机器学习、深度学习的开发与应用,绘图处理器大厂nvidia今年的营收、获利、股价持续上涨,也与此有关,而同样是处理器大厂的英特尔,现在也对ai的发展寄予厚望,并正式宣布调整以ai为重的策略,全力发展软硬件技术,以支持相关的发展。
在11月18日举行的「intel ai day」活动当中,英特尔执行长brian krzanich提出了他们的愿景,并期盼能推动ai普及,将ai变得更平民化,进而引领ai运算时代的来临,使英特尔能够成为加速ai发展的催化剂。
而就更实际的产品而言,英特尔在服务器端处理器平台上,也针对ai有所布局。在2017年,现有的xeon e5、xeon phi处理器平台都将推出新一代产品,同时,除了以xeon搭配fpga(field programmable gate array)芯片altera arria 10之外,英特尔也将以xeon搭配新开发的「lake crest」芯片,专攻类神经网络的加速应用。
值得注意的是,lake crest的形式是一张基于硅芯片的独立加速卡,技术源自于英特尔今年8月并购的新创公司nervana systems,该产品将于2017年第一季问世。之后,英特尔还将推出xeon结合这种新型态加速ai处理机制的芯片,研发代号称为「knights crest」,届时,采用这颗芯片的服务器直接具有系统开机的能力,无需搭配xeon处理器。
英特尔ai服务器平台的发布时程
在2016这一年,英特尔已经推出了fpga的系统单芯片解决方案arria 10,以及xeon phi x200系列(knights landing)。2017年他们将发表新的xeon phi(knights mill),以及深度学习专用的运算芯片lake crest,而在通用服务器级处理器xeon系列,基于skylake微架构的产品也将问世。
强化平行处理与向量处理性能,xeon与xeon phi支持新指令集
英特尔在2017年即将推出的服务器产品,还包括采用skylake微架构的新一代xeon处理器,以及xeon phi(代号为knights mill)。
以现行的xeon e5-2600 v4系列处理器而言,根据英特尔提供的效能测试数据,若执行大数据与ai领域经常会运用的apache spark软件环境,效能提升的幅度,可望达到18倍之高(以今年推出的xeon e5-2699 v4搭配mkl 2017 update 1链接库,对上xeon e5-2697 v2搭配f2jblas链接库)。
英特尔表示,在初期出货给特定云端服务业者的「skylake」xeon处理器版本(preliminary version)当中,将会加入更多整合式加速运算的进阶特色。例如,新的进阶向量延伸指令集avx-512,可针对机器学习类型工作负载的执行,提升相关的推理论断能力。至于xeon新平台其他增益的功能与组态支持,预计将会在2017年中正式发布时,才会揭露。
若单看avx-512这套指令集,目前只有今年6月推出的xeon phi x200系列处理器(knights landing)支持,接下来,英特尔的主力通用服务器平台xeon处理器,会在下一代采用skylake微架构的产品当中支持。
因此,就目前而言,英特尔现有处理器所支持的avx指令集,总共可分为三代:sandy bridge和ivy bridge微架构处理器,内建的是第一代avx,haswell和broadwell微架构处理器改为avx2,而skylake微架构和knights landing是采用avx512。基本上,前两代的avx指令集,都是基于128位simd缓存器,可延伸到256位。
至于xeon phi的下一代产品 「knights mill」,英特尔表示,会把深度学习的应用效能,提升到现有xeon phi处理器(7290)的4倍,并同样具备直接内存访问(direct memory access)的能力——最高可存取到400gb(knights landing是以384gb的ddr4内存,搭配16gb的mcdram)。
同时,在横向扩展到32节点的系统环境当中,目前的xeon phi也已经能大幅缩短机器学习的训练时间,成效差距可达到31倍之大。
基于fpga可程序化硬件运算技术,推出深度学习加速卡dlia
fpga则是另一个英特尔近年来极力发展的重点,他们在2015年并购了专攻fpga技术的altera公司,并以此成立新的业务单位──可程序化解决方案事业群(programmable solutions group)。
针对高效能运算(hpc)领域当中也相当热门的ai应用,英特尔在今年11月稍早举行的supercomputing 2016大会期间,也宣布将于2017年初推出基于fpga的ai加速解决方案,名为deep learning inference accelerator(dlia),可用于影像辨识应用,并且具备大量的数据吞吐能力与高度的能源效益。
dlia的硬件是英特尔fpga 系列产品当中的arria 10的适配卡,芯片之间传输率,最高可达到25.78 gbps,最大浮点运算效能为1,500 gflops,可因应卷积神经网络(cnn)的部署架构,提供优化效能。而且,arria 10本身所采用的处理器,是20奈米制程的arm系统单芯片(soc)cortex-a9 mpcore,比起前一代fpga与soc芯片,号称能节省4成的电力。
同时,由于dlia是基于fpga技术而成,所以秉持了可程序化的特性,用户能从远程对dlia进行韧体更新,以便随时因应ai技术的改变,而且也能直接运用深度学习的软件开发框架,例如英特尔自己维护、发行的caffe,以及mkl-dnn(math kernel library for deep neural networks)等链接库。
专为深度学习应用所设计的crest系列芯片,预计将在2017年问世
英特尔2016年并购nervana公司后,预计在2017年推出运算芯片nervana engine。
这颗代号为lake crest的处理器,是专为深度学习的工作负载所设计的,将提供极高的运算密度,大幅超越现行gpu的运算能力。
在数据存取的方式上,lake crest本身也配置了新一代的高速带宽内存技术hbm2,搭配的总容量为32gb,访问速度高达8tb/s。而芯片之间进行互相沟通时,lake crest提供12个双向的链接通道,有助于在彼此互连的架构下,进行高速数据传输。
英特尔强调,lake crest能支持真正的数据模型平行处理作业,因为在这样的运算架构当中,每一个运算节点,都会配置专用的内存接口,如此一来,系统能够存取的数据模型大小较不受限,同时也可以藉此增进内存i/o效率。
而在lake crest之后,英特尔打算师法xeon phi x200系列处理器的作法,推出更进一步整合xeon与nervana加速技术的芯片,研发代号为knights crest。展望ai运算平台的未来目标,他们希望将现行ai应用耗费在深度学习训练的时间,尽可能地缩短,在2020年能做到实时训练,达到节省幅度100倍的目标。
lake crest的深度学习处理架构
lake crest是基于多维度数据数组(tensor-based)的处理架构,而且,提供flexpoint的作法,所能支持的平行处理层级是现行技术的10倍。这颗芯片内建的内存也很特别,是hbm(high bandwidth memory)的第二代技术,内存带宽是目前ddr4的12倍。
下篇:英特尔ai策略全解析(2):软件的优化提供强大效能
原厂12V单相工业无刷风扇12025控制板
人工智能技术的三个层次
这七大类常用接口类型,搞电路设计用得上
兽医超声:高质量和高强度图像系统
关于贴片电阻的知识总结(3)
英特尔AI策略全解析(1):延伸四大产品线
施密特触发器常用芯片
100G光模块的封装形式 100G光模块可以插40G端口吗?
出售Yokogawa AQ6317B光谱分析仪
HBM3:用于解决高密度和复杂计算问题的下一代内存标准
无线连接技术在物联网应用中的趋势分析
三坐标测量机的组成_三坐标测量机的机械结构
电磁流量计常用的三种类型供电方式有什么不同
PCSEL光子晶体激光器简介
2020年新能源汽车中国销量下降,欧洲销量增长将达50%
2018年物联网行业发展现状分析,将成为三大运营商有力的经济增长点
温度传感器的时间常数与滞后,温度传感器测温影响因素以及温度传感器的误差避免
Buck 电路自举电容推导及RTQ6363内部电路框图解析
中芯国际宣布将以1.13亿美元出售意大利8寸厂LFoundry于新买方
紫光国微将全面进入民用航空装备市场