机器学习、大数据分析、实时视频流处理等计算密集型应用不断涌现,云计算的应用范围也不断扩展,通过增加cpu数量提升计算能力的方式已经失去优势,云服务提供商把目光转向“异构计算”。fpga在加速方面的优势有目共睹,云服务商纷纷部署专为加速各种高性能工作负载而优化的计算引擎。首届赛灵思开发者大会在北京举行,作为会议主办方,赛灵思及来自云计算产业链的硬件工程师、软件工程师和嵌入式工程师齐聚一堂,进行了技术交流和产品分享。
众所周知,软件工程师的数量远远大于硬件工程师的数量,而随着fpga的应用领域不断扩大,只靠硬件难以服务于广大的软件工程师和嵌入式工程师,因此赛灵思进行了重要转型。赛灵思ip产品开发高级副总裁salil raje介绍,“从c++到rtl的转换是赛灵思转型的核心,包括高层次综合工具和软件应用工具。这一转型体现在两个方面:一是在芯片方面;二是在软件工具上面。如今赛灵思引入了面向大规模数据中心和加速器领域的sdaccel可重配置加速堆栈,以及面向嵌入式系统的sdsoc堆栈,把足迹扩展到从数据中心到嵌入式系统的广阔领域。以嵌入式系统市场为例,soc和fpga的工程师规模大概有10万名,预计在五年的时间里,我们的潜在用户会增加五倍,数量从5万增加到25万。”
在解决方案设置上,赛灵思为更多用户的差异化创新提供支持。salil raje解释,“在端上,有sdsoc开发软件加上revision堆栈,开发者可以形成新的使用mpsoc的开发方式;在云上,有sdaccel加可重配置加速堆栈帮助客户在云端开发应用。由此可见,在端上,用sdsoc和revision堆栈可以写出嵌入式的应用,在云上,sdaccel和可重配置加速堆栈使得ip可以作为处理器在云端运用。revision堆栈的目标应用是自动驾驶汽车、无人机、监控,可重配置加速堆栈的目标应用是超大型数据中心和fpga加速应用。”
左:赛灵思战略市场发展高级总监andy walsh
中:赛灵思ip产品开发高级副总裁salil raje
右:赛灵思全球销售和市场部亚太及日本地区总监stephen chow
fpga加速帮助多种应用实现提速
fpga云加速有多厉害?这需要应用案例来证明。赛灵思战略市场发展高级总监andy walsh介绍了来自深鉴科技、ngcodec、ryft和edico基因组的应用。其中,深鉴科技通过fpga进行机器学习推断、语音识别,速度可以提高40倍;ngcodec利用fpga做视频解码,hevc编码的帧速率达到10倍加速;弹性搜索是现在企业最广泛使用的搜索工具,这可以帮他们找到需要的数据,同时把噪音或者干扰的数据分离出去,ryft专门做大数据搜索,核心竞争力在算法,他们使用fpga开发了一款应用,可以使弹性搜索加速90倍;在医学领域,重危新生儿的基因组测序和基因学分析需要快速出结果,现在通过edico基因组对医学的贡献,可以把基因组分析和测序的时间压缩从24小时压缩到20分钟,这一研究结果已经进入到吉尼斯世界纪录里面。
andy walsh强调,“edico除了在亚马逊云上直接向医院销售以外,还可以向软件提供商销售服务,可以在云上面把服务销售给医院和科研机构。 edico的例子对于赛灵思意味着,规模化会带来巨大的影响。我们只需要很少数量的云生态系统,就可以联系到几千家企业和几百万个用户。”
fpga和cpu的集成对两者都造成损害
“cpu+fpga”的异构架构已经得到大量应用,但是业界一直在寻求更低功耗、更快速度的解决方案,英特尔自从收购altera以后,一直致力于把cpu和fpga进行单芯片集成,从而缩小芯片面积、提高cpu和fpga的通信速度,但是这种做法是否切实有效?andy walsh表示,“过去一年半的时间里,fpga和cpu的集成方式在云计算领域并不是特别受欢迎,它对两者的性能造成很大的损伤,甚至更加严重的损坏,在加速应用中,超大规模的数据中心需要非常高端的加速器,串联进行联合。而且fpga和cpu集成在功耗上的改善非常有限,一般都是一个中档cpu和低端的fpga以1:1的方式组合,这并不是一个非常好的解决方案,不能满足以上的使用案例,而以上的这些案例才是驱动fpga应用的最大动力和发展趋势。”
“现在我们有一个名叫ccix的倡议,赛灵思是发起者之一,fpga和cpu之间的一个c16高速接口,所有fpga的销售商都一起合作,促成fpga和cpu的结合,包括华为也在做有利于fpga和fpga之间结合的协同工作。”salil raje补充。
未来fpga是否会取代cpu?
fpga的性能越来越强大,应用范围也在不断扩展,可能会有人问,在未来fpga能否取代通用cpu或者脱离cpu独立运行? salil raje指出,“在云以外的一些应用fpga可以取代cpu,但是如果在云上,fpga更多被视为一种协处理器,可以减少cpu的数量。在配置方面,一个cpu加八个、十个fpga,它们相互可以交流,从而减少cpu的数量,但是主机还是cpu。fpga在其它应用当中完全独立于cpu运行,比如很多最终使用场景,如监测摄象头就不需要额外的cpu,因为在xilinx的方案中既有fpga又集成了arm架构的cpu,。还有一些无线通信无线通信只需要fpga,不需要cpu。”
在大会现场,我们还看到了赛灵思的合作伙伴展出的产品及演示。
随着微信、微博的发展,视频内容大量产生,而大部分是无效信息,而且视频内容处理起来非常复杂,深鉴科技选择在模型上删除不重要的部分,使模型更小但效果更高,模型变小之后再进行压缩提高效率;随后使用一个训练模型,这个模型采用低精度的数据,在计算的时候速度更快。在研发过程中,深鉴科技发现fpga比gpu快10倍,比cpu快30到40倍。而且fpga延时非常低,这对于以推测为基础的机器学习来说非常重要,而且fpga非常灵活,可以适用不同的机器学习的应用模型。
华为云fp1高性能实例演示
华为的这一实例展现了gzip压缩算法,左边是经过fpga加速的压缩处理过程,右边是通过cpu视频处理的过程,可以看出左侧的压缩速度远远快于右侧,可见fpga加速方案性能相对于cpu有近4倍的提升,动态逻辑加载和切换实现秒级完成。
thinkpad wigig扩展坞测评
CAN和RS-485,哪个更适合你?
3D超声波传感器助力提高自动驾驶汽车目标探测能力
pcf8563和ds1302有什么区别_哪个比较好
无人机自组网关键技术有哪些
可重配置加速堆栈的目标应用是超大型数据中心和FPGA加速应用
异步和同步电路的区别 同步时序设计规则
STM32WB55开发(4)----配置串口打印Debug调试信息
华为2款“神品级”旗舰! 如今降至冰点价
随着5G时代的来临 硅光芯片市场发展的难题会慢慢迎刃而解
Python失宠!Hugging Face用Rust新写了一个ML框架
管网水质监测系统,多参数在线监测设备自动采水自动清洁
光盘销毁机的处理速度
在SaberRD中导出FMU的步骤详解
六种延时电路的工作原理
微服务的核心特性有哪些,如何进行测试
遥感三十六号卫星发射成功 长二丁30年连胜70发
360官方发布路由器新品,WiFi覆盖全屋无缝切换好信号
LG电子公司计划明年销售可以像画轴一样卷起来的大屏幕电视
iphone8什么时候上市?iphone8最新消息:iphone8真机爆光,这个功能大家没想到,苹果系颜值担当,库克要火!