gpu小常识:
gpu(graphics processing unit),中文名:图形处理器,曾用名:显卡。
1999年,nvidia(英伟达)公司“zao”了gpu,这玩意除了极大的推动了基于pc的游戏市场发展,还彻底改变了并行计算。
没想到二十年后,nvidia摇身一变成了高大上的ai计算公司,还用gpu绑架了整个人工智能圈子。
我有个客户,几年前新建了一个数据中心,通过p2v技术淘汰了大量x86物理服务器,直接在it基础设施上成功完成了服务器虚拟化转型,之后就马不停蹄的向云计算转型,而当下,又开始了人工智能转型。
随着智能商业时代的到来,一些大公司对于ai技术的关注和使用也快速增加,这些企业都非常注重自身科技能力的构建。其中,搭建自有ai平台,赋能业务成了这些有实力企业的首选。我这个客户自然也不能免俗,采购了大量的gpu服务器进行部署。
在落地ai场景的同时,客户也希望对建立gpu资源池做一个评估。针对客户需求,做了一些功课。对于ai,我依然只是知道一点皮毛,要说什么算法和模型,我是没戏的,但是可以把交流的学习心得分享一下。
gpu当前主要应用于计算、图形和人工智能领域。从gpu资源的虚拟化实现路径看,主要有三种技术方案。
vsga(virtual shared graphics acceleration),把物理gpu分享给多个桌面用户,每个vdi通过svga驱动调用虚拟化的gpu驱动程序,再来调用gpu的运算能力,这个属于典型的桌面虚拟化场景。
vdga(virtual dedicated graphics acceleration),把物理gpu分配给一个指定的vm,资源专用,这种模式也称为直通(pass through)模式,该方案具有比较高的性能优势,但成本相对较高。
vgpu(virtualized gpu),把一块物理gpu虚拟成多块vgpu卡,每个vm都独占一块vgpu,每个vgpu直接跟物理gpu对接。
现实世界的应用状况又是怎样的呢?通过技术交流,发现传统行业大多数的gpu资源池案例都是vdi的桌面虚拟化应用场景,针对后台服务器虚拟化的案例几乎没有。在互联网行业,像百度这样在ai领域比较强的,用的都是自研的gpu服务器和资源调度平台。真正的商业案例中,大量客户使用的还是基于x86物理服务器搭配gpu卡的方式来部署ai应用。
之后,对这个客户也有做了相应的调研。客户现状:针对ai技术部署了独立的语音分析、ocr和人脸识别等多个平台,支撑整个公司对于ai场景的需求。(目前有gpu服务器:50台+,gpu卡:180+,后续还有200+的gpu卡扩容计划)。针对调研情况,也做个简要分析。
应用场景:
目前ai技术主要为两种场景,训练(training)和推理(inference),从我这个客户的使用情况看,几乎都是推理场景,相对训练而言,对于gpu的算力的要求不是很高,这一点从用户的性能数据上也有体现。客户模型训练都是在供应商端进行的。
技术方案:
gpu资源池只是一种概念,对于资源的形态来说,gpu是物理的还是虚拟的不是最重要的。从资源管理角度看,主要是考虑利用效率、访问性能、安全隔离等因素。
如果是物理服务器方案,上层最佳的部署形式的直接基于容器,但是现实情况是大多数用户的应用部署还是基于pm和vm的。另外,也可以考虑基于服务器虚拟化+多gpu卡的方案,一个vm对应一个gpu卡的直通模式,但是应用密度显然受制于gpu卡的数量,如果这时再追加使用vgpu技术,似乎方案在vm技术平台上就更完美了,当然容器嵌套vm的方案也是一种好的形式。
商务成本:
成熟的商业虚拟化软件是有软件许可费的,而nvidia的vgpu技术也需要支付相应的软件许可费,这样每个gpu卡可以根据显存的不同配置,被切分为固定数量的vgpu,在相同数据物理gpu卡配置情况下,提升vm的部署密度。
其他因素:
当然,目前的“ai芯片”也不是只有nvidia一家,国内的寒武纪和华为也都用相应的产品支撑ai应用,对于主流的tensorflow,cafee框架可能还可以,但对于其他框架和模型在支持上略显不足,还需要加强生态建设。毕竟连英伟达都声称自己是一家软件研发公司。在这个software define anything的时代,软实力才是真正贴近用户的硬实力。
关于建立后台支撑ai算力的gpu资源池这件事,技术本身并不存在限制,是个具有规模效应的事情。如果规模大了,也许百度的“孔明”平台就是一个需要达到的高度。至于其他公有云服务商,现在也都提供了相应的gpu服务,等有机会再去调研一下。
啥叫deep learning?就是这种不断学习更新,还要用输出倒逼输入的方式!
特斯拉或将频繁更新其全自动驾驶套件测试版
便携式BD播放机系统的设计
高频雷达物位计的优点与分类
索喜科技推出视频与通信网桥辅助芯片,构建车载互联平台
盘点物联网技术在水产养殖中的应用
从GPU资源的虚拟化实现路径看
SafeCheck 8电气安规测试仪确保租用工具的电气安全
温度传感器T121构成的温控开关电路
关于外媒对明星芯片架构师Jim Keller为什么加入Intel的采访总结
2017中国半导体制造、设计、封装测试十大企业
国外著名科技媒体PhoneArea 手机续航测试对比,三星新机垫底
iPhone 8P与iPhone X对比分析 你的完美购机指南
中国移动开展5G+绽放行动,实施千亿产业拉动和五百亿价值分享计划
WT1高性能90W电焊台主机的特点及应用
串行通信的实现条件和波特率自动整定问题
2020年航空业将会发生哪些重大的变化
iphone8什么时候上市?iphone8即将发布:iphone8七大消息汇总,哪一项才是惊喜中的意外?
三星夺下 Verizon 5G订单,最受伤的是诺基亚和爱立信
HTC官方旗舰店下架了几乎全部的手机将要退出中国市场
变频器的分类、功能及控制方式