浪潮AIStation突破企业AI计算资源极限,高效共享GPU

(文章来源:粤讯)
对于ai企业来说,gpu等计算资源昂贵,如何提高资源利用率,保护计算力投资?如何解决资源抢占,保证资源使用公平合理?如何减少等待时间,提高模型训练效率……这些问题都关系着研发创新的进度。且看浪潮aistation人工智能开发平台用三招“组合拳”打破计算力壁垒,加速企业ai开发进程。
某企业有四台8卡gpu服务器供50位开发人员使用,典型的人多资源少。具体来说,有以下几大问题:
人均不足一张gpu卡,gpu使用需要相互协调,开发效率低;每十多人为一个小组共用一个gpu节点,可能使有的小组资源空闲而有的小组却无资源可用,造成资源孤岛;缺乏优先机制,重要任务无法得到及时提交;在白天gpu卡几乎全部用于开发环境创建,开发人员只能在晚上提交训练任务,模型训练数量非常有限。
aistation是面向ai企业开发场景的人工智能资源平台,可通过资源配额、gpu共享、排队托管三招“组合拳”,智能化分配gpu计算资源,提高资源利用率,帮助用户提高开发效率。首先,aistation收拢分散的计算资源,提供集群式的池化管理,并设置资源配额策略,实现多用户公平均衡使用资源。
aistation将开发用户划分为5个用户组,每个用户组10人,并根据业务需求设置每组和每个用户的使用配额,如可设置每组使用6张gpu卡、40个cpu核。并对每个用户的开发环境使用时长、同时提交任务数量进行限制。其次,aistation通过gpu共享策略,可以让多人共用一张gpu卡且互不影响。
aistation统一管理4台gpu节点,将其中2个节点的16张gpu卡设置为开发资源组,用于开发环境创建,剩下16张gpu卡为训练资源组,用于模型训练。通过共享策略,aistation可将开发资源组的每张gpu卡切分为8份,每份使用4g显存。这样原来的16张gpu卡相当于变为了128张卡。并且通过设置cpu超线程策略扩展cpu核数,满足50个用户同时创建开发环境的需求。用户也可以根据自己的模型设置batchsize和显存使用的大小。
最后,aistation通过任务排队托管、定义任务优先级,充分利用空闲时间训练任务,并且可根据优先级调度任务排队运行。
用户可同时提交多个训练任务,资源不足时排队等待,一个任务训练结束后自动释放资源给排队等待的任务,从而可以充分利用夜间、周末训练任务,延长gpu的使用时间。同时用户可设置优先级,让重要任务优先训练。gpu使用时间加大近1倍。原来单个gpu节点分配给一个用户小组使用,每卡每天的平均使用时间仅为14.4小时。aistation通过gpu共享、任务托管,解决资源孤岛,将每卡每天的平均使用时间提升到22.8小时。
gpu利用率提升50%。原来用户在开发阶段独占一张gpu,gpu利用率仅为10%,训练阶段可达90%,每天每卡的平均利用率为30%。使用aistation后,开发阶段8人共用一张gpu卡,gpu利用率可上升为80%,训练阶段为90%,每天每卡的利用率可达到80%。
每周训练任务的数量增大一倍多。假设提交一个imagenet数据集和一个resnet50模型,使用1张tesla v100 gpu卡训练任务,每个任务的训练时间大概为12小时。
原来因为人均不够一张卡, 白天gpu卡用于创建开发环境,晚上才能训练任务,那么一个工作日可以完成的任务数最多为32个,即一周可以完成160个任务。而aistation支持任务排队,可以最大限度的使用gpu资源。一周可以完成368个任务数,效率提升2.3倍。假设开发团队单个项目平均需要训练的任务数为50,那么每个月的项目完成数从3个提升到7个。
可以看出,浪潮aistation通过对计算资源的高效管理、调度,在gpu使用时间、利用率和训练任务数量上,相比原方案均实现了大幅提升,最大化地优化了资源使用。
浪潮aistation人工智能资源平台面向ai企业开发场景,致力于帮助企业构建一体化的ai开发平台,为ai开发工程师提供高效的计算力支撑、精准的资源管理和调度、敏捷的数据整合及加速、流程化的ai开发业务整合,助力ai企业提高开发效率和产品上市速度,增强企业竞争力。除了高效的资源管理,aistation在开发环境创建、数据管理、开发流程管理等方面也表现出色。


北汽新能源极狐宣布:极狐HBT将是首个搭载华为三个激光雷达方案的智能电动汽车
奔驰展示新能源技术 F800 Style或将现北京
随着新兴技术的崛起,国内机器人上市公司整体发展良好
众巨头齐聚南京,抢先占领中国数字化市场
华为计划未来五年内在波兰投资7.93亿美元来推动波兰5G网络的建设
浪潮AIStation突破企业AI计算资源极限,高效共享GPU
三星旗下子公司IPO涉嫌造假 恐要面临退市风险
维信诺2019年度业绩公布,全年实现净利润达6512万元
中兴通讯已位居中国企业300强社会责任发展指数前100名
用变频器的电机为什么发抖?变频器带动电机运行产生抖动怎么处理?
有哪些有趣的AR应用?
新能源汽车被强制上线了,有些企业得着急了
2020年中国软件百强榜单出炉,华为夺下第一
AP3768 应用原理图
什么样的模具采用3D打印技术的性价比最高
笔记本硬件详解:买本该选哪个显卡好?
iOS 13.6开始正式支持“数字车钥匙(CarKey)”功能
更宽带隙的磁传感器-量子阱霍尔传感器
5G想要发展,半导体发展必须跟上
焊接单片机常见问题及注意事项