GPU虚拟化技术MIG简介和安装使用教程

使用多实例gpu (mig/multi-instance gpu)可以将强大的显卡分成更小的部分，每个部分都有自己的工作，这样单张显卡可以同时运行不同的任务。本文将对其进行简单介绍并且提供安装和使用的示例。
什么是mignvidia multi-instance gpu (mig) 技术是 nvidia 推出的一种 gpu 虚拟化技术，允许一块物理 gpu 被分割成多个独立的 gpu 实例，每个实例可以被分配给不同的虚拟机、容器或用户。这种技术有助于更有效地利用 gpu 资源，提高 gpu 的共享性和多租户支持。
mig 技术通常需要硬件和软件支持，包括支持 mig 的 nvidia gpu 和相应的驱动程序。这使得 mig 技术成为数据中心和云计算环境中更好地管理 gpu 资源的有力工具。它有助于提高 gpu 利用率，降低成本，并更好地满足不同应用程序和用户的需求。
mig是如何工作的mig通过虚拟地将单个物理gpu划分为更小的独立实例，这项技术涉及gpu虚拟化，gpu的资源，包括cuda内核和内存，被分配到不同的实例。这些实例彼此隔离，确保在一个实例上运行的任务不会干扰其他实例。
mig支持gpu资源的动态分配，允许根据工作负载需求动态调整实例的大小。这种动态分配有助于有效地利用资源。多个应用程序或用户可以在同一个gpu上并发运行，每个gpu都有自己的专用实例。整个过程通过软件进行管理，为管理员提供了对实例配置和资源分配的控制。这种方法增强了在单个gpu上处理不同工作负载的灵活性、可扩展性和资源效率。
mig 技术关键特点资源划分：mig 允许将一块物理 gpu 分割成多个 gpu 实例，每个实例具有自己的 gpu 核心、gpu 内存、nvlink 带宽等资源。这样可以更好地控制和划分 gpu 资源。多租户支持：mig 技术可以用于虚拟化 gpu，以便不同用户或应用程序可以共享同一块物理 gpu 而不会相互干扰。动态资源调整：管理员可以根据工作负载的需求动态地重新配置 mig 实例的资源，从而实现更好的资源利用和性能。容错性：mig 技术支持 gpu 实例的隔离，这意味着一个 gpu 实例中的问题不会影响到其他实例，从而提高了系统的容错性。部署灵活性：mig 技术可以用于云计算、虚拟化环境、容器化应用程序等多种情境，为不同的部署需求提供了灵活性。mig的条件并不是所有的显卡都支持mig，以下是官方给出的gpu型号：
可以看到，基本上就是a100和h100可以使用，虽然都是24g显存，但是消费级的4090是不支持的。
然后就是驱动
达到这些要求以后就可以使用了
mig配置和使用安装nvidia smi(这里使用ubuntu系统作为示例)很简单，只要安装好nvidia提供的工具包即可
sudo apt-get install nvidia-utils下一步就是验证nvidia驱动程序。
nvidia-smi没问题的话就说明安装完成了。下面就是配置的命令：
sudo nvidia-smi -i --mig onnvidia-smi结果中包含了gpu id。
验证mig配置(需要gpu id和实例id进行下一步工作)
nvidia-smi mig -lgip验证成功后就说明我们的mig已经正常可用，下面可以开始创建虚拟gpu
我们将单个gpu(硬件)划分为多个独立的gpu实例，以手动分担工作负载并降低工作平衡的成本。
sudo nvidia-smi -i --mig -i :指定要使用的gpu设备。将替换为需要配置的gpu的实际id。
-mig :用于配置mig (multi-instance gpu)。将替换为希望在指定gpu上创建的所需gpu实例数。每个实例都有自己的一组资源，包括内存和计算能力。
比如我们下面的示例：在gpu id=0上创建3个实例
sudo nvidia-smi -i 0 --mig 3更改实例的资源分配(工作负载)，主要目标是为特定的mig实例调整资源分配
sudo nvidia-smi -i -gi -rg -i :指定执行该操作的gpu。例如，-i 0表示第一个gpu。
-gi :在指定gpu内执行操作的mig实例。例如，-gi 1表示gpu上的第二个mig实例。
-rg :分配给指定mig实例的gpu资源的百分比。将替换为所需的百分比。例如-rg 70表示将70%的gpu资源分配给指定的mig实例。
在gpu_id = 0和mig instance=1上设置占gpu总资源70%的工作负载
sudo nvidia-smi -i 0 -gi 1 -rg 70docker和mig大部分情况我们都会使用docker来作为运行环境，所以这里我们再介绍一下docker和mig的配置。
安装nvidia container toolkit，这是我们再docker中使用gpu的第一步，这里就不详细介绍了，我们直接使用命令安装。
sudo apt-get install -y nvidia-container-toolkit配置docker守护进程以使用nvidia：编辑docker守护进程配置文件/etc/docker/daemon.json)，添加如下行:
{ default-runtime: nvidia, runtimes: { nvidia: { path: /usr/bin/nvidia-container-runtime, runtimeargs: [] } } }以上代码只是示例，请跟你的实际情况修改，本文不主要介绍如何再docker中使用gpu，所以只作为简单示例。
配置完需要重启
sudo systemctl restart docker验证gpu可用性，以获取gpu信息
docker run --gpus all nvidia/cuda:11.0-base nvidia-smi下面开始我们的主要工作，配置mig
docker run --gpus device=0,1,2,3 -e nvidia_visible_devices=0,1,2,3 my_container可以根据想要使用的mig设备数量来调整——gpu和nvidia_visible_devices参数。这里的gpus是我们通过上面命令虚拟的gpu
总结mig能够将单个gpu划分为更小的实例，mig为同时处理各种工作负载提供了经济高效且可扩展的解决方案。mig的底层功能，包括资源隔离和动态分配，增强了gpu使用的灵活性、可扩展性和整体效率。
跨越数据中心、科学研究和人工智能开发的实际应用凸显了mig在优化gpu资源和加速计算任务方面的影响。mig是一个很好的技术，但是就目前显卡的价格来说对他的普及还是有很大的阻碍。不支持消费级的显卡，一张a100大概10万+，4张4090 6万多，我想没人会把一张a100分成4份用吧。

集成电路产业聚焦移动芯片，国内技术升级机遇大于挑战
工业物联网平台在生态水环境治理（污水处理厂）中有何作用？
什么是数据分析，数据分析能为企业带来什么？
二极管基础知识与选型规范
示波器如何从测电压变成测电流？
GPU虚拟化技术MIG简介和安装使用教程
什么是BGA/CISC
阿里研制出世界最强量子电路模拟器
富士康联手HCL在印度拓展半导体封测业务
有了VR后人们的生活将进入黄金期
TCL实力展现硬核音画质,全球首款最薄MiniLED电视
基于VL813芯片的USB3.0 HUB方案
商汤集团2021年实现营收47亿元
MODBUS RTU传输模式介绍
在FPGA上实现咬尾卷积码的最优算法设计
小米6X和红米6 Pro对比分析，看看两者之间到底有什么区别
国产“章鱼”第二版设计者说
通过触摸实现真实感的Piezo(压电)触觉反馈设备
TGV处理薄玻璃的处理方案
智能照明灯具玩转“遥控时代”