Linux网络子系统的DMA机制的实现方案

本文由西邮陈莉君教授研一学生进行解析，由白嘉庆整理，薛晓雯编辑，崔鹏程校对.
我们先从计算机组成原理的层面介绍dma，再简单介绍linux网络子系统的dma机制是如何的实现的。
一、计算机组成原理中的dma
以往的i/o设备和主存交换信息都要经过cpu的操作。不论是最早的轮询方式，还是我们学过的中断方式。虽然中断方式相比轮询方式已经节省了大量的cpu资源。但是在处理大量的数据时，dma相比中断方式进一步解放了cpu。
dma就是direct memory access，意思是i/o设备直接存储器访问，几乎不消耗cpu的资源。在i/o设备和主存传递数据的时候，cpu可以处理其他事。
1. i/o设备与主存信息传送的控制方式
i/o设备与主存信息传送的控制方式分为程序轮询、中断、dma、rdma等。
先用“图1”大体上说明几种控制方式的区别，其中黄线代表程序轮询方式，绿线代表中断方式，红线代表dma方式，黑线代表rdma方式，蓝线代表公用的线。可以看出dma方式与程序轮询方式还有中断方式的区别是传输数据跳过了cpu，直接和主存交流。
“图1”中的“接口”既包括实现某一功能的硬件电路，也包括相应的控制软件，如 “dma接口” 就是一些实现dma机制的硬件电路和相应的控制软件。
“dma接口”有时也叫做“dma控制器”（dmac）。
图1
上周分享“图1”时，刘老师说在dma方式下， dma控制器（即dma接口）也是需要和cpu交流的，但是图中没有显示dma控制器与cpu交流信息。但是这张图我是按照哈工大刘宏伟老师的《计算机组成原理》第五章的内容画出的，应该是不会有问题的。查找了相关资料，觉得两个刘老师都没有错，因为这张图强调的是数据的走向，即这里的线仅是数据线。如果要严格一点，把控制线和地址线也画出来，将是“图2”这个样子：
图2
这里新增了中断方式的地址线和控制线、dma方式的地址线和控制线。（“图2”也是自己绘制，其理论依据参考“图3”，这里不对“图3”进行具体分析，因为涉及底层的硬件知识）
“图2”对“图1”的数据线加粗，新增细实线表示地址线，细虚线表示控制线。可以看出在中断方式下，无论是传输数据、地址还是控制信息，都要经过cpu，即都要在cpu的寄存器中暂存一下，都要浪费cpu的资源；但是在dma方式下，传输数据和地址时，i/o设备可以通过“dma接口”直接与主存交流，只有传输控制信息时，才需要用到cpu。而传输控制信息占用的时间是极小的，可以忽略不计，所以可以认为dma方式完全没有占用cpu资源，这等价于i/o设备和cpu可以实现真正的并行工作，这比中断方式下的并行程度要更高很多。
图3
2. 三种方式的cpu工作效率比较
在i/o准备阶段，程序轮询方式的cpu一直在查询等待，而中断方式的cpu可以继续执行现行程序，但是当i/o准备就绪，设备向cpu发出中断请求，cpu响应以实现数据的传输，这个过程会占用cpu一段时间，而且这段时间比使用程序轮询方式的cpu传输数据的时间还要长，因为cpu除了传输数据还要做一些准备工作，如把cpu寄存器中的数据都转移到栈中。
但是dma方式不一样，当i/o准备就绪，设备向cpu发出dma请求，cpu响应请求，关闭对主存的控制器，只关闭一个或者几个存取周期，在这一小段时间内，主存和设备完成数据交换。而且在这一小段时间内，cpu并不是什么都不能做，虽然cpu不能访问主存，即不能取指令，但是cpu的cache中已经保存了一些指令，cpu可以先执行这些指令，只要这些指令不涉及访存，cpu和设备还是并行执行。数据传输完成后，dma接口向cpu发出中断请求，让cpu做后续处理。大家可能会奇怪dma接口为什么也能发出中断请求，其实dma接口内有一个中断机构，见“图3”,dma技术其实是建立在中断技术之上的，它包含了中断技术。
总之，在同样的时间内，dma方式下cpu执行现行程序的时间最长，即cpu的效率最高。
二、linux网络子系统中dma机制的实现
1. dma机制在tcp/ip协议模型中的位置
网卡明显是一个数据流量特别大的地方，所以特别需要dma方式和主存交换数据。
主存的内核空间中为接收和发送数据分别建立了两个环形缓冲区（ring buffer）。分别叫接受环形缓冲区（receive ring buffer）和发送环形缓冲区（send ring buffer），通常也叫dma环形缓冲区。
下图可以看到dma机制位于tcp/ip协议模型中的位置数据链路层。
网卡通过dma方式将数据发送到receive ring buffer,然后receive ring buffer把数据包传给ip协议所在的网络层，然后再由路由机制传给tcp协议所在的传输层，最终传给用户进程所在的应用层。下一节在数据链路层上分析具体分析网卡是如何处理数据包的。
2. 数据链路层上网卡对数据包的处理
dma 环形缓冲区建立在与处理器共享的内存中。每一个输入数据包被放置在环形缓冲区中下一个可用缓冲区，然后发出中断。接着驱动程序将网络数据包传给内核的其它部分处理，并在环形缓冲区中放置一个新的 dma 缓冲区。
驱动程序在初始化时分配dma缓冲区，并使用驱动程序直到停止运行。
准备工作：
系统启动时网卡（nic）进行初始化，在内存中腾出空间给 ring buffer 。ring buffer 队列每个中的每个元素 packet descriptor指向一个sk_buff ，状态均为ready。
上图中虚线步骤的解释：
1.dma 接口将网卡（nic）接收的数据包（packet）逐个写入 sk_buff ，被写入数据的 sk_buff 变为 used 状态。一个数据包可能占用多个 sk_buff , sk_buff读写顺序遵循先入先出（fifo）原则。
2.dma 写完数据之后，网卡（nic）向网卡中断控制器（nic interrupt handler）触发硬件中断请求。
3.nic driver 注册 poll 函数。
4.poll 函数对数据进行检查，例如将几个 sk_buff 合并，因为可能同一个数据可能被分散放在多个 sk_buff 中。
5.poll 函数将 sk_buff 交付上层网络栈处理。
后续处理：
poll 函数清理 sk_buff，清理 ring buffer 上的 descriptor 将其指向新分配的 sk_buff 并将状态设置为 ready。
3.源码分析具体网卡（4.19内核）
intel的千兆以太网卡e1000使用非常广泛，我虚拟机上的网卡就是它。
这里就以该网卡的驱动程序为例，初步分析它是怎么建立dma机制的。
源码目录及文件：
内核模块插入函数在e1000_main.c文件中，它是加载驱动程序时调用的第一个函数。
/** * e1000_init_module - driver registration routine * * e1000_init_module is the first routine called when the driver is * loaded. all it does is register with the pci subsystem.**/static int __init e1000_init_module(void){ int ret; pr_info(%s - version %s, e1000_driver_string, e1000_driver_version); pr_info(%s, e1000_copyright); ret = pci_register_driver(&e1000_driver); if (copybreak != copybreak_default) { if (copybreak == 0) pr_info(copybreak disabled); else pr_info(copybreak enabled for packets bus_type == e1000_bus_type_pcix) && !dma_set_mask_and_coherent(&pdev->dev, dma_bit_mask(64))) { pci_using_dac = 1; } else { err = dma_set_mask_and_coherent(&pdev->dev, dma_bit_mask(32)); if (err) { pr_err(no usable dma config, aborting); goto err_dma; }} 其中的函数dma_set_mask_and_coherent()用于对dma_mask和coherent_dma_mask赋值。
dma_mask表示的是该设备通过dma方式可寻址的物理地址范围，coherent_dma_mask表示所有设备通过dma方式可寻址的公共的物理地址范围，
因为不是所有的硬件设备都能够支持64bit的地址宽度。
/include/linux/dma-mapping.h
/* * set both the dma mask and the coherent dma mask to the same thing. * note that we don't check the return value from dma_set_coherent_mask() * as the dma api guarantees that the coherent dma mask can be set to * the same or smaller than the streaming dma mask. */static inline int dma_set_mask_and_coherent(struct device *dev, u64 mask){ int rc = dma_set_mask(dev, mask); if (rc == 0) dma_set_coherent_mask(dev, mask); return rc;} rc==0表示该设备的dma_mask赋值成功，所以可以接着对coherent_dma_mask赋同样的值。
继续阅读e1000_probe函数，
if (pci_using_dac) { netdev->features |= netif_f_highdma; netdev->vlan_features |= netif_f_highdma;} 如果pci_using_dac标记为1，则当前网络设备的features域（表示当前活动的设备功能）和vlan_features域（表示vlan设备可继承的功能）都赋值为netif_f_highdma，netif_f_highdma表示当前设备可以通过dma通道访问到高地址的内存。
因为前面分析过，pci_using_dac标记为1时，当前设备是64位的。e1000_probe函数完成了对设备的基本初始化，接下来看如何初始化接收环形缓冲区。
/** * e1000_setup_rx_resources - allocate rx resources (descriptors) * @adapter: board private structure * @rxdr: rx descriptor ring (for a specific queue) to setup * * returns 0 on success, negative on failure **/static int e1000_setup_rx_resources(struct e1000_adapter *adapter, struct e1000_rx_ring *rxdr){ ''''''' rxdr->desc = dma_alloc_coherent(&pdev->dev, rxdr->size, &rxdr->dma,gfp_kernel); ''''''memset(rxdr->desc, 0, rxdr->size);rxdr->next_to_clean = 0;rxdr->next_to_use = 0;rxdr->rx_skb_top = null;return 0;} 这里dma_alloc_coherent()的作用是申请一块dma可使用的内存，它的返回值是这块内存的虚拟地址，赋值给rxdr->desc。其实这个函数还隐式的返回了物理地址，物理地址存在第三个参数中。指针rxdr指向的是struct e1000_rx_ring这个结构体，该结构体就是接收环形缓冲区。
若成功申请到dma内存，则用memset()函数把申请的内存清零，rxdr的其他域也清零。
对于现在的多核cpu，每个cpu都有自己的接收环形缓冲区，e1000_setup_all_rx_resources()中调用e1000_setup_rx_resources()，初始化所有的接收环形缓冲区。
int e1000_setup_all_rx_resources(struct e1000_adapter *adapter){int i, err = 0;for (i = 0; i num_rx_queues; i++) {err = e1000_setup_rx_resources(adapter, &adapter->rx_ring[i]);if (err) {e_err(probe, allocation for rx queue %u failed, i);for (i-- ; i >= 0; i--)e1000_free_rx_resources(adapter,&adapter->rx_ring[i]);break;}}return err;} e1000_setup_all_rx_resources()由e1000_open()调用，也就是说只要打开该网络设备，接收和发送环形缓冲区就会建立好。

墨西哥计划将在三年内建设三座机场来改善首都机场饱和的问题
华为以202.8%的IaaS收入增长至27亿美元位列前五
LDO应用的考量因素
谷歌在智能音箱市场的竞争越来越大一个重要原因是中国市场的崛起
5G时代，CDCE联手EP电力展打造新基建一站式采购平台
Linux网络子系统的DMA机制的实现方案
人工智能的兴起会影响人类的工作岗位吗
屏式铠装热电偶爆管原因及改进措施
如何在S7-SCL程序中使用多重背景进行数据块间接寻
体感试衣镜，带你告别繁琐的试衣间
台基股份发布2018第三季度业绩报告
印制电路图像形成技术的术语介绍
华普物联4G DTU HP-RS4G-T200
Jürgen Schmidhuber：无监督神经网络在极大极小上的博弈
使用WinDaq软件进行偏移补偿
小米智能门锁Pro正式发布
TI推出可降低常开智能手机、平板电脑及配件功耗的最新 MSP430 MCU
如何为无线状态监控系统选择最佳MEMS传感器
全球最大的主板商华硕业绩下滑40% 华硕的解药到底在哪里？
世界首个3D人工眼球究竟是如何做到与人类生物眼的视网膜媲美？