基于FPGA的19nm闪存PCIe SSD的设计与实现

19nm闪存pcie ssd
以 nand闪存为基础的固态磁盘（ssd）技术与传统的机械驱动器存储系统相比，吞吐量更高，功耗更低。为此，ssd使用量在过去十年迅速增加，从手持设备到笔记本、台式机，现在又进军企业级存储设备市场。企业级存储行业对基于串行高级技术附件（sata）标准的ssd的采用进一步加速了这一快速扩展势头。
但是，在ssd制造商期望通过使用19nm闪存将下一代系统的性能和密度推上新高度的时候，sata并没有跟上。即便是最新的版本（sata 3.0），6gbps物理接口也难以满足ssd nand闪存阵列的最高吞吐量，因此存在性能利用不足的问题。
为了突破接口瓶颈，基于pci express的ssd正在给市场带来重大影响。pcie是业界标准本地总线，性能和扩展能力均优于sata。它采用多信道高速串行链路，可支持1至16 个信道，每个信道的运行速率高达8gbps（gen1为2.5gbps，gen2为5gbps，gen3为8gbps）。ssd的pcie接口可支持数 gb的吞吐量，并可为nand闪存技术的发展提供更富足的带宽余量。
然而，用19nm闪存开发基于pcie的ssd系统面临着一系列的挑战。与sata相比，pcie接口要求更多的高速串行链路和更复杂的互联。对吞吐量的需求则要求pcie直接存储器存取（dma）以千兆字节带宽运行。另外，采用19nm工艺，闪存的可靠性或者更具体地说“磨损（wear）”（nand在遇到错误之前能读取或者写入的次数）指标也是一个日益严峻的问题。采用19nm工艺，制造商必须以比以往更快的速度完成磨损平衡（wear leveling）和纠错。
赛灵思（xilinx）公司kintex-7 fpga以不到前一代fpga一半的成本为fpga设立了新的高性能基准。kintex-7系列是赛灵思采用台积电（tsmc）高性能低功耗（hpl）28nm工艺技术生产的四大产品线之一，旨在实现最大能效。与前代产品相比，其性价比提高了两倍，而功耗降低了50%。kintex-7 fpga采用高密度逻辑、高性能收发器、存储器、dsp，以及灵活混合信号技术，所有这一切让系统级性能和集成度迈上新高。这些功能能够让设计以批量价格不断实现创新和差异化。因此，赛灵思kintex-7系列fpga是19nm闪存pcie ssd控制器的理想选择。
图1所示的是北京忆恒创源科技有限公司（memblaze）的ssd控制器架构，它由三个以高速axi4总线相连的子系统组成。pcie sg-dma子系统包含kintex fpga硬核，负责在主机和ssd数据缓存之间分散和采集数据（sg代表分散（scatter）和采集（gather））。cpu子系统负责管理外设和执行ssd存取命令，而存储子系统则负责运用多通道nand控制器、纠错码（ecc）模块和磨损平衡模块处理ssd扇区数据。这三个子系统共享带ecc功能的2gb ddr3 sdram。采用赛灵思存储器接口生成器（mig）工具可以很容易地生成ecc ddr3 sdram控制器。
图1：针对19nm nand闪存pcie ssd的kintex-7soc解决方案由三个子系统组成：cpu、存储和pcie sg-dma
该设计中使用7系列pcie硬核实现物理至tlp层，让设计能够以最低的时延发挥高性能pcie端点的功能。支持arm axi4互联的新型嵌入式microblaze核可以彻底消除片上总线的瓶颈。ddr硬核为磁盘高速缓存提供了51.2gbps ecc解决方案。同时，使用低功耗逻辑资源能够方便地运行高性能磨损平衡和智能ecc算法。另外，丰富的高性能i/o资源为19nm nand闪存阵列的互联提供了方便。
pci express sg-dma
该设计的pcie接口要求用一个快速dma控制器实现主机和本地axi4总线间的高速通信。ssd闪存阵列的吞吐量可高达2.5gbps。为简化pcie接口的设计，为闪存芯片的发展提供更大的裕量，设计选用8信道pcie gen2/gen3架构。
pcie 端点在物理层、数据链路层和事务层中有大量复杂的协议需要处理。幸运的是，在赛灵思7系列fpga中设计pcie sg-dma控制器速度既快又方便。赛灵思已经把pcie硬核实现在器件的架构中，用于处理全部的pcie操作。这样设计小组就可以集中精力设计sg- dma操作本身的功能。pcie解决方案的集成模块可支持单通道、双通道、四通道和八通道端点配置，最高速度达5gbps（gen2），符合pcie基本规范2.1修订版。表1是7系列fpga的pci集成模块的配置。该核可配置为gen1/gen2，最多可支持8个信道，从而可提供高达40gbps的带宽。
　表1：7系列fpga支持的硬核
设计中使用core generator工具来配置和生成pcie端点ip。该工具包括用户指南、源代码、仿真代码和设计范例，可以帮助迅速使用该核。图2显示了pcie硬核的顶层功能模块和接口。
图2：pci express硬核顶层的功能模块与接口。
sg- dma核的主要功能是处理来自主机的tlp数据包并做出响应。sg-dma用作对主机存储器的pcie主控访问，在主机和本地存储器之间传输数据。主机向 dma控制器发送命令，控制dma访问。该命令代码嵌入在特定主机tlp寄存器写操作的数据中。sg-dma控制器初始化sg-dma写入请求，响应主机的读取命令，将数据从本地存储器移动到主机存储器。同样，对于主机的写命令，sg-dma控制器初始化dma读请求，将数据从主机存储器移动到本地存储器中。图3即是流程的图解。
图3：sg-dma控制器工作流程
axi4互联
axi4互联ip将一个或多个axi存储器映射的速度更快的设备连接到一个或多个存储器映射的从设备。axi接口符合arm制定的amba axi第4版规范，包括axi4-lite控制寄存器接口子集。互联ip仅用于存储器映射传输，不适用axi4-stream传输。axi互联ip可以用作赛灵思嵌入式开发工具套件（edk）中提供的pcore，或者用作赛灵思core generator ip目录的独立内核。
设计人员可以从赛灵思axi4 ip支持的两种操作模式中进行选择。性能优化的交叉开关（crossbar）模式采用共享地址多数据流（samd）交叉开关架构，为读/写数据通道提供并行路径。而区域优化的共享访问模式则提供共享写数据地址路径、共享读数据地址路径和单条共享地址路径。这两种模式均支持增量（incr）突发的长达256 位的突发长度以及32位至1024位的不同数据宽度。如有的话，每个通道还可支持user信号传播，可选择每个通道独立的user信号宽度。
axi4互联在pcie sg-dma和ddr3存储器之间提供高性能互联。axi4-lite共享总线是低速片上互联的理想解决方案，需要的逻辑资源极少。
磨损平衡技术
磨损平衡是存储介质厂商用于延长各类可擦除计算机存储设备使用寿命的设计技术，比如固态硬盘中使用的闪存。在闪存系统内使用的磨损平衡机制有几种，每种都对使用寿命进行了不同程度的强化。
不采用磨损平衡机制的闪存存储系统如果向闪存写入数据，寿命会比较短。如不采用磨损平衡技术，闪存控制器必须永久性地将操作系统（os）的逻辑地址分配给闪存的物理地址。也就是说，每次对之前已写模块的写操作都必须先读取、擦除、修改数据，然后在相同位置重新写入。这非常耗时，而且经常写入的位置会迅速磨损，而闪存上有的位置则完全没有使用。一旦部分模块寿终正寝，驱动器就不能再用了。
第一种磨损平衡方法称之为“动态磨损平衡”。它使用一个映射将操作系统的逻辑块地址（lba）链接到物理闪存地址。每次操作系统写入替换数据时，映射就会更新，标记原始的物理模块为无效数据，然后将一个新模块链接到这一映射条目。每次有数据模块重新写入到闪存，就会写入到新地址。然而，闪存上没有数据更新的模块就一直不会产生附加磨损。驱动器的使用寿命可能会比未采用磨损平衡机制的驱动器长，但某些块虽然处于活动状态，但却不会得到利用。
另一种磨损平衡方法称为“静态磨损平衡”，它也使用映射将lba链接到物理存储器地址。除了未改变的静态模块会定期移动，让其他数据访问这些利用率低的单元外，静态磨损平衡与动态磨损平衡工作原理相同。这种循环效应让ssd能够一直用到大多数模块接近它们的寿命终点。
图4是在长期写入/擦除操作后采用和未采用磨损平衡技术的闪存页的情况。未采用磨损平衡技术的闪存（具有黑色页）已经被破坏，不能再记录任何数据，而采用了磨损平衡技术的闪存的所有页仍然能够正常工作。
图4：采用和未采用磨损平衡的闪存页
智能ecc算法
ssd系统设计的另一项关键组成部分就是纠错。有多种异常情况可能导致误码，进而影响数据完整性乃至系统本身的正确运行。为了解决这些错误，设计中采用了复杂的ecc算法，而且当这些系统中使用了更小的新型闪存时，这些算法变得更加的精细化。
该设计在19nm nand闪存上采用了一种被称为“反随机数据错误记录”的ecc算法。该算法用于解决温度变化、噪声和存储单元的可靠性造成的误码。另外，nand闪存的存储单元的擦除/编程寿命一般有限。误码率（ber）随擦除/编程操作的累积而增大，直到有限的寿命终止。ssd的ecc功能还需要这种算法检测每个单元的误码率，了解它们的使用寿命情况。设计人员可以设定特定的误码率阈值，提示寿命已到和确认替换模块。不过，该阈值的优化很关键。误码率阈值过低会导致系统过早放弃可靠的单元，最终缩短ssd的使用寿命。误码率阈值过高，则会造成数据丢失的风险，因为系统会试图向不可靠的单元写入数据。因此，ecc算法必须在可靠性和寿命之间实现最佳平衡。
19nm nand闪存存储密度较高，但可靠性较差。这就是为什么设计中采用高速高级纠错的原因。ecc部分占35%以上的设计资源，实现的并行计算能力能够以 4gb读取速度在一个1，024位的扇区内纠正多达49位误码。与上一代fpga相比，新型28nm kintex-7技术将系统级性能提升达50%，容量提高两倍，总功耗减半。与virtex-5器件中相同的ecc模块相比，kintex-7实现方案在保持成本不变的同时，将面积缩小5%，性能提升40%以上。
赛灵思kintex-7系列fpga是19nm闪存pcie ssd设计的理想选择。其pcie硬核、性能、容量和低功耗特性使其成为了市场上最优秀的芯片产品。采用该器件， ssd的读/写吞吐量可以轻松达到2gbps的水平。借助该器件将不仅能够为客户创造巨大的价值，而且19nmnand闪存系统也将得到巨大的发展潜力。

skytoken多币系统开发
电压互感器V/V接法接线方法介绍
罗克韦尔自动化控制器件在冶金起重机系统中的应用
模电试题解析(二）
新唐科技M483SIDAE主板简介
基于FPGA的19nm闪存PCIe SSD的设计与实现
高低温冲击试验箱是如何做到一箱两用一箱多用的?
2019慕尼黑上海电子生产设备展在上海新国际博览中心盛大开幕！
如何进行PCB印制板的外形加工处理
贸泽与Vishay携手推出全新电子书介绍汽车级电子元件的新应用
阿里巴巴、华为等是2020亚洲品牌500强榜单前十
磁通漩涡中可形成Majorana零能模
怎样利用物联网来避免火灾的发生
漫威版aigo移动固态硬盘S9：为情怀买单，你值得拥有
新能源汽车产业发展处于爬坡过坎的关键期
高通推出全球首个5G XR平台，同时也支持AR、VR、MR
浅谈煤矿电力监控系统的设计与应用
在补贴政策的冲击下，新能源市场现有格局将彻底改变
用于深度学习推理的高性能工具包
芯启源推出基于SoC-NP架构DPU芯片智能网卡