ZNS SSD设计架构及性能优化

本工作发表于atc 2021。当前基于闪存的 ssd 保留了几十年前的块接口,这使得在容量过度配置、用于页面映射表的dram、垃圾回收开销以及试图减轻垃圾回收的主机软件复杂性等方面付出了巨大的代价。分区命名空间 (zns) 接口为这种不断增加的块接口税提供了庇护。zns使基于闪存的ssd具有更高的性能和更低的每字节成本。通过将管理擦除块内数据组织的责任从ftl层转移到主机软件,zns消除了设备内lba到页的映射、垃圾回收和op空间。
01 背景
目前基于闪存的固态硬盘保持着几十年前的块层接口,这在容量超额配置、页面映射表的dram、垃圾回收开销以及试图减轻垃圾回收的主机软件复杂性等方面带来了巨大的代价。块层接口向其上层展现出来的是一个一维的lba数组,每个lba都可以被读写,其最初的引用是为了隐藏存储介质的不同。然而随着存储介质的迭代,为flash based存储设备维护块层接口语义代价越来越大,如flash based ssds中ftl的运转需要大量dram,gc需要op空间,并且设备请求命令延迟被gc干扰后有抖动。
02 问题
块接口税
现代存储设备,如ssd和smr hdd,采取的是与块层接口不匹配的记录技术。这种不匹配导致了性能和操作成本的降低。在基于闪存的固态硬盘上,一个空的闪存页可以在写入时被编程,但覆盖它需要一个擦除操作,这个操作只能在擦除块(一组一个或多个闪存块,每个块包括多个页面)的粒度上发生。对于固态硬盘暴露出的块层接口,ftl必须管理一些功能,如使用随处写的方法进行就地更新,将主机逻辑块地址(lba)映射到物理设备页面,垃圾回收陈旧数据,并确保擦除块的均衡磨损。
但是,ftl对性能和操作成本有很大影响。为了避免就地更新的媒介限制,每个lba写入都被引导到下一个可用的位置。因此,主机放弃了对物理数据放置的控制,而由ftl执行。此外,旧的、陈旧的数据版本必须被垃圾回收,导致正在进行的操作的性能不可预测性。由于需要进行垃圾回收,必须在设备上分配物理资源。这就要求媒体超额配置总容量的28%,以便在物理地址之间移动数据。还需要额外的dram来维持逻辑和物理地址之间的易失性映射。容量超额配置和dram是固态硬盘中最昂贵的部件,导致每千兆字节可用容量的成本更高。
图1 多线程写入工作负载的吞吐量
现有的减税策略可能是低效的
降低块层接口税主要包含两种方法:支持流的ssd (stream ssd) 和开放通道ssd (ocssd)。
stream ssd允许主机用流提示来标记其写入命令。流提示由stream ssd解释,允许它将传入的数据区分到不同的擦除块上,从而提高固态硬盘的整体性能和介质寿命。流式固态硬盘要求主机仔细标记具有相似寿命的数据,以减少垃圾回收。如果主机将不同寿命的数据混合到同一个数据流中,stream ssd的行为与块层接口固态硬盘类似。stream ssd必须携带资源来管理这样的事件,所以stream ssd不会舍弃块层接口固态硬盘的额外介质超额配置和dram的成本。
ocssd允许主机和固态硬盘通过一组连续的lba块进行合作。ocssd可以将这些块暴露出来,使其与媒体的物理擦除块边界一致。这消除了设备内的垃圾收集开销,并减少了媒体超额配置和dram的成本。在ocssd中,主机负责数据放置。这包括底层介质的可靠性管理,如磨损平衡,以及特定的介质故障特征(取决于ocssd类型)。这有可能提高固态硬盘的性能和介质寿命,但主机必须管理不同的固态硬盘实现的差异,以保证耐用性,使接口难以采用,并需要不断的软件维护。
03 方法
nvme分区命名空间命令集规范,简称为zns,最近被引入作为基于闪存的ssd的新接口标准。zns接口代表了主机软件和基于闪存的ssd之间的新功能划分。zns提供了对这种不断增长的块层接口税的庇护。
zoned存储模型
zoned storage model,最初的思想来源于smr hdds和ocssds,诞生于无需兼容块接口同时又满足存储设备的需要。zns接口提供了与媒介无关的下一代存储接口。
zoned storage model中存储设备的管理单位为zone,zone是一组连续lba的集合。在zone中,支持random read,但是write必须是顺序的,对zone的over write需要对整块zone进行reset。
每个zone有其各自的状态,如empty、full、opened、closed,zone的状态表达了其在该zone中的操作限制。且由于资源的限制,处于opened状态的zones的数量受到设备限制。
图2 zone逻辑概念图
zns ssd设计架构
zns ssds的设计主要考虑两方面,一是硬件方面,二是使应用适应zns接口方面。
1. 硬件方面:
zns ssds放弃了对随机写的支持,随之而来的使由host端负责gc工作。在zns ssds' ftl的设计需要考虑以下的权衡。
zone sizing:zone size不同产生的效果也不同。size小的则host有更多的数据放置自由度,代价是zone可能无法横跨所有die而对单个zone的读写达不到flash的满带宽。而size大的则host放置数据自由度低,而带来的结果是单个zone的读写带宽很高。
mapping table:块层接口ssds中的ftl维护着lba粒度的全相联mapping table,1tb的存储介质大约需要1gb的mapping table。在zns ssds中可以考虑将更改mapping table的粒度,如到zone粒度,以减少dram的使用。
device resources:每个opened zone都需要一定的设备资源来维护元数据。同时ssds内部资源有限,如dram、channel等。zns ssds中所有的zones共享这些资源,所以ssds进行了active zones的数量限制。通常可限制同时活动的zones的数量为8-32个。
2. 软件方面:
目前讨论三种使主机软件适配于zns interface的方法,分别是主机端ftl、文件系统和端到端数据放置。
host-side ftl:主机端ftl充当应用端随机写、in-place update与zns ssds端顺序写语义的桥梁。主机端ftl在主机端控制数据放置和垃圾回收,暴漏给应用传统的块层接口。
file systems:目前的文件系统大部分都是in-place writes,并不适应zoned存储模型。一些lfs文件系统如f2fs、btrfs和zfs已经添加了对zones的支持。但如f2fs和btrfs对zone model的支持仅限于在scsi中的zac/zbc,本文是对f2fs进行修改以对zns's zone model进行支持。
end-to-end data placement:理想情况下zone-write语义应该与应用中的数据结构完全匹配,以达到最小的写放大、最高的带宽和最低的延迟。此类应用的合适候选者为rocksdb、cachelib等。本文展示了zenfs作为rocksdb的存储后端的性能。
图3 zenfs架构图
04 实验结果
评估实验是基于一个生产型固态硬盘硬件平台上进行的,该平台该平台可以将自己暴露为块状接口固态硬盘或zns固态硬盘。硬件平台的配置如下:
表1 实验平台设置
实验性能对比包含三个方面,分别为原始设备i/o性能、端到端的应用性能和与zns ssd vs stream ssd。
原始设备i/o性能:该实验主要对zns ssd和传统块层接口ssd的吞吐量进行评估。zns ssd由于最大化减小了块层接口税,所以体现出更优秀的吞吐量。块层接口ssd的目标写入速度高达300mib/s(0% op)和500mib/s(28% op),而zns固态硬盘的写入速度为1gib/s。实验结果验证了zns ssd可以很好的避免块层接口税开销问题。
图4 吞吐量优化实验结果
    端到端的应用性能:该实验主要对rocksdb在不同的文件系统作为存储后端的性能评估。通过修改文件系统为zns ssd管理提供支持,从而获取更优的吞吐量。两个基准测试都显示xfs和f2fs设置的性能低于f2fs(zns)和zenfs。最重要的影响出现在overwrite基准中,其中垃圾收集的开销严重影响了整体性能。zenfs比xfs快183%,而f2fs(zns)的表现 比xfs好42%,比f2fs好33%。
图5 iops优化实验结果
zns ssd vs stream ssd:该实验主要对zns ssd和stream ssd的性能评估。在具有 7% op并且在 xfs 和 f2fs 之上启用或禁用流的块层接口 ssd上执行的fillrandom和overwrite基准测试的吞吐量。在启用流的 ssd 上,xfs上的rocksdb在fillrandom和overwrite上分别提高了11%和16%的吞吐量。在启用流的 ssd 上,f2fs上的rocksdb在fillrandom和overwrite分别提高了24%和4%的吞吐量。与f2fs(streams)相比,f2fs (zns)的吞吐量分别提高了 17% 和 44%。
图6 zns ssd vs stream ssd性能对比实验结果
05 总结
zns使基于闪存的固态硬盘具有更高的性能和更低的每字节成本。通过将管理擦除块内数据组织的责任从ftl转移到主机软件,zns消除了设备内lba到页的映射、垃圾回收和op空间。文章对zns专用的f2fs和rocksdb实施的实验表明,与在相同的ssd硬件上运行的传统ftl相比,在写吞吐量、读尾部延迟和写放大方面有很大的改进。
致谢
感谢本次论文解读者,来自华东师范大学的准博士生宋云鹏,主要研究方向为软硬件协同设计。


Soitec携手新傲科技,扩大中国区200mm SOI晶圆产量,保障未来增长
华明FJK-1型漏电断路器原理分析
我国共有18.5万家企业名称或经营范围含“机器人”
AI服务器与传统服务器的区别是什么?
采用ADS7846控制器的电阻式触摸屏接口电路设计
ZNS SSD设计架构及性能优化
移动机器人的应用落地将会面临哪些挑战
安森美半导体的LDO稳压器系列简介
中央空调远程运维监控控制方案
十年紧密合作,华为与润和共同见证彼此的成长历程 重心转到AI等方面
外媒AnandTech:A12芯片可能是苹果自研电脑芯片的开始
浅谈接插件/电连接器的选择方法
什么是氢燃料电池_氢燃料电池汽车原理
RFID电子标签智能跟踪帮手
华为Mate10什么时候上市?华为Mate10最新消息:华为Mate10外观、配置、性能、拍照、价格憋大招,华为绝杀!
天下AI,唯快不破!
Python自定义输出格式
一加5首曝:2K屏、骁龙835、8+128G,1600万双摄
安森美半导体的适用于功率65W的电源适配器介绍
华为翻盖折叠屏手机专利曝光 可从中央位置向内折叠180度