聊聊原子变量、锁、内存屏障那点事(1)

突然想聊聊这个话题，是因为知乎上的一个问题多次出现在了我的timeline里：请问，多个线程可以读一个变量，只有一个线程可以对这个变量进行写，到底要不要加锁？可惜的是很多高票答案语焉不详，甚至有所错漏。所以我想在这篇文章里斗胆聊聊这个水挺深的问题。受限于个人水平，文章若有错漏，还望读者不吝赐教。
首先约定，由于cpu的架构和设计浩如烟海，本文站在工程师的角度，只谈ia32/amd64(x86-64)架构，不讨论其他架构的细节和差异。并且文章中主要引用intel的文档予以佐证，不关注amd在实现细节上的差异。
众所周知，当一个执行中的程序的数据被多个执行流并发访问的时候，就会涉及到同步（synchronization）的问题。同步的目的是保证不同执行流对共享数据并发操作的一致性。早在单核时代，使用锁或者原子变量就很容易达成这一目的。甚至因为cpu的一些访存特性，对某些内存对齐数据的读或写也具有原子的特性。
比如，在《intel® 64 and ia-32 architectures software developer’s manual》的第三卷system programming guide的chapter 8 multiple-processor management里，就给出了这样的说明：
也就是说，有些内存对齐的数据的访问在cpu层面就是原子进行的（注意这里说的只是单次的读或者写，类似普通变量i的i++操作不止一次内存访问）。此时，环形队列（ring buffer）这种数据结构在某些架构的单核cpu上，只有一个reader和一个writer的情况下是不需要额外同步措施的。原因就是read_index和writer_index的写操作在满足对齐内存访问的情况下是原子的，不需要额外的同步措施。注意这里我加粗了单核cpu这个关键字，那么到了多核心处理器的今天，该操作就不是原子了吗？不，依旧是原子的，但是出现了其他的干扰因素迫使可能需要额外的同步措施才能保证原本无锁代码的正确运行。
首先是现代编译器的代码优化和编译器指令重排可能会影响到代码的执行顺序。编译期指令重排是通过调整代码中的指令顺序，在不改变代码语义的前提下，对变量访问进行优化。从而尽可能的减少对寄存器的读取和存储，并充分复用寄存器。但是编译器对数据的依赖关系判断只能在单执行流内，无法判断其他执行流对竞争数据的依赖关系。就拿无锁环形队列来说，如果writer做的是先放置数据，再更新索引的行为。如果索引先于数据更新，reader就有可能会因为判断索引已更新而读到脏数据。
那禁止编译器对该类变量的优化，解决了编译期的重排序就没事了吗？不，cpu还有乱序执行（out-of-order execution）的特性。流水线（pipeline）和乱序执行是现代cpu基本都具有的特性。机器指令在流水线中经历取指、译码、执行、访存、写回等操作。为了cpu的执行效率，流水线都是并行处理的，在不影响语义的情况下。处理器次序（process ordering，机器指令在cpu实际执行时的顺序）和程序次序（program ordering，程序代码的逻辑执行顺序）是允许不一致的，即满足as-if-serial特性。显然，这里的不影响语义依旧只能是保证指令间的显式因果关系，无法保证隐式因果关系。即无法保证语义上不相关但是在程序逻辑上相关的操作序列按序执行。从此单核时代cpu的self-consistent特性在多核时代已不存在，多核cpu作为一个整体看，不再满足self-consistent特性。
简单总结一下，如果不做多余的防护措施，单核时代的无锁环形队列在多核cpu中，一个cpu核心上的writer写入数据，更新index后。另一个cpu核心上的reader依靠这个index来判断数据是否写入的方式不一定可靠。index有可能先于数据被写入，从而导致reader读到脏数据。
所有的麻烦到这里就结束了吗？当然不，还有cache的问题。前文提到的都是顺序一致性（sequential consistency）的问题，没有涉及cache一致性（cache coherence）的问题。虽然说一般情况下程序员只需要关注顺序一致性即可，但是区分清楚这两个概念也能更好的解释内存屏障（memory barrier）。
开始提到cache一致性协议之前，先介绍两个名词：
load/read cpu读操作，是指将内存数据加载到寄存器的过程
store/write cpu写操作，是指将寄存器数据写回主存的过程
现代处理器的缓存一般分为三级，由每一个核心独享的l1、l2 cache，以及所有的核心共享l3 cache组成：
由于cache的容量很小，一般都是充分的利用局部性原理，按行/块来和主存进行批量数据交换，以提升数据的访问效率。以前写过一篇《浅析x86架构中cache的组织结构》，这里不再赘述。既然各个核心之间有独立的cache存储器，那么这些存储器之间的数据同步就是个比较复杂的事情。缓存数据的一致性由缓存一致性协议保证。这里比较经典的当属mesi协议。intel的处理器使用从mesi中演化出的mesif协议，而amd使用moesi协议。缓存一致性协议的细节超出了本文的讨论范围，有兴趣的读者可以自行研究。
传统的mesi协议中有两个行为的执行成本比较大。一个是将某个cache line标记为invalid状态，另一个是当某cache line当前状态为invalid时写入新的数据。所以cpu通过store buffer和invalidate queue组件来降低这类操作的延时。如图：
当一个核心在invalid状态进行写入时，首先会给其它cpu核发送invalid消息，然后把当前写入的数据写入到store buffer中。然后异步在某个时刻真正的写入到cache line中。当前cpu核如果要读cache line中的数据，需要先扫描store buffer之后再读取cache line（store-buffer forwarding）。但是此时其它cpu核是看不到当前核的store buffer中的数据的，要等到store buffer中的数据被刷到了cache line之后才会触发失效操作。而当一个cpu核收到invalid消息时，会把消息写入自身的invalidate queue中，随后异步将其设为invalid状态。和store buffer不同的是，当前cpu核心使用cache时并不扫描invalidate queue部分，所以可能会有极短时间的脏读问题。当然这里的store buffer和invalidate queue的说法是针对一般的smp架构来说的，不涉及具体架构。事实上除了store buffer和load buffer，流水线为了实现并行处理，还有line fill buffer/write combining buffer 等组件，参考文献8-10给出了相关的资料可以进一步阅读。

小米重返全球前三位置，将面临OPPO虎视眈眈局面
什么是神经形态芯片
网络有源吸顶喇叭主要功能和应用场景
5G+AIoT新时代下，通信模组厂商如何提高核心竞争力？
轻量化最高效？电动汽车驱动系统降低电耗的途径
聊聊原子变量、锁、内存屏障那点事(1)
变压器的故障分析之色味篇
瑞萨电子开发出100A大电流功率MOSFET
9款具有代表性的系统解决方案
你还记得HTC吗？这些年它的起起落落
华为辟谣3.2万名科学家移籍
雷军：小米9的生产压力很大，力争首月出货量达到百万台
几步教你实现无人机与遥控器的远程通信
vivoS1Pro自拍评测并没有因为全面屏的设计而对自拍美颜有所妥协
应急通信需求不断增多，无人机成发展全新势力
第1部分：MAX32660的特点原理介绍
细菌微生物检测仪的原理以及注意事项的介绍
直流道岔表示系统的电源隔离和信号隔离解决方案
互联网停车市场竞争应该更加合理与良性
当前HarmonyOS轻设备图形框架的总体特性介绍