c64x+ dsp高速缓存一致性分析与维护
高速缓存(cache)作为内核和低速存储器之间的桥梁,基于代码和数据的时间和空间相关性,以块为单位由硬件控制器自动加载内核所需要的代码和数据。如果所有程序和数据的存取都由内核完成,基于cache的运行机制,内核始终能够得到存储器中最新的数据。但是当有其它可以更改存储器内容的部件存在时,例如不需要内核干预的直接数据存取(dma)引擎,就可能出现由于cache的存在而导致内核或者dma不能够得到最新数据的现象,也就是cache一致性的问题。
c64x+ 存储器架构
德州仪器(ti)公司对高性能c64x核进行了改进,使其性能大副提升,称之为c64x+dsp核。c64x+系统的存储器框图如图1所示。存储器被分成了三级:第一级是l1,包含数据存储器(l1d)和代码存储器(l1p);第二级是代码和数据共用存储器(l2);第三级是外部存储器,主要是ddr2存储器。l1p、l1d和l2的cache功能分别由相应的l1p控制器、l1d控制器和l2控制器完成。表 1总结了c64x+平台上可用的cache情况。
图1 c64x+ 存储器框图
表 1 c64x+ cache特性
c64x+平台上l1p用来存储或者缓存代码;l1d用来存储或者缓存数据。l1p和l1d大小都是32k字节,可以分别配置0k、4kb、8kb、16kb或者32kb作为cache,其余作为代码或者数据ram。作为cache的部分,用来缓存l2和ddr2的数据或代码。作为ram的部分,可以存储关键的代码或者数据使得内核能够以很高的速度访问。c64x+平台上l2 存储器可用于存储代码和数据。l2上最大可以分配256k字节cache来缓存ddr2中的数据或代码。l2中其余部分作为ram存储代码和数据。
图 2 内核访问存储器流程
高速缓存一致性问题分析
在任何时刻,内核或者其它主机访问存储器中数据时,由于cache的存在造成不能够得到最近更新过的数据,就会出现cache一致性问题。cache的一致性问题分为两个大类:内核读一致性问题和内核写一致性问题。在下面两个小节中,分别描述了这两种情况的模型:
内核读一致性模型
图 3给出了内核读一致性的模型。在这个模型中,cache一致性问题的存在取决于图中虚线箭头指示的第二步操作能否在内核从cache中重新读数据之前完成。如果不能,则会造成内核读取的数据不是其它主机更新后的数据,而是原来cache中的内容,从而导致一致性的问题。
图 3 内核读一致性模型
l1p cache对l2内存或者ddr2外存中的代码进行缓存。当内核第一次对l2或者ddr2中的代码进行读操作的时候,由于代码不在l1p cache中,cahce硬件会将l2或者ddr2中的代码读到l1p cache中。内核可以得到最新的代码,不存在一致性的问题。此后,如果其它主机更新l2或者ddr2中的代码,然后内核再次读取此部分代码时,会发现相应的代码已经存在l1p cache中,此时内核会直接从l1p cache中读取代码。由于内核不能得到最新的代码,就出现了内核读一致性的问题。l1d 内核读一致性问题的原理和l1p相同,只是l1d缓存的是l2或者ddr2中的数据。
内核写一致性模型
图 4给出了内核写一致性的模型。在这个模型中,cache一致性问题的存在取决于图中虚线箭头指示的第二步操作能否在其它主机从存储器中读数据之前完成。如果不能,会造成其它主机从存储器中读到的数据是原来的数据而不是内核更新过的数据,从而导致一致性的问题。
图 4 内核写一致性模型
当内核对l2或者ddr2中的代码/数据进行写操作的时候,如果代码/数据已经在l1 cache中,新的代码/数据会被更新到l1 cache中。当其它主机从l2或者ddr2中读代码/数据的时候,会直接从l2或者ddr2中读取相应的内容,如果l1 cache中新的代码/数据未被更新到l2或者ddr2中,则其它主机读取的不是更新后的内容,就会出现内核写一致性的问题。
c64x+ 一致性分析
c64x+上的cache一致性问题,需要根据放置代码/数据的相应位置进行分析。由于在c64x+平台上,l1p、l1d和l2内存既可以作为cache又可以作为存储器使用,因此,在分析一致性问题的时候,需要考虑以下几种情况:
1) 代码在l1p存储器中;2) 代码在l2存储器中;3)代码在ddr2存储器中;4)数据在l1d存储器中;5)数据在l2存储器中;6)数据在ddr2存储器中。
对于1),由于代码直接在l1p存储器中,不需要进行cache,所以不会存在一致性的问题。
对于2)和3),涉及到l1p cache,存在代码的更新能否被内核读到的问题。代码的更新分成两种情况:一是内核在运行过程中对代码进行修改;二是其它主机对代码的修改。这两种情况下,都会存在cache读一致性问题,需要由软件来维护。
对于4),数据直接在l1d存储器中, 内核始终能够读到其它主机更新到l1d内存中的内容,内核写过的数据也能够被其它主机直接从l1d内存中读到。所以不会存在一致性的问题。
对于5),数据在l2存储器,按照上面的分析,会存在cache读和写一致性的问题。在c64x+平台上这种情况下的一致性问题会由硬件自动维护。
对于6),也会存在cache读和写一致性的问题,这种情况需要软件进行cache一致性的维护。
c64x+ 高速缓存一致性维护操作
出现cache一致性问题时,为了保证内核或者其它主机在进行数据操作的时候能够得到最新的数据,需要进行cache的一致性维护操作。下面具体分析以上几种情况在c64x+平台上如何进行cache一致性问题处理:
硬件维护的cache一致性
在c64x+平台上,硬件会对5)的情况自动进行数据一致性维护。分析需要分为读写两类操作进行,图 5和图 6分别描述了内核对l2上的数据进行读和写的情况。
图 5 内核读l2数据的情况
图 6 内核写l2数据的情况
其它主机要对l2中的内容进行更新操作时,l2控制器会根据被更新数据的地址判断相应的地址是否在l1d cache中,如果在l1d cache中,硬件会自动将更新的数据拷贝一份到l1d cache中。如果要读取的数据不在l1d cache中,l1d控制器会自动从l2加载数据,内核也可以得到更新后的数据。过程如图 5中的1和2所示,这样就可以解决一致性的问题。
其它主机要对l2中的内容进行读操作的时候,l2控制器会判断要读取的数据地址是否在l1d cache中,对于在l1d cache中的数据,硬件会自动从l1d cache中读取最新的数据。对于不在l1d cache中的数据,说明l2中的数据已经是最新的数据,可以直接从l2中读取。通过这样的处理,可以保证其它主机读到内核更新后的数据,从而可以解决一致性的问题。过程如图 6中的1和2所示。
软件维护的cache一致性
在c64x+平台上,2)、3) 和6)的情况需要软件进行的一致性维护操作以保证内核或者其它主机可以得到最新的数据。
c64x+ 软件一致性维护实现
c64x+平台上由软件控制的一致性维护操作包含三种:cache数据失效、cache数据回写和cache数据回写并失效。启动维护操作需要配置相应的基地址和计数寄存器,当计数寄存器中的值变为0时表示操作完成。ti提供的芯片支持库中也提供了相应的api来完成相应的功能。各种操作涉及的各级cache的一致性操作控制寄存器列在表2中。
表 2 c64x+ cache一致性维护寄存器
代码cache一致性
图 7中描述了其它主机对l2中代码进行修改的情况。这种情况下,当内核第一次执行此部分代码时,这部分代码会被加载到l1p中。之后如果被其它主机修改,内核仍会从l1p中读取原来的代码而不是更新后的代码。因此需要软件进行图中2指示的操作。软件不需要进行代码的搬移,只要在内核重新执行此部分代码之前将l1p中此部分内容失效。当内核再次执行此部分代码的时候,会按照cache的正常机制进行此部分代码的重新加载,从而保证内核可以读取到更新后的代码。
图 7 其它主机修改l2代码的情况
图 8描述的是其它主机对ddr2中代码进行修改的情况。这种情况下,需要在内核重新执行此部分代码前,将l1p和l2 cache中的相应内容进行失效以保证内核执行时可以将最新的代码加载到l2和l1p cache中。操作顺序如下:内核对修改代码会转换为对存储器的写操作,由于l1d只对读不命中的情况才分配cache,所操作的代码一定不在l1d cache中,更新的代码会被直接写到l2中,如果修改的是ddr2中的代码,数据可能会被更新到l2 cache中。之后的所有操作与上述两种情况的处理相同。
图 8 其它主机修改ddr2代码的情况
数据cache一致性
对于数据部分的一致性维护,需要由软件维护的情况是6),包括内核对ddr2的读取和写两种情况。图 9和图 10分别描述了这两种情况。
图 9 内核对ddr2上的数据读的情况
图 10 内核对ddr2上的数据写的情况
本文小结
高速缓存一致性问题是dsp应用中常见的问题,ti c64x+ dsp是业界高性能信号处理平台,具有优良的高速缓存性能。c64x+平台上高速缓存一致性问题维护可以归纳为以下两点:1) 代码部分的一致性问题需要由软件来维护;2) 只有当内核和其它主机共同需要访问的数据缓冲区在外部存储器中的时候,数据高速缓存一致性问题才需要由软件来进行维护。其它情况下,数据高速缓存一致性都会由硬件自动完成。
如何成功下载西门子S7-200 SMART PLC程序
无线快充成标配,充电宝还有存在的必要吗
佐思汽研发布《2022年汽车仪表和中控显示行业研究报告》
权衡数据传输不同方法的优缺点
制造业大环境下,机器人产业的转折点
C64x+ DSP高速缓存一致性分析与维护
荣耀Note10和黑鲨游戏手机哪个好
针对自动驾驶优化的全新微处理器架构Cortex A65AE
美国对中国制造业的围剿,有几个重要的手段?
PCB板布局中的Power的回路设计
基于PXA255处理器和LTV350QV-F05实现GPS显示系统的设计
红米Note4x上手体验 初音未来之作只卖999
饱受质疑的特斯拉,然前景依然难乐观
只有人类和协作机器人一起工作 我们才有更好的工作标准
混频器2x2杂散响应和IP2关系
Chrome浏览器隐私设置重新设计后有什么不同
泰克TBS1000数字存储示波器的性能特点及功能分析
中国【杭州】时尚产业数字贸易博览会新闻发布会圆满举行
解读晶圆代工第二梯队厂商布局 中芯国际加速追赶
物联网综合统计指南你都了解吗