ARM Cortex-M4内核架构概述

1、什么是arm cortex-m处理器1.1、cortex-m3和cortex-m4处理器cortex-m3（2005年发布）和cortex-m4（2010年发布）处理器是arm公司设计的处理器。
cortex-m3和cortex-m4处理器使用32位架构，寄存器组中断内部寄存器、数据以及总线接口都是32位。cortex-m处理器使用的指令集架构（isa）是thumb isa(是一种risc(精简指令集))，其基于thumb-2技术并同时支持16位和32位指令。
主要有以下特点：
三级流水线：取指、译码、执行。哈佛总线架构，即具有统一的存储器空间：指令和地址总线使用相同的地址空间。32位寻址，支持4gb存储器空间有名为nvic（嵌套向量中断控制器）的中断控制器，支持最多240个中断请求和8-256个中断优先级。支持多种os特性，如节拍定时器（systick）、影子栈指针（双栈指针：msp/psp）。休眠模式和多种低功耗特性。支持可选的mpu（存储器保护单元），提供了存储器的访问权限控制。支持两个特定存储区域的位段访问cortex-m3和m4处理器提供了多种指令：
普通数据处理，包括硬件除法指令。存储器访问指令，支持8位、16位、32位、64位数据，以及其他可传输多个32位数据的指令。位域处理指令。乘累加（mac）以及饱和指令。用于跳转、条件跳转以及函数调用的指令用于系统控制、支持os等的指令。另外，m4处理器还支持：
单指令多数据（simd）指令。其他快速mac和乘法指令。饱和运算指令。可选的单精度浮点指令。1.2、cortex-m处理器家族cortex-m3和cortex-m4处理器基于armv7-m架构。cortex-m4处理器具有simd、快速mac以及饱和指令，可以执行一些数组信号处理程序。
cortex-m0、cortex-m0+和cortex-m1基于armv6-m架构。cortex-m1是专门为fpga应用设计的。
cortex-m33基于armv8-m架构。添加了trustzone等安全组件。
1.3、处理器和微控制器的区别在一个典型的微控制器设计中，处理器只会占芯片中的一小块区域。其他部分为存储器、时钟生成（如pll）和分配逻辑、系统总线以及外设等（i/o接口单元、通信接口、定时器、adc、dac等硬件单元）。微控制器供应商（比如st、ti、nxp）选择cortex-m处理器作为它们的cpu，添加上述的其他功能单元，最终成为一个微控制器。如下图：
1.4、arm处理器的发展cortex-m3处理器发布之前，arm处理器已经有了许多种，比如arm7、arm9、arm11。它们支持两套指令集：32位的arm指令集和16位的thumb指令集。
目前cortex处理器系列包括三类：
cortex-a用于高性能的开发应用平台。cortex-r用于需要实时性能的高端嵌入式系统。cortex-m用于嵌入式微控制器系统。
cortex-a ：需要处理高端嵌入式系统（os，如ios、android、linux以及windows）等复杂应用的应用处理器，需要强大的处理能力、支持存储器管理单元（mmu）等虚拟存储器系统、可选的增强java支持和安全的程序运行环境。实际产品包括高端智能手机、平板电脑、电视以及服务器等。cortex-r ：实时、高性能的处理器，面向较高端的实时市场，其应用包括硬盘控制器、移动通信的基带控制器以及汽车系统。强大的处理能力和高可靠性非常关键，低中断等待和确定性也非常重要。cortex-m ：面向微控制器和混合信号设计等小型应用，注重低成本、低功耗、耗能效率和低中断等。1.5、thumb isa的架构版本
2、软件开发流程
3、技术综述3.1、cortex-m3和m4处理器一般信息3.1.1 处理器类型cortex-m3和m4为32位risc（精简指令集）处理器，其具有：
32位寄存器32位内部数据通路32位总线接口cortex-m3和m4具有三级流水线，基于哈佛总线架构（另一个是普林斯顿架构），取指和数据访问可以同时执行。存储器系统使用32位寻址，地址最大空间是4gb。存储器空间包括程序代码、数据、外设以及处理器内部的调试支持部件。
cortex-m刺激器基于一种加载—存储架构。比如要增加sram中存储的数据值，处理器需要一条指令从sram中读出数据，将其放到处理器的寄存器中，然后使用第二条指令增加寄存器中的值，最后使用第三条指令将其写回存储器。
3.1.2 指令集cortex-m处理器使用的指令集为thumb-2，它运行16位和32位指令的混合使用，以获得更高的代码密度和效率。
经典的arm处理器（比如arm7）具有两种操作状态：32位的arm状态和16位的thumb状态。在arm状态，指令是32位的，内核能够以很高的性能执行所有支持的指令；而对于thumb状态，指令是16位的，可以得到很好地代码密度，bugthumb指令不具有arm指令所有功能，要完成特定的操作可能需要更多的指令。如下图。对于经典的arm处理器，中断处理会进入arm状态。
随着thumb-2技术的引入，thumb指令被扩展为支持16位和32位两种解码方式，无需在两个不同操作状态切换就可以满足所有的处理需求。
3.1.3 模块框图
3.1.4 存储器系统cortex-m3和m4处理器本身不包含存储器，它们具有通用的片上总线接口，供应商可以将它们自己的存储器系统添加到系统中。如下部件：
程序存储器，一般是flash数据存储器，一般是sram外设cortex-m3和m4处理器主要使用的总线接口协议是ahb lite（高级高性能总线），用于程序存储器和系统总线接口。高级外设总线（apb）接口为处理器使用的另外一种总线协议。
3.1.5 中断和异常支持cortex-m3和m4处理器中存在一个嵌套向量中断控制器（nvic）。它是可编程的且其寄存器经过了存储器映射。它的地址固定，编程模型对于所有的cortex-m处理器都是一致的。
除了外设和其他外部输入中断，nvic还支持多个系统异常，包括nmi（不可屏蔽中断）等。供应商决定实际支持的可编程中断优先级的数量。
4、架构4.1 编程模型4.1.1 操作模式
图4.1 操作状态和模式
处理模式（handler）：执行isr等异常处理。此模式下，处理器总是具有特权访问等级。线程模式：在执行普通的应用程序代码时，处理器可以处于特权访问等级，也可处于非特权访问等级。实际的访问等级由特殊寄存器（control）控制。软件可以将处理器从特权线程模式切换到非特权线程模式，但无法将自身从非特权切换到特权模式，必须要借助异常机制才可以。
区分特权和非特权访问等级，设计人员可以提供对关键区域访问的保护机制及基本的安全模型，这样有助于开发健壮的嵌入式系统。例如，系统中可能包含运行在特权访问等级的os内核，以及运行在非特权访问等级的应用程序。还可以通过mpu设置存储器访问权限避免应用任务破坏os内核以及其他任务使用的存储器和外设。若应用任务崩溃，剩下的任务和os内核可以继续运行。
几乎所有的nvic寄存器支持特权访问。
4.1.2 寄存器寄存器组有16个寄存器，其中13个位32位通用目的寄存器，其他3个有特殊用途，如图：
图4.2 寄存器组中的寄存器
r0 - r12
前8个（r0 - r7）是低寄存器。许多16位指令只能访问低寄存器。高寄存器（r8 - r12）可以用于32位指令和几个16位指令。r0 - r12初始值未定义。r13（sp）
r13为栈指针，可通过push和pop指令实现栈存储的访问。存在2个栈指针：主栈指针（msp）为默认的栈指针，在复位或处理器在处理模式时使用；另一个为进程栈指针（psp），只能用于线程模式。栈指针的选择由特殊寄存器（control）决定。msp和psp都是32位的，不过栈指针的最低两位总是0。push和pop总是32位的，32位字对齐。r14（lr）
r14配称为链接寄存器，用于函数或子程序调用时返回地址的保存。在异常处理器件，lr会自动更新为特殊的exc_return（异常返回）数值，该值会在异常处理结束时触发异常返回。有些跳转/调用操作需要将lr（或正使用的任何寄存器）的第0位置1表示thumb状态。r15（pc）
r15是程序计数器。4.1.3 特殊寄存器除了寄存器组中的寄存器外，处理器还存在多个特殊寄存器，如下图：
图4.3 特殊功能寄存器
特殊寄存器未经过存储器映射，可以使用msr和mrs等特殊寄存器访问指令访问。
mrs , ; 将特殊寄存器读入寄存器msr , ; 写入特殊寄存器程序状态寄存器程序状态寄存器包括以下三个状态寄存器：
应用psr(apsr)执行psr(epsr)中断psr(ipsr)
图4.4 apsr、ipsr和epsr
primask、faultmask和basepri寄存器primask、faultmask和basepri寄存器都用于异常或中断屏蔽，每个异常都具有一个优先级，数值小的优先级高。这些特殊寄存器可基于优先级屏蔽异常，只有在特权访问等级才可对其访问。这些寄存器编程模型如下：
图4.5 primask、faultmask和primask寄存器
primask置位时，会阻止nmi和hardfault异常之外的所有异常。最常见用途是在时间要求很严格的进程中禁止所有中断，在该进程完成后，需要将其清除重新使能中断。faultmask和primask非常类似，不过它还能屏蔽hardfault异常。错误处理代码可以使用faultmask以免在错误处理期间引发其他错误。faultmask在异常返回自动清除。basepri会根据优先级屏蔽中断。它的宽度取决于实际芯片实现的优先级数量，大多数有8个或16个可编程优先级，对应的宽度为3位或4位。basepri为0时不起作用，非0时，会屏蔽具有相同或更低优先级的异常。cmsis-core提供了多个c函数可以访问它们。
x = _get_basepri(); // 读basepri寄存器x = _get_primask(); // 读primask寄存器x = _get_faultmask(); // 读faultmask寄存器_set_basepri(x); // 设置basepri寄存器的新值_set_primask(x); // 设置primask寄存器的新值_set_faultmask(x); // 设置faultmask寄存器的新值_disable_irq(); // 设置primask，禁止irq_ensable_irq(); // 清除primask，使能irq还可以用汇编代码访问这些异常屏蔽寄存器：
mrs r0, basepri; 将basepri寄存器读入 r0mrs r0, primask; 将primask寄存器读入 r0mrs r0, faultmask; 将faultmask寄存器读入 r0mrs basepri, r0 ; 将r0 写入 basepri寄存器mrs primask, r0 ; 将r0 写入 primask寄存器mrs faultmask, r0 ; 将r0 写入 faultmask寄存器另外，还可以利用修改处理器状态（cps）指令：
cpsie i ;使能中断（清除primask）cpsid i ;禁止中断（设置primask）cpsie f ;使能中断（清除faultmask）cpsid f ;禁止中断（设置faultmask）control寄存器control寄存器（如下图）定义了：
栈指针的选择（msp/psp）线程模式的访问等级（特权/非特权）control寄存器只能在特权访问等级修改，读操作在特权和非特权都可以。
图4.6 cortex-m3、cortex-m4和具有fpu的cortex-m4中的control寄存器
表4.1 control寄存器中的位域
复位后，control寄存器默认为0，意味着此时处理器处于特权访问权限的线程模式并使用msp。通过写control寄存器，特权线程模式的程序可以切换栈指针或进入非特权访问等级。不过npriv置位后，运行在线程模式的程序不能访问control寄存器了。即运行在非特权等级的程序无法切换回特权等级，这就提供了一个基本的安全模型；若有必要将处理器在线程模式切换回特权等级，则需要异常机制。在异常处理期间清除npriv位，回到线程模式后，处理器就会进入特权等级。
图4.7 栈指针选择
图4.8 特权线程模式和非特权线程模式间的切换
4.1.4 浮点寄存器cortex-m4有可选的浮点单元，提供了浮点数据处理用的一些寄存器以及浮点状态和控制寄存器（fpscr）
s0 - s31和d0 - d15浮点状态和控制寄存器（fpscr）4.2 存储器系统4.2.1 存储器映射cortex-m处理器的4gb地址空间被划分了多个存储器区域，如下图。区域根据各自用法划分，主要用于：
程序代码访问（如code区域）数据访问（如sram区域）外设（如外设区域）处理器的内部控制和调试部件（如私有外设总线）架构的这种安排具有很大的灵活性，存储器区域可用于其他目的。例如，程序即可以在code区域执行，也可以在sram区域执行，而且微控制器也可以在code区域加入sram。
图4.9 存储器映射
4.2.2 栈存储在栈这种存储器机制中，存储器的一部分可被用作后进先出的数据存储缓冲。arm处理器将系统主存储器用于栈空间操作，使用push和pop。每次push和pop操作后，栈指针会自动调整。
栈可用于：
当正在执行的函数需要使用寄存器进行数据处理时，临时存储数据的初始值。这些数据在函数结束时可恢复回去往函数或子程序传递信息，即函数调用的参数传递用于存储局部变量在中断等异常产生时保存处理器状态和寄存器数值cortex-m处理器使用的栈模型是“满递减”。处理器启动后，sp被设置为栈存储空间最后的位置。每次push操作，处理器先减小sp的值，然后将数据存储在sp指向的存储器位置。对于pop操作，sp指向的存储器位置数据被读出，然后sp的值自动减小。
push和pop指令最常见的用法是，在执行函数调用时保存寄存器组中的内容，函数调用结束时通过pop恢复它们的值。
图4.10 栈的push和pop
若嵌入式系统中包含os，通常会将应用任务和内核所用的栈空间分离开来，因此psp会被用到，在异常入口和出口时会发生sp切换，如下图。
图4.11 spsel=1，线程等级使用进程栈而异常处理使用主栈
尽管同一时间内只有一个sp可见，如果当前处于特权等级，可以用psr和mrs指令访问隐藏的sp。
4.3 异常和中断4.3.1 什么是异常cortex-m处理器有多个异常源，如图：
图4.12 各种异常源
nvic处理异常。nvic可以处理多个中断请求（irq）和一个不可屏蔽中断（nmi）请求，irq一般由片上外设或外部中断输入通过i/o端口产生，nmi可用于看门狗或掉电检测。处理器内部有个名为systick的定时器，可以产生周期性的定时中断请求，可用于os计时。处理器自身也是一个异常事件源，包括表示系统错误状态的错误事件以及软件产生、支持os操作的异常。异常类型如下表：表4.2 异常类型
每个异常源都有一个异常编号，编号1-15为系统异常，16及其之上的则用于中断。cortex-m4和m4在设计上最多240个中断输入，不过实际实现的中断数量要小得多，一般在16-100之间。
4.3.2 nvicnvic处理异常和中断配置、优先级以及中断屏蔽。nvic具有以下特性：
灵活的异常和中断管理支持嵌套异常/中断向量化的异常/中断入口中断屏蔽4.3.3 向量表当异常事件产生且被处理器内核接受后，相应的异常处理就会执行。向量表是可以重定位的，由nvic中的名为向量表偏移寄存器（vtor）控制。复位后默认为0，向量表则位于地址0x0处。
图4.13 异常类型（异常向量的最低位应该置1，表示thumb状态）
4.3.4 错误处理cortex-m3和m4处理器中有几个异常为错误处理异常。处理器检测到错误时，触发错误异常，错误包括执行未定义的指令以及总线错误、对存储器访问返回错误等。
图4.14 错误异常的使用
总线错误、使用错误以及存储器管理错误默认是禁止的，且所有的错误事件都会触发hardfault异常（总是使能）。但这些配置是可编程的。
4.4 复位和复位流程对于典型的cortex-m处理器，复位类型由三种：
上电复位。复位微控制器的所有部分，包括处理器、调试支持部件和外设等。系统复位。只会复位处理器和外设，不包括调试支持部件。处理器复位。只复位处理器在复位后以及处理器开始执行程序之前，cortex-m处理器会从存储器中读出头两个字，如下图。向量表位于存储器的开头部分，它的头两个字为msp的初始值和代表复位除了起始地址的复位向量。处理器读出这两个字会将其赋值给msp和pc。
msp的设置非常必要。因为在复位的很多时间内有产生nmi或hardfault的可能，在异常处理前将处理器状态压栈时需要栈存储和msp。
图4.15 复位流程
图4.16 栈指针初始值和程序计数器初始值示例
5 存储器系统5.1 存储器映射
图5.1 cortex-m3和cortex-m4处理器预定义的存储器映射（阴影部分的部件用于调试）
5.2 连接处理器到存储器和外设
图5.2 不同存储区域的多个总线接口
图5.3 基于cortex-m3或cortex-m4的简单系统
图5.4 stm32f4的flash访问加速器示意图
图5.5 多层ahb示例（nxp lpc1700）
5.3 位段操作
图5.6 通过位段别名对位段区域进行位访问（sram区域）
5.4 存储器屏障存储器屏障指令isb、dsb、dmb
5.5 微控制器中的存储器系统许多微控制器设备，设计中还集成了其他存储器系统特性。例如：
bootloader存储器重映射存储器别名
图5.7 具有可配置存储器映射的简单存储器系统
图5.8 具有bootloader的系统的存储器重映射示例
6 异常和中断6.1 异常和中断简介典型的cortex-m4微控制器中，nvic接收多个中断源产生的中断请求，如图
图6.1 典型微控制器中的各种异常源
cortex-m3和cortex-m4的nvic最多支持240个irq、1个nmi、1个systick及多个系统异常。多数中断由定时器、i/o端口和通信接口（uart、i2c）等外设产生。中断还可利用软件生成。
为了继续执行被中断的程序，异常流程需要利用一些手段保护被中断程序的状态，这样在异常处理完成后还可以恢复。一般这个过程可以由硬件机制实现，也可以由硬件和软件操作共同完成。对于cortex-m4处理器，当异常被接受后，有些寄存器被字段保存到栈中，返回时自动恢复。
6.2 异常类型编号1-15的为系统异常，16及以上为中断输入。包括中断在内的多数异常，具有可编程的优先级，一些系统异常则有固定的优先级。
不同的cortex-m4微控制器的中断源编号（1-240）可能会不同，优先级也可能有差异。
异常类型1-15为系统异常，如表7.1。类型16及以上为外部中断输入，如表7.2。
表6.1 系统异常列表
表6.2 中断列表
cmsis-core定义了系统异常处理的名称
表6.3 cmsis-core异常定义
优先级的优先级配置寄存器可被分为两部分。上半部分（左边的位）为抢占优先级，下半部分（右边的位）为子优先级，如下
表6.4 常用的基本中断控制cmsis-core函数
6.4 优先级定义
图6.2 3位优先级寄存器（8个可编程优先级）
图6.3 4位优先级寄存器（16个可编程优先级）
8位寄存器被分为两个部分：抢占优先级和子优先级。利用系统控制块（scb）中的一个名为优先级分组的配置寄存器，每个具有可编程优先级的优先级配置寄存器可被分为两部分。上半部分（左边的位）为抢占优先级，下半部分（右边的位）为子优先级，如下
表6.5 不同优先级分组下优先级寄存器中的抢占优先级和子优先级域定义
图6.4 3位优先级寄存器中优先级分组为5时的域定义
图6.5 3位优先级寄存器中优先级分组为1时的域定义
图6.6 8位优先级寄存器中优先级分组为0时的域定义
6.5 向量表和向量表重定位当cortex-m处理器接受某异常请求后，处理器要确定该异常处理的起始地址。该信息位于存储器内的向量表中，默认从地址0开始，向量地址则为异常编号乘4，如图
图6.7 向量表
7 深入了解异常处理7.1 c实现的异常处理对于cortex-m处理器，可以将异常处理或isr实现为普通的c函数。为了详细了解这种机制，看一下c函数在arm架构上如何工作。
用于arm架构的c编译器遵循arm的一个名为aapcs（arm架构过程调用标准）的规范。根据这份标准，c函数可以修改r0-r3、r12、r14以及psr。若c函数需要调用r4-r11，应该将这些寄存器保存到栈中，且在函数结束前将他们恢复，如图。
r0-r3、r12、r14以及psr被称为“调用者保存寄存器”。r4-r11被称为“被调用者保存寄存器”，被调用的子程序或函数需要确保这些寄存器在函数结束时不会发送变化。这些寄存器的值可能会在函数执行过程中变化，不过需要在函数退出前将他们恢复。一般，函数调用r0-r3作为输入参数，r0用作返回结果。若返回值是64位，则r1也会用于返回结果。
图7.1 aapcs规定的函数调用中的寄存器使用
要使c函数可以用作异常处理，异常机制需要在异常入口处自动保存r0-r3、r12、r14以及psr，并在异常退出时将他们恢复，这些要由刺激器硬件控制。
图7.2 在不需要或禁止双字栈对齐时，cortex-m3或cortex-m4（无浮点）处理器的异常栈帧
7.1.1 exc_return处理器进入异常处理或isr时，lr的值会被更新为exc_return的值。当利用bx、pop或存储器加载指令（ldr或ldm）被加载到pc中时，该数值用于触发异常返回机制。
表7.1 exc_return的位域
表7.2 exc_return的合法值
7.2 异常流程7.2.1 异常进入和压栈
图7.3 压栈和取向量
图7.4 cortex-m3处理器的ahb lite总线上的压栈流程
图7.5 使用主栈的线程模式的异常栈帧
图7.6 使用进程栈的线程模式的异常栈帧，以及使用主栈的嵌套中断压栈
7.2.2 异常返回和出栈
图7.7 lr在异常时被设置为exc_return（线程模式使用主栈）
图7.8 lr在异常时被设置为exc_return（线程模式使用进程栈）
图7.9 出栈操作
7.3 中断等待和异常处理优化7.3.1 什么是中断等待7.3.2 末尾连锁若某个异常产生时处理器正在处理另一个具有相同或更高优先级的异常，该异常会进入挂起状态。在处理器执行完当前的异常处理后，它可以继续执行挂起的异常/中断请求。处理器不会从栈中恢复寄存器（出栈）然后在将它们存入栈中（压栈），而是跳过出栈和压栈过程并尽快进入挂起异常的中断处理，如图。对于无状态等待的存储器系统，末尾连锁的中断等待时间仅为6个时钟周期。
图7.10 末尾连锁
7.3.3 延迟到达当异常产生时，处理器会接受异常请求并开始压栈操作。若压栈期间产生了另外一个更高优先级的异常，则更高优先级的后到异常会先得到服务。
图7.11 延迟到达异常行为
7.3.4 出栈抢占若某个异常请求在另外一个刚完成的异常处理出栈期间产生，则处理器会舍弃出栈操作且开始取向量以及下一个异常服务的命令。该优化成为出栈抢占。
图7.12 出栈抢占行为
7.3.5 惰性压栈惰性压栈是和浮点单元寄存器压栈相关的一种特性。
8 os支持特性8.1 影子栈指针
图8.1 每个任务的栈和其他的相独立
8.2 svc异常
图8.2 上下文切换简图
图8.3 svc可作为os系统服务的入口
图8.4 利用汇编语言提取svc服务编号
8.3 pendsv异常
图8.5 pendsv上下文切换示例
第一部分对时间要求比较高，需要快速执行，切优先级较高。它位域普通的isr内，在isr结束时，pendsv的挂起状态第二部分包括中断服务所需的剩余处理工作，它位于pendsv处理内切具有较低的异常优先级。
图8.6 利用pendsv将中断服务分为两部分
8.4 实际的上下文切换
图8.7 上下文切换
图8.8 ucos-iii中的任务切换示例

Linux 让你意想不到的用处
分享一个电子驱鼠电路
一加5、荣耀9、魅族MX7、OPPOR11即将亮相，高颜值、高性能、高配置你的钱包准备好了吗？
为什么加密货币价格的波动会让所有人都沉迷其中
光伏发电缓解电荒指日可待?
ARM Cortex-M4内核架构概述
国内外新老AI芯片势力百花齐放，我国能否和国外巨头一战？
AN5071各引脚功能电压资料
激光传感器工作原理_激光传感器应用
5G技术的兴起，ICT成为加速社会和经济可持续增长和发展的主要驱动力
博联魔法家&amp; FastCon蓝牙建博会耀眼出圈
天嵌科技TQ210CoreD核心板-三星系列介绍
三星推出一款QLED光质量子点电视，让画面超逼真
边缘人工智能有助于物联网的优势
C语言过程中遇到问题如何解决
铜铝激光焊接工艺的特点
展会邀请 | 虹科诚邀您8月26日参加武汉机器视觉技术及工业应用研讨会
什么时候才可以完成2G/3G的退网
MATLAB的Sobel图像边缘灰度值检测算法的详细公式和实现资料概述
浅析嵌入式存储系统设计方法