如何进行AUTOSAR架构下的OS错误处理?

正文
1.  os错误处理介绍
1.1 错误类型
os的error类型分为三类,application errors, protection errors, kernel errors, 每种errors产生的原因及产生error后os执行的动作都不相同,详见下表:
error types feature
application errors 1. 如果操作系统无法正确执行应用程序请求的操作系统提供的api服务,则引发application erros。典型情况就是操作系统api使用错误(例如对象id无效)。
2. application error不会损坏操作系统内部数据。
3. 如果配置了error hook,则os会调用errorhook(),errorhook()是一个callout函数,需要用户自定义错误处理机制。
4. 不会造成os调用shutdown/terminate。应用程序可以通过简单地从errorhooks返回来继续执行。
protection errors 1. 如果应用程序违反其配置的边界则会触发protection errors, 典型的就是配置了内存保护或者时间保护后发生内存非法访问或超时。
2. protection errors不会损坏操作系统内部数据。
3. 在发生未处理的异常和中断时会触发protection error。
4. 将导致protectionhook()的调用,在该调用中可以选择引发shutdown或terminate handing(protectionhook返回值将觉得os接下来的执行流,无论是否重新启动)。
5. 如果配置了shutdownhook,则会调用shutdownhook().
6. 如果配置了protectionhook,则会调用protectionhook().
kernel errors 1. 如果操作系统无法再确保其内部数据的正确性,则引发kernel errors(例如,protectionhook()期间内存访问违规)。
2. 发生kernel errors后os会关闭所有中断且调用os_pannichook()通知应用程序。
3. 最后操作系统进入无限循环。
1.2 错误码
发生application errors后os会调用errorhook(), errorhook()函数是callout函数,函数原型:
(void) errorhook(statustype error);  
参数error标识具体的错误码
发生protection errors后os会调用protectionhook(), protectionhook函数是callout函数,函数原型:
protectionreturntype protectionhook(statustype fatalerror);  
参数fatalerror标识具体的错误码
返回值类型protectionreturntype是一个枚举类型:
typedef enum protectionreturntype_e{ pro_ignore, pro_terminatetaskisr, pro_terminateappl, pro_terminateappl_restart, pro_shutdown, pro_notconfigured} protectionreturntype;  
也就是,我们可以通过自定义protectionhook()的返回值来控制发送protectionhook后os的执行流。
每个厂商(vector, etas…)os实现的os_types.h文件中都具体定义了每一种error code,这里以vector的代码实现为例说明每种error type包含的常见的error code:
error types 包含的error codes
application errors e_os_access: illegal access
e_os_callevel: invalid calling context.
e_os_id: invalid os object id.
e_os_limit: maximum task activations reached.
e_os_nofunc: os object is currently not in use.
e_os_resource: scheduling requested with occupied resource.
e_os_state: os object is not in correct state to perform the requested operation.
e_os_value: given value is out of the configured range.
e_os_serviceid: service cannot be called.
protection errors e_os_protection_memory: a memory access violation occurred.
e_os_protection_exception: a trap occurred.
e_os_sys_protection_syscall: an unhandled syscall occurred.
e_os_stackfault: a stack fault detected via stack monitoring by the os.
e_os_sys_api_error: wrong api usage.
1.3 davinci中配置oshooks
三个error相关的hook函数可以在davinci中配置,如果配置后就需要用户自定义实现。
2. 自定义错误处理
通过第一节,我们知道了error的类型及其包含的具体的error code,同时,如果我们配置error发生后hook函数,那么在error发生时我们就能被通知到。那么现在,我们在error发生后应该考虑如何存储错误相关的信息,同时能在事后通过存储的error相关信息定位和分析error。
2.1 错误信息存储
背景知识1:ram retention。ramretention是一种技术,用于在断电后保持随机存取存储器(ram)中的数据。在计算机系统中,ram是一种易失性存储器,这意味着在断电情况下,其中的数据会被清除。这对于一些应用程序来说是不可接受的,因为它们需要在断电后仍然能够保持数据。这就是ramretention技术的用武之地。
背景知识2:断电系统和深度休眠系统。ecu在设计时根据具体需求可以在硬件上添加sbc或无sbc。如果ecu有sbc,ecu就是一个断电系统。那么ecu在系统下电(shutdown)流程的最后一步会调用sbc的服务接口断掉mcu的电,整个mcu在休眠中是处于断电状态的。在外部信号(can transceiver/lin transceiver的inh引脚,dio唤醒引脚 )唤醒mcu时,sbc重新给mcu供电,mcu重新冷启动。
如果ecu无sbc,ecu就是一个深度休眠系统。那么ecu在系统下电(shutdown)流程的最后一步会调用mcu的服务进入到deep sleep深度休眠状态(mcu陷入深度休眠状态,程序不在运行,但是mcu还有电存在)。在外部信号(can transceiver/lin transceiver的inh引脚,dio唤醒引脚 )通过中断唤醒mcu,mcu被唤醒后,程序可以选择软件复位,整个软件重新运行,也可以选择从上次停止的地方接着运行。
aurix芯片进入深度休眠后后scr会接管芯片控制,在进入scr前可以配置pms模块的pmswcr0.stbyramsel位域,选择给哪快ram进行供电。只有休眠后改被供电的ram才有ram retentions的功能。
问题1:为什么要考虑错误信息的存储了?
答:因为error发生时如果时protection error的话,一般就会在os调用protectionhook()后执行shutdown,在shutdownhook()中一般执行ecu复位了,如果我们不存储error发生时的上下文信息的话,一旦系统复位的话我们就无法再分析error发生的原因了。
问题2:错误信息存储在那里了,是不是可以存储在nvm?
答:错误信息可以存储在nvm中,但是因为protectionhook()后一般马上就要进行mcu复位了,来不及调用异步的nvm接口来存储错误信息了,所以只能把错误信息存储到retention ram中。复位起来后,错误信息处理swc读取retention ram中的异常信息,此时可选择是否再次写入到nvm当中。
note:
1.如果系统是断电系统,那么一定要注意os shutdownhook()中调用mcu_performreset()进行软件复位而不是调用sbc的接口给mcu断电,因为mcu断电后是冷启动,retention ram中的数据也没了。
2.如果系统是深度休眠系统且使用aurix芯片的scr功能,那么retention ram一定要配置在pmswcr0.stbyramsel配置供电的ram块中。
3.无论是深度休眠系统还是断点系统,mcu复位后在main函数之前的startup阶段都不能把retention ram给清零了(需要修改启动代码和连接器脚本)。
2.2 关键上下文信息获取
问题1:通过2.1小结我们知道错误信息应该存放在retention ram当中,那么我们应该存储哪些异常时的上下文信息了?
答:我们通过一个表格来举例给出答案。
error types error contex
application errors 如果在使用spinlock是发生application error,可以获取以下信息:
1. 通过os_getdetailederror()获取服务id及error code等信息。
2. 通过oserror_getspinlock_spinlockid()返回错误的getspinlock调用的参数spinlockid.
使用其他os服务,比如alarm, resource等发生错误时同样可以调用oserror_xxx_xxx()获取相关错误现场信息。
protection errors 1. protectionhook()的参数fataerror.
2. 通过gettaskid获取error发生时的正在处理的task.
3. 通过getisrid()获取当前执行isr的标识符。
4. 通过os_getexceptionaddress()获取引发最新异常的指令的地址。
5. 读取deadd寄存器获取发生trap时的地址信息。
6. 通过os_getexceptioncontext()获取异常上下文信息,异常结构体为:struct os_exceptioncontexttype_tag;
通过结构体成员ra和exceptionsource对应的tin和class信息,可以轻松定位mpu保护产生的error.
kernel errors 通过gettaskid获取error发生时的正在处理的task.
/*! set of hardware registers to be able to resume from an exception. */struct os_exceptioncontexttype_tag{  /* stored address registers of the thread (a2-a7, a12-a15)*/  uint32 addressregisters[16];  /* stored data registers of the thread (d0-d15)*/  uint32 dataregisters[16];  /*! stored return address of the thread */  uint32 ra;  /*! stored psw of the thread */  uint32 psw;  /*! stored exception source(exception class and tin number) of the thread */  uint32 exceptionsource;  /*! stored pcpn (previous cpu priority number) from the pcxi of the thread */  uint32 pcpn;  /*! stored pie (previous interrupt enable) from the pcxi of the thread */  uint32 pie;  /*! the lower address of the mpu region for stack. */  uint32 mpuregionforstacklow;  /*! the upper address of the mpu region for stack. */  uint32 mpuregionforstackupper;  /*! the raw pcxi value from the upper context; may be used to look up in csas prior to the exception */  uint32 rawpcxi;};  
2.3 错误定位
对于application error一般都是错误使用os api导致的,只要我们记录好错误发生时的serviceid等就能轻松定位。
对于kernel error由于os内部数据可能被异常打乱了,数据不在可信,可获取的上下文信息不多,这类错误就只能根据具体硬件平台和os代码积累经验了(开发阶段可以通过故障注入提前获知kernel error产生后的表现)。
实际项目中最可能出问题的就是protection error了,而这里面也以mpu保护error为最常见。出现内存保护error后,通过ra(a11程序返回寄存器) 查找map文件可以大概知道那块代码(指令所在的地址)发生异常;通过deadd寄存器可以得知大概是访问了哪块data数据(访问的数据的地址)发生了异常,比如异常改写了调用栈内容。
3.总结
最后通过回答开头的三个问题来结束本文。
问题1:有哪里常见的os错误 ?
答:大类有application errors, protection errors, kernel errors三种,每种大类包含的具体error code可以参考1.1章节。
问题2:如何进行os错误处理?
答:通过retention ram来存储os错误信息,通过os给出的一系列api获取error发生时的上下文信息。


雷布斯:今年流行还是全面屏,暗讽三星跑偏!
在AI加持之下 地图产业进入关键战争期
数据驱动的品牌营销:利用OLED透明屏的效果评估和分析
苹果iOS15系统曝光,16款机型可升级
三星高分辨率显示器S65UA,您的居家办公“好助手”
如何进行AUTOSAR架构下的OS错误处理?
区块链医疗数据交换网络Amrita介绍
激光塑料焊接机:工业应用中的多面手与未来潜力
西门子在中国成都落地一支新基金
继电器的结构和工作原理详细解析
氨气检测仪的传感器采用什么原理
什么是工业主机 它由什么组成
如何将追踪传感器放入药品中
三个关键策略帮助企业应对勒索病毒和保护业务
调幅收音机工作原理
AI应用版图不断扩大,算力需求缺口犹在
天线PCB的设计与制造过程
elasticsearch检索原理与优化案例
绿联推出新款UGREEN NASync网络附加存储设备
农业人工智能如何去实现新战略