9.2.4 系统级抗辐射加固设计

9.2.4 系统级抗辐射加固设计

星载计算机由不同功能的部件、元器件组成,须对系统功能、部件到元器件选用进行分析。在充分了解各个元器件抗辐射性能的基础上,分析产品在抗辐射效应方面存在的问题和薄弱环节,然后有针对性地开展抗辐射加固设计,并对防护设计措施的有效性进行验证。通过抗总剂量、抗单粒子翻转、抗单粒子闩锁和系统级抗辐射等加固设计,提高系统抗辐射能力,满足星载计算机在轨抗辐射要求。

9.2.4.1 辐射敏感器件选型

根据不同类型宇航元器件的空间辐射环境敏感性,针对性地开展抗辐照加固设计。

1)元器件空间辐射环境敏感性

宇航元器件辐射效应类型见表9- 3。

表9-3 宇航元器件辐射效应类型

2)抗单粒子设计

单粒子效应是指单个带电粒子运动时接触了器件的灵敏区导致器件的状态发生损伤或其他改变的效应,这种改变一般是令器件性能恶化的。而对于星载嵌入式计算机产品的单粒子效应一般是宇宙空间中的高能质子、高能电子及一些高能射线造成的。

(1)不同器件类型的单粒子效应。根据带电粒子使器件发生不同种类的改变来分类,单粒子效应主要可分为单粒子翻转、单粒子闩锁、单粒子烧毁和单粒子栅穿等。不同单粒子效应发生在不同种类元器件中,主要由元器件工艺特性决定。包括:①单粒子翻转主要发生在SRAM、DRAM等存储阵列中;②单粒子闩锁主要发生在CMOS器件中;③单粒子瞬态脉冲引起的暂时性翻转及扰动在锁相环等模拟电路中引起的问题较常见,而在数字电路中发生时,单粒子瞬态脉冲就转化成单粒子翻转;④单粒子功能中断是指当单粒子翻转发生在控制寄存器时,引起电路功能故障。

(2)单粒子效应防护设计。针对星载嵌入式计算机在轨工作时,由于空间恶劣辐照环境引起的单粒子翻转、单粒子闩锁等问题,须在元器件应用阶段采取针对性防护措施,避免计算机出现长时间功能中断。包括如下:

①原始文件、配置文件等重要数据,须确保不因空间单粒子事件造成丢失或错误,尽量存放在PROM等单粒子免疫的器件中,同时存放3份确保可靠性。

②进行元器件选型时,优先选用单粒子翻转、单粒子闩锁指标高于37 MeV·cm2的宇航级抗辐照器件。若器件指标无法达到应用要求,则须采取回读刷新、三模冗余等方式进行可靠性加固。

③针对星载嵌入式计算机的存储器系统,须设计程序运行的EDAC纠1检2校验方案,实现空间单粒子翻转下的自动纠正与检测,可极大地提高星载嵌入式计算机的在轨工作可靠性。

3)抗总剂量要求

电离总剂量效应是指当空间中的带电粒子作用到物体上时,粒子的部分或全部能量被物体所吸收,被吸收的能量总和即为物体所吸收的辐射总剂量。总剂量效应是一种逐渐积累的效应,随着器件积累的辐射剂量逐渐增多,器件所受到的辐射损伤也随之逐渐加大。它并不是一种瞬时突变的效应,而是一种逐渐积累到一定程度导致器件损伤的效应。当辐射量积累到一定程度时,器件会发生损伤。包括如下:

(1)抗总剂量应用要求。在产品设计、元器件选型阶段,应确保元器件的抗总剂量辐射能力满足应用要求。除特殊、高精密电路用途之外,电容器、电阻器、磁性元器件和机电元器件等可认为是辐射总剂量不敏感的元器件,无须做辐照试验,可直接选用。

(2)抗总剂量能力加固措施。当元器件抗总剂量能力不满足要求时,可采用下列加固措施:①重新设计电路,目的是在规定的电路可靠性要求下降低对元器件辐射可靠性的要求,进而降低对元器件总剂量余量要求;②采用贴铅皮等方式附加局部屏蔽;③重新调整单机和器件布局,充分利用外壳、结构件等固有屏蔽。

9.2.4.2 抗总剂量加固设计

抗总剂量加固设计前,首先需要对所选用元器件的抗总剂量能力进行分析及地面总剂量试验摸底,明确每个器件的抗总剂量能力。对不满足总剂量指标的器件分析其总剂量辐射指标以及辐射过程中功能、性能关键参数的变化情况,然后根据指标需求选择更换器件或是局部优化等加固设计,判断辐射设计裕度是否满足系统要求。抗总剂量加固方法一般有两种,即物理屏蔽法防护和冗余设计法。

1)物理屏蔽法防护

星载计算机单机结构件对空间粒子有一定的屏蔽作用,不同材料、不同厚度结构件起到的总剂量屏蔽效果不一样。在轨剂量贡献较大的主要是辐射带捕获电子、质子和太阳耀斑质子等,参考空间辐射剂量与屏蔽厚度的关系,可以分析等效屏蔽厚度、元器件在轨电离总剂量,如果元器件抗电离总剂量能力大于其在轨抗电离总剂量,并有一定的余量,则样机可满足抗电离总剂量设计要求。

(1)单机内部辐射总剂量屏蔽分析。包括:①考虑样机结构金属铝外壳的等效屏蔽厚度,分析样机内部电离剂量水平;②对于抗总剂量效应有特殊要求的元器件,分析样机内部具有辐射屏蔽作用的结构件、部件、元器件,如PCB板、隔板、DC/DC转换器、外壳等,获得元器件的辐射屏蔽情况;③建立样机内部分析模型,将内部结构对元器件的辐射屏蔽情况建立分析模型,分析等效屏蔽厚度;④在辐射剂量一维分析结果(剂量-深度曲线)中,计算屏蔽厚度对应的辐射总剂量,获得样机内部元器件位置处的辐射剂量;⑤当元器件抗总剂量能力大于设备内部元器件位置处的辐射剂量,并具有一定余量时,整机可满足抗总剂量设计的要求。

可采用一定厚度机壳的Al和一定厚度铅皮进行防护。

(2)辐射设计余量(radiation design margin,RDM)。电离总剂量效应防护设计,须采用合适的辐射设计余量,以保证卫星任务期内在空间辐射环境中的安全。RDM定义如下:

式中,D失效为元器件或材料自身的辐射失效剂量;D环境为元器件或材料实际使用位置处的剂量。

须明确规定RDM下限。RDM的范围通常在1~10之间,可参照以下原则确定不同型号任务的RDM下限要求:在设计过程中,首先根据所使用的电子元器件和材料的辐射损伤阈剂量D失效,以及电子元器件和材料在卫星上实际使用位置处的辐射剂量分析结果D环境,按照式(9-5)计算出其实际辐射设计余量RDM。然后,判断该RDM值是否满足根据式(9-5)所确定的RDM下限要求:若大于该下限,则说明该电子元器件或材料能够满足任务的电离总剂量要求,不需要进行额外防护;若小于该下限,则说明该电子元器件或材料不满足任务的电离总剂量要求,需要进行附加的防护设计。

2)冗余设计法

对采用物理屏蔽法防护不能确保满足要求的电子系统,需要单机层面进行冗余设计。冗余方法包括双机冗余和多机冗余。冗余设计过程中,需要确保抗总剂量薄弱部件冗余度,做到对外公共接口的故障隔离。

9.2.4.3 抗闩锁效应加固设计

目前在星载计算机抗闩锁效应的加固设计中,主要有抗闩锁电阻限流法、微闩锁故障复位法、电流监测电路法和基于功能的单粒子闩锁过流恢复技术等。

1)抗闩锁电阻限流法

星载计算机中抗闩锁设计主要是通过对敏感器件增加抗锁定保护电阻,使得锁定发生时流过器件的电流不致对器件造成损伤,从而起到保护器件的作用。抗锁定保护电阻的选值方法须根据具体器件的工作电流而定,在满足对器件供电电压压降不大于0.1~0.15 V情况下,选择合适的电阻。

2)微闩锁故障复位法

针对微闩锁电流控制,当发生较大量单粒子翻转错误后,总线芯片或多级缓存处理器芯片会出现一定的电流增大现象,这类错误不会引起整个芯片功能异常或超出微闩锁电流阈值,但会导致总线通信出现异常或处理器功能异常。通过功能监测和自主复位恢复措施,实现微闩锁电流的明显回落和功能恢复,也可以保证芯片正常。

3)电流监测电路法

电流监测电路法主要原理是对电路进行闩锁电流监测,当电流增大程度超过某个设定阈值时,便对模块进行断电,然后重启恢复。

针对电流监测电路,也可以采用一些专用的抗闩锁保护芯片实现,对特定元器件或特定功能模块的单粒子闩锁防护。这些专用芯片具有防可控硅效应,反应灵敏,适合电路中出现可控硅效应即电路电流瞬间增大时,形成闩锁,短时间内将供电电源切断,从而破坏可控硅效应所需的维持电流条件而将其彻底消除,有效保护电路因可控硅效应而产生的损坏;当可控硅效应消除后,能够迅速恢复电源的正常供电,恢复供电时间可调。同时,该器件还具有消除开机浪涌的作用,浪涌电流值的大小也可设置。

4)基于功能的单粒子闩锁过流恢复技术

针对单机的功能、工作电流、工作电压进行监测,一旦出现连续死机不恢复、工作电流超出阈值、工作电压异常,可对单机进行自主开关机操作,避免因为电子系统发生单粒子闩锁过流引起的系统永久性故障或损伤。

9.2.4.4 抗系统功能中断效应加固设计

1)软硬件冗余容错技术

(1)重要数据三取二。对于关键数据,特别是任务间共享的信号量、总线驱动单元、系统接口数据,需要存储在三个不相邻的单元内,互为备份,取数时进行多数表决或按位与/或运算,增加数据冗余度,提高数据的安全性、正确性。

(2)错误路径跟踪措施。在软件设计中,由于实现逻辑的复杂性,程序必然存在着不同的路径,同时也必然存在着大量不希望执行的分支,除了要对这些分支进行错误处理之外,还应该记录这些错误信息和错误计数,以确保软件出错时可以有效地查找错误发生路径,并且每周期记录错误计数。当错误总数超过一定数量后,进行系统复位。

2)软件流程监控技术

为了提高整个软件系统的可靠性,设计一个特殊的软件监控系统任务。在正常的程序受到单粒子翻转等软错误时,会出现程序跑飞等意外情况,就会使得系统任务进入非正常的状态。为了保证系统任务的正常运行,并且能感知到系统任务的运行错误,可以对系统任务进行心跳检测。

在系统任务的每一个周期,都向监控任务发送一个“心跳”信息,表明自己还处于正常运行状况下。一旦发生程序跑飞导致任务失效,加固任务就不会再收到该任务的“心跳”信息,此时监控任务则可以选择将该任务重启。当多个关键任务出现无心跳的“死亡”迹象,或者某个任务频繁出现“死亡”时,监控任务将对整个系统进行重启。

3)基于功能的单机FDIR技术

基于功能的单机错误故障检测和维护(failure detection isolation and recovery,FDIR)技术,主要是指针对不同类型的可检测功能,设计可以实时检测各功能的运行参数,并标识功能是否正常的判据。系统运行中周期性监测单机各项功能,将检测结果与正确判据进行分析比对。一旦超出判据设定状态,即进行单机恢复处理。由于许多检测功能需要占用处理器运算资源,所有检测功能可以在单机运行时根据需要进行关闭。

4)双机冷/热冗余技术

控制电子单机工作时,一般需要保证一定的实时性,故在单机抗辐射加固设计时要考虑其系统冗余设计和自主切换要求。双机系统中,设计容错模块对双机进行实时监测,当班机发生故障时,由容错模块控制切换到备份单机。对于双机冷冗余系统,容错模块监测到当班机发生错误,则通过开关机控制,切换至备份单机。对于双机热冗余系统,容错模块监测到当班机发生错误,则通过权控制,把输出控制权切换至备份单机。整个系统仍可输出正确控制信息,保证整机任务正常运行。

5)系统FDIR加固技术

星载计算机的FDIR加固设计技术主要是指通过对各个单机进行数字量或模拟量的采集,数字量主要标识各单机因为单粒子翻转软错误引起的数据错、通信错或功能错;模拟量主要标识单机因为单粒子、总剂量等效应引起的性能变化。对数字量设计发生错误的计数器,当连续超过一定数量或累积到一定错误数量时,对系统进行故障恢复;对模拟量设计错误阈值,当超过该阈值时,对系统进行故障恢复。故障恢复的措施根据故障严酷度可以分为复位恢复和关开机恢复。

对于有连续工作需求的星载计算机,为了保证其工作状态的连续性,需要系统内其他单机对其进行数据负责,同时对各单机采集数据做分析判断,并进行数据备份,系统恢复时还须进行数据恢复。