应用笔记 5041

在系统设计中添加“黑盒子”故障记录议


摘要 : 本文介绍了一种在网络、通信、工业和医疗设备中增添“黑盒子”功能的方案。综合介绍了记录故障数据的优势,包括能够快速、准确地定位故障,进行失效分析。

类似文章于2011年6月24日发表在www.how2power.com

引言

相信每个人都了解“黑盒子”的用途,用于记录飞机飞行过程中发生意外瞬间的数据。飞机的“黑盒子”能够收集大量飞行操作数据,包括:高度、速度、襟翼和航向位置;记录飞行员在事故发生之前进行的操作和对话。这些数据对于最终分析事故的根本原因起着重要作用。

“黑盒子”并非名副其实,飞机上的黑盒子从不是黑色的,而是采用橙色,以便容易被发现。所以,该设备的正确名称应该是“事件数据记录议”。

当然,在工程师眼里,“黑盒子”代表一个已知输入、输出,但内部操作未知的设备。本文并不讨论这种设备。

在电子设备(而不是飞机)中增加数据记录功能—“黑盒子”,将为系统提供非常有价值的信息。电子设备中所谓的复杂系统管理器—黑盒子,用于记录网络、通讯、工业、医疗设备的故障数据。记录故障所带来的最大好处是快速、有效地进行失效分析。本文介绍了实现这个功能的方案以及利用非易失故障记录的便利条件。

电源管理机制

从电源管理的角度看,大多数系统架构看起来非常接近。无论系统是路由器、服务器、基站、光纤交换机、可编程控制器,还是磁共振成像仪,它们都包含开关电源和线性稳压器,而且都需要监测电压、电流、温度或风扇速度,如图1所示。

图1. 典型的电源管理架构
图1. 典型的电源管理架构

非易失故障记录

无论是大规模系统,还是一个“比萨”盒子大小的系统,其系统管理器的主要功能是控制、监测大量的电源和风扇,其中包括:系统故障查询,例如:过压/欠压、过流、温度是否超出工作范围,或者是风扇速度是否正常。将故障监测转化成检测参数是否超出阀值这类简单操作。系统运行过程中实时采集数据,并在发生故障时将数据存储到非易失存储器,由此创建事件数据记录器,图2显示了一个系统方案。

图2. 非易失故障记录系统框图,监测电源和风扇
图2. 非易失故障记录系统框图,监测电源和风扇

图2中,复杂系统管理器连续收集系统电压、电流、温度和风扇速度等数据。类似于飞机上的“黑盒子”,记录仪将滚动收集大量的最新数据(比如,500ms到1s的最新数据)。发生故障时,系统的瞬间信息将被永久记录下来。能够检查故障发生前500ms至1s期间的系统操作,为排查系统故障的原因和系统分析非常重要。通过核查数据,可以重新组织时间段,确定系统的相互依赖关系。理想情况下,复杂系统管理器应记录多种故障,便于建立系统之间的相互依赖性,发生一个故障后,可能会引发更多的后续故障。为了找到故障的根本原因,需要记录尽可能完备的数据。而且,大容量非易失数据存储允许系统记录并非关键的故障,只是表示系统的某些参数超出了工作范围,这对提高整体系统的安全性非常重要。

设计示例

考虑图3所示系统,如果一路电源失效(步骤1),并且连续监测系统电压、电流和温度的复杂系统管理器同时检测到这一故障。这个管理器将立即通知其它管理器,以便立刻采取相应措施(步骤2)。复杂系统管理器会按照要求立即顺序关闭电源和风扇(步骤3),所有最新的系统电压、电流、温度和风扇速度等信息将记录到系统的黑盒子内(步骤4)。因为已经记录数据并存入非易失存储器,可以随时在以后随时调用、查询这些数据 (即使设备从现场返回),便于分析设备失效的原因(步骤5)。

图3. 黑盒子故障记录器
图3. 黑盒子故障记录器

非易失故障记录的优势

非易失故障记录具有很多优点,如果一个设备能够跟踪失效记录,将有助于失效分析人员快速定位失效原因。这种解决问题的能力可提升用户满意度,因为用户迫切需要了解事故原因。得到事故分析报告越快,也可以尽早地纠正错误,从而避免潜在危险、避免故障的再此发生,提高整体系统的可靠性。借助非易失故障记录器,可以了解用户操作是否符合常规要求,是否违反产品可承受的条件限制。因此,通过收集现场失效数据,可以识别供应商的等级,辨别设计的优劣,为未来产品的可靠性提供保障。

复杂系统管理器

Maxim提供大量内置非易失故障记录器的复杂系统管理器,适用于服务器等大规模系统,也适合网络交换机等“比萨”盒子大小的小型系统,如图4图5所示。

MAX34440控制并监测多达6路电源(图4),具有电源排序和裕量调节功能,可监测电压、电流和温度故障,多个MAX34440可以并联使用。MAX31785控制、监测多达6个风扇,与MAX34440一样,多个MAX31785也可以并联监测更多风扇。

图4. 利用MAX34440和MAX31785构建的大规模系统
图4. 利用MAX34440和MAX31785构建的大规模系统

Maxim还提供支持网络交换机等小型系统的管理器,利用MAX34441可以监测5路电源和1个风扇(图5)。为提高设计灵活性,多个MAX34441可以并联起来,也可以和多个MAX34440、MAX31785配合使用。

图5. 利用MAX34441提供小型系统管理
图5. 利用MAX34441提供小型系统管理

结论

在网络、工业控制、医疗和通信设备中增加“黑盒子”记录器,有助于快速分析失效原因。因而也会提升产品的长期稳定性,针对客户问题作出快速响应,最终提高用户的满意度。