首页 理论教育 HPC集群机房可靠性参数

HPC集群机房可靠性参数

时间:2023-11-23 理论教育 版权反馈
【摘要】:1953年Reichard R.Carhart对它进行了概括:可靠性是指系统在一定的条件下,在一定的时间区间内完成预定功能的能力。可靠性和可靠度。在可靠性发展的早期阶段,人们主要应用可靠度来衡量系统的可靠性指标。可维性和可维度。可靠性与系统的生存周期有关,而维修性与系统的维修有关。它是把性能与可靠性结合起来的一项指标。MTTF MTTR MTBF是三个简化的可靠性参数:平均故障前时间、平均维修时间、平均故障间隔时间。

HPC集群机房可靠性参数

可靠性是什么?如何正确描述一个系统的可靠性?不同的人提出了不同的定义和参数,目前还没有一个统一的定论,但大家普遍公认的定义是Roben Lusser于1952年在San Diego的一次论坛上首次提出的概念。

1953 年Reichard R.Carhart对它进行了概括:可靠性是指系统在一定的条件下,在一定的时间区间内完成预定功能的能力。因此,它有三个要素:不同的条件、不同的时间和不同的功能。在不同的发展阶段,由于人们对系统可靠性的关注的角度不同而产生了不同的描述系统可靠性的参数,主要有可靠性(Reliability)、可维性(Maintainability)、可用性(Availability)和保能性(Performability)等。

(1)可靠性和可靠度。

可靠度R(t)主要从一个系统能够正常工作的时间长短来描述系统的可靠性。它定义为:系统在t0时刻正常工作的条件下,在[t0,t]时间区间内正常工作的概率。

R(t)=P{X>t}

不可靠度F(t)为:

F(f)=1-R(t)

它主要应用于不可修复或极难修复的系统(如卫星系统)等。在可靠性发展的早期阶段,人们主要应用可靠度来衡量系统的可靠性指标。

(2)可维性和可维度

随着可维修系统的出现和大量应用,人们又提出了可维性的概念。可维性是衡量系统发生故障时维修难易程度的一种指标,其定量测度称为可维度(系统失效后在时间间隔t内被修复的概率),记为M(t)。

M(t)=P{X≤t}

(3)可用性与可用度。(www.xing528.com)

可靠性与系统的生存周期有关,而维修性与系统的维修有关。1982年,Tillman等人通过把这两者结合起来创造了一类反映系统有效性的参数,这就是系统的可用性(在时刻t时系统正常工作的概率)。

稳态可用度(Ass)作为系统连续工作的度量,平均可用度img作为系统在一定周期内的度量。

对于不可维修系统有A(t)=R(t)。

(4)保能性和保能度。

保能度是保能性的度量指标。保能度P(L,t)的定义是系统在时刻t时其性能保持在L级或L级以上水平的概率。它是把性能与可靠性结合起来的一项指标。其中引入了部分失效的概念,系统发生一定的故障,但并不影响系统的运行,只不过系统性能降了一定的等级。特别是在电信工业中提出QoS(Quality of Service)以来,保能度的研究越来越受到重视。

保能度和可靠性的一个重要区别是:可靠性是衡量系统能够正确执行全部功能的可能性的一种指标,而保能度则是衡量系统能正确执行最低限度部分功能的可能性的一种指标。

(5)MTTF MTTR MTBF。

MTTF MTTR MTBF是三个简化的可靠性参数:平均故障前时间(Mean Time To Failure,MTTF)、平均维修时间(Mean Time To Repair,MTTR)、平均故障间隔时间(Mean Time Between Failure,MTBF)。它们之间有如图2-1所示的关系。

图2-1 MTTF MTTR MTBF之间的关系

由图2-1可知:MTBF=MTTR+MTTF。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈