システムの信頼性(MTBF・MTTR、HAなど)をやさしく解説

コンピュータシステム

コンピュータシステムにおける信頼性について説明をします。

MTBF(平均故障間隔)・MTTR(平均修理時間)

MTBFの正式名称は、Mean Time Between Failures(平均故障間隔)で、「故障と故障の間」の「稼働時間の平均」です。

MTBFは次の式で求められます。
MTBF = 稼働時間の合計 ÷ 故障の回数

MTTRの正式名称は、Mean Time To Repair(平均修復時間 または 平均復旧時間)です。

MTTRは次の式で求めることができます。
MTTR = 修復にかかった合計時間 ÷ 修復回数

稼働率はMTBFとMTTRから求めることができます。
稼働率 = MTBF / (MTBF + MTTR)

なお、MTBF,MTTR がともに従来のx倍になったとしても、稼働率は同じである。

フォールトトレランス

フォールトトレランス(Fault Tolerance)とは、システムに障害(フォールト)が発生しても、機能を完全または部分的に継続できる能力のことです。
フォールトレランスを実現するための考え方はいくつかありますので説明をします。

フェールソフト

システムやデバイスが故障した際、多少の性能低下や、一部の機能をを失ってでも継続できる状態を指します。
クラスタ構成のシステムで、サーバが稼働しなくなった場合でもほかのサーバで稼働できるようにしておくなどがフェールソフトです。

HAクラスタ

HAクラスタ(High Availability Cluster、ハイアベイラビリティ・クラスタ)は、複数のサーバ(ノード)をグループ化して構成されたクラスタのことを指します。

障害が発生した場合、クラスタ内の別のサーバに自動的に処理を引き継ぐ仕組み(フェイルオーバー)が備わっています。

HAクラスタの動きについて、詳細に説明をします。

普段はスイッチのハートビートを確認して、ネットワーク、サーバの障害を確認します。
また、待機系は本番系に対し、ハートビートログを確認します。

本番系で障害が発生した場合、待機系はディスクの占有権を奪ってロックをします。
その後、本番系は自らシャットダウンします。

フェールセーフ

フェールセーフは、システムや機器が故障したときに、安全な状態に自動的に移行する仕組みです。
システムや機器が障害を起こした場合に安全な状態に保つことを重視したアプローチです。

例:鉄道車両に異常が発生した場合、赤信号にして安全を確保する。

一部の機器が故障した場合、システムを安全停止して被害を最小限に抑えます。

フールプルーフ

誤操作やユーザーの不注意によって重大な問題が起きることを防ぐために、システムの設計に工夫が施されていることです。

コメント

タイトルとURLをコピーしました