IM-AccelDB for Accel Platform 2016 Summer リリースノート 初版 2016-09-01

6.3.1.1. 高可用性クラスタ

【3.2以降】仮想環境のHAオプション(Pacemaker)で確保する可用性は、仮想OS以上のレイヤです。 また、仮想環境のため、仮想マシンでNIC二重化は実施しません。 仮想化基盤のハードウェア機器(ネットワークやディスク)については、冗長化を検討してください。

【3.2以降】HAオプションにおいて、STONITH(他のサーバを強制的に再起動する機能)を使用しません。 代わりにVIPcheck(VIPが他のサーバに付与されているか確認する機能)を実装し、スプリットブレイン時の両系マスター昇格を抑止します。

【3.2以降】STONITHを使用しないため、HAオプション使用時も一部の単故障(PostgreSQL停止失敗・VIP停止失敗)が発生するとサービス停止となります。 オペレーターによるクラスタ停止操作が行われる時に発生する可能性があります。

【全バージョン】二重故障発生時の可用性は、IM-AccelDBでは保証せず、サービス停止となります。

注意

二重故障発生時においては、オペレーターの操作有無によらずサービス停止となります。

コラム

サービス停止となる単故障について示します。

  • PostgreSQL停止失敗
    PostgreSQL停止時に異常が発生した場合、それ以降のフェイルオーバー処理が行われません。
    PostgreSQLが何らかの原因でフリーズしている場合などに発生する可能性があります。
  • VIP停止失敗
    VIP停止時に異常が発生した場合、それ以降の処理が行われません。
    マシン高負荷時などに発生する可能性があります(通常時は発生しない事象です)。

コラム

二重故障の例を記載します(1号機:Master 機、2号機:Slave 機の状態で開始することを前提とします)。

  • クラスタ監視先IPの故障
    監視先として設定したネットワーク機器の故障や、監視先までの経路切断などが発生すると、
    両系で同じIPを監視しているため両系が停止して、サービスを継続できません。
  • ディスクHWの故障
    両系で同じHW上のディスクを使用している場合に、ストレージ装置や周辺機器の筐体故障などが発生すると、
    両系が停止するためサービスを継続できません。
  • インターコネクトLAN故障中のMaster 機故障
    以下の事象が発生すると、2号機がMaster 機に昇格しないためサービスを継続できません。
    (1) インターコネクトLAN故障が発生し、スプリットブレイン状態となった。
    (2) (1)の状況下で、1号機で故障が発生した。
  • Master 機故障中のSlave 機故障
    以下の事象が発生すると、両系が停止するためサービスを継続できません。
    (1) 1号機で故障が発生した。
    (2) (1)の状況下で、2号機で故障が発生した。
  • Slave 機故障中のMaster 機故障
    以下の事象が発生すると、両系が停止するためサービスを継続できません。
    (1) 2号機で故障が発生した。
    (2) その状況下で、1号機で故障が発生した。
  • フェイルオーバー時のMaster 機リソース停止失敗
    以下の事象が発生すると、フェイルオーバー処理が停止し、2号機がMaster 機に昇格できないためサービスを継続できません。
    (1) Master 機リソース監視で故障を検知し、フェイルオーバー処理が発生した。
    (2) フェイルオーバー処理内で、1号機のVIP停止またはPostgreSQL停止処理に失敗した。
  • フェイルオーバー時のSlave 機リソース起動失敗
    以下の事象が発生すると、両系が停止するためサービスを継続できません。
    (1) Master 機リソース監視で故障を検知し、フェイルオーバー処理が発生した。
    (2) フェイルオーバー処理内で、2号機のVIP起動またはPostgreSQL起動処理に失敗した。
  • レプリケーションLAN故障中のMaster 機故障
    以下の事象が発生すると、2号機がMaster 機に昇格できないためサービスを継続できません。
    (1) レプリケーションLAN故障が発生し、データベースの同期ができなくなった。
    (2) その状況下で、1号機で故障が発生した。