®
© Copyright IBM Japan Systems Engineering Co., Ltd. 2007
HADR+HACMP 連携構成ガイド 運用手順書
2
目次
3.1. 全体起動・停止手順
3.1.1 全体起動手順
3.1.2 全体停止手順
3.2. 計画停止・再開手順
3.2.1. 待機系OSの計画停止と再統合手順
3.2.2. 稼動系OSの計画停止と再統合手順
3.3. 非計画停止(障害)からの復旧手順
3.3.1. 稼動系OS障害からの再統合手順
3.3.2. 稼動系インスタンス障害からの再統合手順
3.3.3. 待機系OS障害からの再統合手順
3.3.4. 待機系インスタンス障害からの再統合手順
3
3.1. 全体起動・停止手順
4
3.1.1. 全体起動手順
5
3.1.1. 全体起動手順
1号機・2号機でOSを起動する。
1号機・2号機でOS起動後rootユーザーでログイン、db2diag.logのtailスクリプトを起動する。
1号機・2号機でdb2diag.logのtailスクリプトの起動を確認する。
1号機・2号機でDB2を起動する。(インスタンス・オーナーで実行)
DB2の起動を確認する。
#nohup /home/hadrinst/scripts/tail_hadr_status.ksh &
# ps –ef | grep tail以下の2プロセスが表示されることを確認/usr/bin/ksh /home/hadrinst/scripts/tail_hadr_status.kshtail -0 -f /home/hadrinst/sqllib/db2dump/db2diag.log
# su – hadrinst –c db2start
# ps –ef | grep db2sysc以下のプロセスが表示されることを確認。db2sysc
6
3.1.1. 全体起動手順
1号機・2号機で構成ファイル上のHADR ROLEを確認する。 (インスタンス・オーナーで
実行)
確認例
1号機
2号機
# su – hadrinst –c db2 get db cfg for sample | grep HADR
# db2 get db cfg for sample | grep HADRHADR database role = PRIMARYHADR local host name (HADR_LOCAL_HOST) = node1HADR local service name (HADR_LOCAL_SVC) = DB2_HADR2PHADR remote host name (HADR_REMOTE_HOST) = node2HADR remote service name (HADR_REMOTE_SVC) = DB2_HADR2SHADR instance name of remote server (HADR_REMOTE_INST) = hadrinstHADR timeout value (HADR_TIMEOUT) = 60HADR log write synchronization mode (HADR_SYNCMODE) = NEARSYNC
# db2 get db cfg for sample | grep HADRHADR database role = STANDBYHADR local host name (HADR_LOCAL_HOST) = node2HADR local service name (HADR_LOCAL_SVC) = DB2_HADR2SHADR remote host name (HADR_REMOTE_HOST) = node1HADR remote service name (HADR_REMOTE_SVC) = DB2_HADR2PHADR instance name of remote server (HADR_REMOTE_INST) = hadrinstHADR timeout value (HADR_TIMEOUT) = 60HADR log write synchronization mode (HADR_SYNCMODE) = NEARSYNC
1号機のHADR ROLEがPRIMARY2号機のHADR ROLEがSTANDBYであることを確認
7
3.1.1. 全体起動手順
スタンバイDB→プライマリDBの順でHADRを起動(インスタンス・オーナーで実行)
2号機(スタンバイDB)でHADRを起動・確認
確認例(db2pd)Database Partition 0 -- Database SAMPLE -- Active -- Up 0 days 00:00:08
HADR Information:Role State SyncMode HeartBeatsMissed LogGapRunAvg (bytes)Standby Remote Catchup Pending Nearsync 0 4095996
ConnectStatus ConnectTime Timeout Disonnected Mon Nov 26 13:36:27 2007 (1196051787) 60
LocalHost LocalServicenode2 DB2_HADR2S
RemoteHost RemoteService RemoteInstancenode1 DB2_HADR2P hadrinst
PrimaryFile PrimaryPg PrimaryLSNS0000074.LOG 0 0x00000000130B0000
StandByFile StandByPg StandByLSNS0000073.LOG 0 0x0000000012CC8000
#db2 activate db sample#db2pd –hadr –db sample(又は)#db2 get snapshot for db on sample | more
(HADR statusの節を確認)
Role: StandbyState: Remote Cathup PendingConnectionStatus: Disconnectedになっていることを確認
8
3.1.1. 全体起動手順
スタンバイDB→プライマリDBの順でHADRを起動(インスタンス・オーナーで実行)
1号機(プライマリDB)でHADRを起動・確認
確認例(db2pd)Database Partition 0 -- Database SAMPLE -- Active -- Up 0 days 00:00:08
HADR Information:Role State SyncMode HeartBeatsMissed LogGapRunAvg (bytes)Primary Peer Nearsync 0 4095996
ConnectStatus ConnectTime Timeout Connected Mon Nov 26 13:36:27 2007 (1196051787) 60
LocalHost LocalServicenode1 DB2_HADR2P
RemoteHost RemoteService RemoteInstancenode2 DB2_HADR2S hadrinst
PrimaryFile PrimaryPg PrimaryLSNS0000074.LOG 0 0x00000000130B0000
StandByFile StandByPg StandByLSNS0000073.LOG 0 0x0000000012CC8000
Role: PrimaryState: PeerConnectionStatus: Connectedになっていることを確認
#db2 activate db sample#db2pd –hadr –db sample(又は)#db2 get snapshot for db on sample | more
(HADR statusの節を確認)
9
HADRプライマリ→HADRスタンバイの順でHACMPを起動する。
1号機でHACMPを起動する。(rootユーザーで実行)
1号機でHACMPの起動を確認する。
3.1.1. 全体起動手順
# smitty clstart「即時」で開始。
# lssrc -ls clstrmgrES以下が表示されることを確認。Current state: ST_STABLE
# /usr/es/sbin/cluster/utilities/clRGinfo以下が表示されることを確認。ONLINE
# tail /usr/es/adm/cluster.log以下が表示されることを確認。EVENT COMPLETED: node_up_complete node1 0
※ HACMP V5.4.1以降でのcluster.logのデフォルト・ディレクトリーは、/var/hacmp/adm です。
10
HADRプライマリ→HADRスタンバイの順でHACMPを起動する。
2号機でHACMPを起動する。 (rootユーザーで実行)
2号機でHACMPの起動を確認する。
3.1.1. 全体起動手順
# smitty clstart「即時」で開始。
# lssrc -ls clstrmgrES以下が表示されることを確認。Current state: ST_STABLE
# /usr/es/sbin/cluster/utilities/clRGinfo以下が表示されることを確認。OFFLINE
# tail /usr/es/adm/cluster.log以下が表示されることを確認。EVENT COMPLETED: node_up_complete node2 0
11
3.1.2 全体停止手順
12
(計画停止手順)
1号機・2号機でHACMPを停止する。 (rootユーザーで実行)
1号機・2号機でHACMPの停止を確認する。
3.1.2. 全体停止手順
# smitty clstop「即時」で停止。(両ノード指定の停止、片ノードずつの停止のどちらも可)
# lssrc -ls clstrmgrES以下が表示されることを確認。Current state: ST_INIT
# tail /usr/es/adm/cluster.log以下が表示されることを確認。(1号機) EVENT COMPLETED: node_down_complete node1 0(2号機) EVENT COMPLETED: node_down_complete node2 0
13
3.1.2. 全体停止手順
プライマリDB→スタンバイDBの順でHADRを停止
プライマリDB側でHADRを停止する。
スタンバイDB側でHADRを停止する。
1号機・2号機でDB2を停止する。
1号機・2号機でDB2の停止を確認する。
1号機・2号機でOSを停止する。
# db2 deactivate db sample
deactivateされているかの確認は、deactivateコマンド実行時にエラー
メッセージが帰らないことをもってそれと見なす。
# db2 deactivate db sample
# db2stop
# ps –ef | grep db2sysc以下のプロセスが表示されないことを確認。db2sysc
14
3.2. 計画停止・再開手順
15
3.2.1. 稼働系OSの計画停止と再統合手順
16
3.2.1. 稼働系OSの計画停止と再統合手順
(計画停止手順)
1号機で、1号機から2号機へリソースグループを引き継ぐ。
1号機で、DB2 TAKEOVER HADRが実行されたことを確認する。
確認例(db2pd)
# smitty clstop「リソースグループに対するアクションの選択」で「リソースグループの移動」を選択。
#db2pd –hadr –db sample(又は)#db2 get snapshot for db on sample | more (HADR statusの節を確認)
Database Partition 0 -- Database SAMPLE -- Active -- Up 0 days 00:09:02
HADR Information:Role State SyncMode HeartBeatsMissed LogGapRunAvg (bytes)Standby Peer Nearsync 0 0
ConnectStatus ConnectTime Timeout Connected Mon Nov 26 16:14:32 2007 (1196061272) 60
LocalHost LocalServicenode1 DB2_HADR2P
RemoteHost RemoteService RemoteInstancenode2 DB2_HADR2S hadrinst
PrimaryFile PrimaryPg PrimaryLSNS0000075.LOG 0 0x0000000013498000
StandByFile StandByPg StandByLSNS0000075.LOG 0 0x0000000013498000
Role: StandbyState: PeerConnectionStatus: Connectedになっていることを確認
17
3.2.1. 稼働系OSの計画停止と再統合手順
1号機から2号機へリソースグループを引き継ぐ。(続き)
1号機で、HACMPの停止を確認する。
1号機で、HADRを停止する。
# db2 deactivate db sample
# lssrc –ls clstrmgrES以下が表示されることを確認。Current state: ST_INIT
18
3.2.1. 稼働系OSの計画停止と再統合手順
1号機で、HADRを停止する。(続き)
2号機で、1号機のHADRの停止を確認する。
#db2pd –hadr –db sample(又は)#db2 get snapshot for db on sample | more
(HADR statusの節を確認)
Database Partition 0 -- Database SAMPLE -- Active -- Up 0 days 00:13:34
HADR Information:Role State SyncMode HeartBeatsMissed LogGapRunAvg (bytes)Primary Disconnected Nearsync 0 0
ConnectStatus ConnectTime Timeout Disconnected Mon Nov 26 16:25:11 2007 (1196061911) 60
LocalHost LocalServicenode2 DB2_HADR2S
RemoteHost RemoteService RemoteInstancenode1 DB2_HADR2P hadrinst
PrimaryFile PrimaryPg PrimaryLSNS0000075.LOG 0 0x0000000013498000
StandByFile StandByPg StandByLSNS0000075.LOG 0 0x0000000013498000
Role: PrimaryState: DisconnectedConnectionStatus: Disconnectedになっていることを確認
19
1号機でDB2を停止する。
1号機でDB2の停止を確認する。
1号機でOSを停止する。
3.2.1. 稼働系OSの計画停止と再統合手順
# db2stop
# ps –ef | grep db2sysc以下のプロセスが表示されないことを確認。db2sysc
20
3.2.1. 稼働系OSの計画停止と再統合手順
(再統合手順)
1号機でOSを起動する。
1号機でOS起動後rootユーザーでログイン、db2diag.logのtailスクリプトを起動する。
1号機でdb2diag.logのtailスクリプトの起動を確認する。
1号機でDB2を起動する。 (インスタンス・オーナーで実行)
1号機でDB2の起動を確認する。
#nohup /home/hadrinst/scripts/tail_hadr_status.ksh &
# ps –ef | grep tail以下の2プロセスが表示されることを確認/usr/bin/ksh /home/hadrinst/scripts/tail_hadr_status.kshtail -0 -f /home/hadrinst/sqllib/db2dump/db2diag.log
# su – hadrinst –c db2start
# ps –ef | grep db2sysc以下のプロセスが表示されることを確認。db2sysc
21
3.2.1. 稼働系OSの計画停止と再統合手順
1号機で構成ファイル上のHADR ROLEを確認する。(インスタンス・オーナーで実行)
確認例
# db2 get db cfg for sample | grep HADR
# db2 get db cfg for sample | grep HADRHADR database role = STANDBYHADR local host name (HADR_LOCAL_HOST) = node1HADR local service name (HADR_LOCAL_SVC) = DB2_HADR2PHADR remote host name (HADR_REMOTE_HOST) = node2HADR remote service name (HADR_REMOTE_SVC) = DB2_HADR2SHADR instance name of remote server (HADR_REMOTE_INST) = hadrinstHADR timeout value (HADR_TIMEOUT) = 60HADR log write synchronization mode (HADR_SYNCMODE) = NEARSYNC
1号機のHADR ROLEがSTANDBYであることを確認
22
3.2.1. 稼働系OSの計画停止と再統合手順
1号機でHADRを起動する。
確認例(db2pd)
#db2 activate db sample#db2pd –hadr –db sample(又は)#db2 get snapshot for db on sample | more
(HADR statusの節を確認)
Database Partition 0 -- Database SAMPLE -- Active -- Up 0 days 00:00:09
HADR Information:Role State SyncMode HeartBeatsMissed LogGapRunAvg (bytes)Standby Peer Nearsync 0 0
ConnectStatus ConnectTime Timeout Connected Mon Nov 26 17:00:15 2007 (1196064015) 60
LocalHost LocalServicenode1 DB2_HADR2P
RemoteHost RemoteService RemoteInstancenode2 DB2_HADR2S hadrinst
PrimaryFile PrimaryPg PrimaryLSNS0000075.LOG 0 0x0000000013498000
StandByFile StandByPg StandByLSNS0000075.LOG 0 0x0000000013498000
Role: StandbyState: PeerConnectionStatus: Connectedになっていることを確認
23
3.2.1. 稼働系OSの計画停止と再統合手順
1号機で、HACMPを起動する。
1号機で、HACMPの起動を確認する。
# smitty clstart「即時」で開始。
# lssrc -ls clstrmgrES以下が表示されることを確認。Current state: ST_STABLE
# /usr/es/sbin/cluster/utilities/clRGinfo以下が表示されることを確認。OFFLINE
# tail /usr/es/adm/cluster.log以下が表示されることを確認。EVENT COMPLETED: node_up_complete node1 0
24
3.2.1. 稼働系OSの計画停止と再統合手順
2号機⇒1号機に切り戻しを行う。2号機で以下のコマンドを実行。
1号機にリソースが引き継がれたことを確認する。 2号機で以下のコマンドを実行。
# /usr/es/sbin/cluster/utilities/clRGinfo以下が表示されることを確認。
-------------------------------------------------------------------------------グループ名 状態 ノード-------------------------------------------------------------------------------hadr_rg ONLINE node1
OFFLINE node2
# smitty hacmp⇒ システム管理 (C-SPOC)
⇒ HACMP リソース・グループおよびアプリケーション管理⇒ リソース・グループの別のノード/サイトへの移動
⇒ リソース・グループの別のノードへの移動⇒ リソース・グループ 「hadr_rg」を選択。
⇒宛先ノード「node1」を選択。
25
3.2.1. 稼働系OSの計画停止と再統合手順
1号機でHADRの状態を確認する。 (インスタンス・オーナーで実行)
2号機でHADRの状態を確認する。 (インスタンス・オーナーで実行)
# su – hadrinst –c “db2pd -hadr -db sample”以下が表示されることを確認。Role : PrimaryState : PeerConnectStatus : Connected
# su – hadrinst –c “db2pd -hadr -db sample”以下が表示されることを確認。Role : StandbyState : PeerConnectStatus : Connected
26
3.2.2. 待機系OSの計画停止と再統合手順
27
3.2.2. 待機系OSの計画停止と再統合手順
(計画停止手順)
2号機でHACMPを停止する。(rootユーザーで実行)
2号機でHACMPの停止を確認する。
# smitty clstop「即時」で停止。
# lssrc -ls clstrmgrES以下が表示されることを確認。Current state: ST_INIT
# tail /usr/es/adm/cluster.log以下が表示されることを確認。EVENT COMPLETED: node_down_complete node2 0
28
3.2.2. 待機系OSの計画停止と再統合手順
2号機でHADRを停止する。
1号機でHADRの状態を確認する。
確認例
# db2 deactivate db sample
# db2pd –hadr –db sample
Database Partition 0 -- Database SAMPLE -- Active -- Up 0 days 00:00:08
HADR Information:Role State SyncMode HeartBeatsMissed LogGapRunAvg (bytes)Primary Disconnected Nearsync 0 4095996
ConnectStatus ConnectTime Timeout Disconnected Mon Nov 26 13:36:27 2007 (1196051787) 60
LocalHost LocalServicenode1 DB2_HADR2P
RemoteHost RemoteService RemoteInstancenode2 DB2_HADR2S hadrinst
PrimaryFile PrimaryPg PrimaryLSNS0000074.LOG 0 0x00000000130B0000
StandByFile StandByPg StandByLSNS0000073.LOG 0 0x0000000012CC8000
Role: PrimaryState: DisconnectedConnectionStatus: Disconnectedになっていることを確認
29
2号機でDB2を停止する。
2号機でDB2の停止を確認する。
2号機でOSを停止する。
3.2.2. 待機系OSの計画停止と再統合手順
# db2stop
# ps –ef | grep db2sysc以下のプロセスが表示されないことを確認。db2sysc
30
3.2.2. 待機系OSの計画停止と再統合手順
(再統合手順)
2号機でOSを起動する。
2号機でOS起動後rootユーザーでログイン、db2diag.logのtailスクリプトを起動する。
2号機でdb2diag.logのtailスクリプトの起動を確認する。
2号機でDB2を起動する。 (インスタンス・オーナーで実行)
2号機でDB2の起動を確認する
#nohup /home/hadrinst/scripts/tail_hadr_status.ksh &
# ps –ef | grep tail以下の2プロセスが表示されることを確認/usr/bin/ksh /home/hadrinst/scripts/tail_hadr_status.kshtail -0 -f /home/hadrinst/sqllib/db2dump/db2diag.log
# su – hadrinst –c db2start
# ps –ef | grep db2sysc以下のプロセスが表示されることを確認。db2sysc
31
2号機で構成ファイル上のHADR ROLEを確認する。(インスタンス・オーナーで実行)
確認例
3.2.2. 待機系OSの計画停止と再統合手順
# db2 get db cfg for sample | grep HADR
# db2 get db cfg for sample | grep HADRHADR database role = STANDBYHADR local host name (HADR_LOCAL_HOST) = node2HADR local service name (HADR_LOCAL_SVC) = DB2_HADR2SHADR remote host name (HADR_REMOTE_HOST) = node1HADR remote service name (HADR_REMOTE_SVC) = DB2_HADR2PHADR instance name of remote server (HADR_REMOTE_INST) = hadrinstHADR timeout value (HADR_TIMEOUT) = 60HADR log write synchronization mode (HADR_SYNCMODE) = NEARSYNC
2号機のHADR ROLEがSTANDBYであることを確認
32
2号機でHADRを起動する。
確認例
3.2.2. 待機系OSの計画停止と再統合手順
#db2 activate db sample#db2pd –hadr –db sample(又は)#db2 get snapshot for db on sample | more
(HADR statusの節を確認)
Database Partition 0 -- Database SAMPLE -- Active -- Up 0 days 00:00:08
HADR Information:Role State SyncMode HeartBeatsMissed LogGapRunAvg (bytes)Standby Peer Nearsync 0 0
ConnectStatus ConnectTime Timeout Connected Mon Nov 26 17:29:54 2007 (1196065794) 60
LocalHost LocalServicenode1 DB2_HADR2P
RemoteHost RemoteService RemoteInstancenode2 DB2_HADR2S hadrinst
PrimaryFile PrimaryPg PrimaryLSNS0000075.LOG 0 0x0000000013498000
StandByFile StandByPg StandByLSNS0000075.LOG 0 0x0000000013498000
Role: StandbyState: PeerConnectionStatus: Connectedになっていることを確認
33
2号機でHACMPを起動する。(rootユーザーで実行)
2号機でHACMPの起動を確認する。
3.2.2. 待機系OSの計画停止と再統合手順
# smitty clstart「即時」で開始。
# lssrc -ls clstrmgrES以下が表示されることを確認。Current state: ST_STABLE
# /usr/es/sbin/cluster/utilities/clRGinfo以下が表示されることを確認。OFFLINE
# tail /usr/es/adm/cluster.log以下が表示されることを確認。EVENT COMPLETED: node_up_complete node2 0
34
3.3. 非計画停止(障害)からの復旧手順
35
3.3.1. 稼働系OS障害からの再統合手順
36
3.3.1. 稼働系(1号機) OS障害からの再統合手順
1号機のOSを起動する。
1号機でOS起動後rootユーザーでログイン、db2diag.logのtailスクリプトを起動する。
1号機でdb2diag.logのtailスクリプトの起動を確認する。
1号機でstatus.flagファイルが存在する場合は、削除する。
# ps –ef | grep tail以下の2プロセスが表示されることを確認/usr/bin/ksh /home/hadrinst/scripts/tail_hadr_status.kshtail -0 -f /home/hadrinst/sqllib/db2dump/db2diag.log
# nohup /home/hadrinst/scripts/tail_hadr_status.ksh &
※1号機が稼働系の状況から、1号機のOS全面障害発生後、2号機に引継
ぎが完了し、正常にサービスが提供されている状態を前提とします。
# rm /home/hadrinst/scripts/status.flag
37
3.3.1. 稼働系(1号機) OS障害からの再統合手順
1号機でDB2を起動する。 (インスタンス・オーナーで実行)
1号機でDB2の起動を確認する。
1号機でHADRを起動する。 (インスタンス・オーナーで実行)
1号機でHADRの起動を確認する。 (インスタンス・オーナーで実行) (Peerになるまでに時間がかかることもあります)
# ps –ef | grep db2sysc以下のプロセスが表示されることを確認。db2sysc
# su – hadrinst –c db2start
# su – hadrinst –c “db2 start hadr on db sample as standby”
# su – hadrinst –c “db2pd -hadr -db sample”以下が表示されることを確認。Role : StandbyState : PeerConnectStatus : Connected
38
3.3.1. 稼働系(1号機) OS障害からの再統合手順
1号機でHACMPを起動する。
1号機でHACMPの起動を確認する。
# lssrc -ls clstrmgrES以下が表示されることを確認。Current state: ST_STABLE
# tail /usr/es/adm/cluster.log以下が表示されることを確認。EVENT COMPLETED: node_up_complete node1 0
# smitty clstart「即時」で開始。
この状態で通常通りサービスを提供することが可能となり、
2号機の障害発生時に再度引き継ぎを行う準備が出来ている状態となります。
切り戻し可能な時間帯を見つけて、次ページのきり戻し手順を実行します。
39
3.3.1. 稼働系(1号機) OS障害からの再統合手順
2号機⇒1号機に切り戻しを行う。2号機で以下のコマンドを実行。
1号機にリソースが引き継がれたことを確認する。2号機で以下のコマンドを実行。
# /usr/es/sbin/cluster/utilities/clRGinfo以下が表示されることを確認。
-------------------------------------------------------------------------------グループ名 状態 ノード-------------------------------------------------------------------------------hadr_rg ONLINE node1
OFFLINE node2
# smitty hacmp⇒ システム管理 (C-SPOC)
⇒ HACMP リソース・グループおよびアプリケーション管理⇒ リソース・グループの別のノード/サイトへの移動
⇒ リソース・グループの別のノードへの移動⇒ リソース・グループ 「hadr_rg」を選択。
⇒宛先ノード「node1」を選択。
40
3.3.1. 稼働系(1号機) OS障害からの再統合手順
1号機でHADRの状態を確認する。(インスタンス・オーナーで実行)
2号機でHADRの状態を確認する。 (インスタンス・オーナーで実行)
# su – hadrinst –c “db2pd -hadr -db sample”以下が表示されることを確認。Role : PrimaryState : PeerConnectStatus : Connected
# su – hadrinst –c “db2pd -hadr -db sample”以下が表示されることを確認。Role : StandbyState : PeerConnectStatus : Connected
41
3.3.2. 稼働系インスタンス障害からの再統合手順
42
3.3.2. 稼働系(1号機) インスタンス障害からの再統合手順
1号機でdb2diag.logのtailスクリプトの起動を確認する。
1号機でdb2diag.logのtailスクリプトが起動していない場合、スクリプトを起動する。
# ps –ef | grep tail以下の2プロセスが表示されることを確認/usr/bin/ksh /home/hadrinst/scripts/tail_hadr_status.kshtail -0 -f /home/hadrinst/sqllib/db2dump/db2diag.log
# nohup /home/hadrinst/scripts/tail_hadr_status.ksh &
※1号機が稼動系の状況から、1号機でインスタンス障害が発生し、2号機に引継ぎが完了し、サービスは提供中。当該ノードではHACMPを停止している状態を前提とします。
43
3.3.2. 稼働系(1号機) インスタンス障害からの再統合手順
1号機でDB2を起動する。 (インスタンス・オーナーで実行)
1号機でDB2の起動を確認する。
1号機でHADRを起動する。 (インスタンス・オーナーで実行)
1号機でHADRの起動を確認する。 (インスタンス・オーナーで実行) (Peerになるまでに時間がかかることもあります)
# ps –ef | grep db2sysc以下のプロセスが表示されることを確認。db2sysc
# su – hadrinst –c db2start
# su – hadrinst –c “db2 start hadr on db sample as standby”
# su – hadrinst –c “db2pd -hadr -db sample”以下が表示されることを確認。Role : StandbyState : PeerConnectStatus : Connected
44
3.3.2. 稼働系(1号機) インスタンス障害からの再統合手順
1号機でHACMPを起動する。
1号機でHACMPの起動を確認する。
# lssrc -ls clstrmgrES以下が表示されることを確認。Current state: ST_STABLE
# tail /usr/es/adm/cluster.log以下が表示されることを確認。EVENT COMPLETED: node_up_complete node1 0
# smitty clstart「即時」で開始。
この状態で通常通りサービスを提供することが可能となり、
2号機の障害発生時に再度引き継ぎを行う準備が出来ている状態となります。
切り戻し可能な時間帯を見つけて、次ページのきり戻し手順を実行します。
45
3.3.2. 稼働系(1号機) インスタンス障害からの再統合手順
2号機⇒1号機に切り戻しを行う。2号機で以下のコマンドを実行。
1号機にリソースが引き継がれたことを確認する。 2号機で以下のコマンドを実行。
# /usr/es/sbin/cluster/utilities/clRGinfo以下が表示されることを確認。
-------------------------------------------------------------------------------グループ名 状態 ノード-------------------------------------------------------------------------------hadr_rg ONLINE node1
OFFLINE node2
# smitty hacmp⇒ システム管理 (C-SPOC)
⇒ HACMP リソース・グループおよびアプリケーション管理⇒ リソース・グループの別のノード/サイトへの移動
⇒ リソース・グループの別のノードへの移動⇒ リソース・グループ 「hadr_rg」を選択。
⇒宛先ノード「node1」を選択。
46
3.3.2. 稼働系(1号機) インスタンス障害からの再統合手順
1号機でHADRの状態を確認する。 (インスタンス・オーナーで実行)
2号機でHADRの状態を確認する。 (インスタンス・オーナーで実行)
# su – hadrinst –c “db2pd -hadr -db sample”以下が表示されることを確認。Role : PrimaryState : PeerConnectStatus : Connected
# su – hadrinst –c “db2pd -hadr -db sample”以下が表示されることを確認。Role : StandbyState : PeerConnectStatus : Connected
47
3.3.3. 待機系OS障害からの再統合手順
48
3.3.3. 待機系(2号機) OS障害からの再統合手順
2号機のOSを起動する。
2号機でOS起動後rootユーザーでログイン、db2diag.logのtailスクリプトを起動する。
2号機でdb2diag.logのtailスクリプトの起動を確認する。
2号機でstatus.flagファイルが存在する場合は、削除する。
# ps –ef | grep tail以下の2プロセスが表示されることを確認/usr/bin/ksh /home/hadrinst/scripts/tail_hadr_status.kshtail -0 -f /home/hadrinst/sqllib/db2dump/db2diag.log
# nohup /home/hadrinst/scripts/tail_hadr_status.ksh &
※1号機が稼働系の状況から、2号機でOS全面障害が発生し、当該ノードでHACMPを停止している状態を前提とします。
# rm /home/hadrinst/scripts/status.flag
49
3.3.3. 待機系(2号機) OS障害からの再統合手順
2号機でDB2を起動する。 (インスタンス・オーナーで実行)
2号機でDB2の起動を確認する。
2号機で構成ファイル上のHADRのROLEを確認する。 (インスタンス・オーナーで実行)
2号機でHADRを起動をする。 (インスタンス・オーナーで実行)
# ps –ef | grep db2sysc以下のプロセスが表示されることを確認。db2sysc
# su – hadrinst –c db2start
# su – hadrinst –c “db2 activate db sample”
# su – hadrinst –c “db2 get db cfg for sample | grep HADR”以下が表示されることを確認。HADR database role = STANDBY
50
3.3.3. 待機系(2号機) OS障害からの再統合手順2号機でHADRの起動を確認する。
稼動系(1号機)で実行された差分のログをキャッチアップして適用する(ローカル・キャッチアップからリモートキャッチアップを経てPeerになる)ため、時間を要することがあります。
2号機でHACMPを起動する。
2号機でHACMPの起動を確認する。
# lssrc -ls clstrmgrES以下が表示されることを確認。Current state: ST_STABLE
# tail /usr/es/adm/cluster.log以下が表示されることを確認。EVENT COMPLETED: node_up_complete node2 0
# smitty clstart「即時」で開始。
# su – hadrinst –c “db2pd -hadr -db sample”以下が表示されることを確認。Role : StandbyState : PeerConnectStatus : Connected
51
3.4. 待機系インスタンス障害からの再統合手順
52
3.4. 待機系(2号機) インスタンス障害からの再統合手順
2号機でdb2diag.logのtailスクリプトの起動を確認する。
2号機でdb2diag.logのtailスクリプトが起動していない場合、スクリプトを起動する。
# ps –ef | grep tail以下の2プロセスが表示されることを確認/usr/bin/ksh /home/hadrinst/scripts/tail_hadr_status.kshtail -0 -f /home/hadrinst/sqllib/db2dump/db2diag.log
# nohup /home/hadrinst/scripts/tail_hadr_status.ksh &
※1号機が稼働系の状況から、2号機のインスタンス障害が発生した後の状態を前提
とします。(*2号機のインスタンス障害発生については、自動対応は行われません)
53
3.4. 待機系(2号機) インスタンス障害からの再統合手順
2号機でDB2を起動する。
2号機でDB2の起動を確認する。
2号機で構成ファイル上のHADRのROLEを確認する。
2号機でHADRを起動をする。
# ps –ef | grep db2sysc以下のプロセスが表示されることを確認。db2sysc
# su – hadrinst –c db2start
# su – hadrinst –c “db2 activate db sample”
# su – hadrinst –c “db2 get db cfg for sample | grep HADR”以下が表示されることを確認。HADR database role = STANDBY
54
3.4. 待機系(2号機) インスタンス障害からの再統合手順
2号機でHADRの状況を確認する。
稼動系(1号機)で実行された差分のログをキャッチアップして適用する(ローカル・キャッチアップからリモートキャッチアップを経てPeerになる)ため、時間を要することがあります。
2号機でHACMPを起動する。
2号機でHACMPの起動を確認する。
# lssrc -ls clstrmgrES以下が表示されることを確認。Current state: ST_STABLE
# tail /usr/es/adm/cluster.log以下が表示されることを確認。EVENT COMPLETED: node_up_complete node2 0
# smitty clstart「即時」で開始。
# su – hadrinst –c “db2pd -hadr -db sample”以下が表示されることを確認。Role : StandbyState : PeerConnectStatus : Connected
Top Related