AIX HACMP 확인 ~ CoolSung-IT

2012년 8월 26일 일요일

AIX HACMP 확인

8월 26, 2012 DarkBlack

한국 IBM 고우석 님이 작성한 내용입니다.

1.HACMP 는 관리관점에서 대표적으로 아래를 모니터링 하면 됩니다.

# lssrc -ls clstrmgrES | grep state

=> ST_STABLE 이 아니면 cluster 가 비정상적인 상태임

ST_INIT 은 cluster 살아있지 않은 상태임, ST_Barrier 등은 문제가 있음을 나타내는 것임

# clRGinfo -p -t

=> 정의된 RG(Resource Group) 이 정상이면 online, 비정상이면 pending or error 로 보임

2. HACMP Heartbeat Form 이 정상인지를 확인하는 방법

# lssrc -ls topsvcs

=> topology 정의시 같은 network 끼리 hearbeat ring 을 구성하고 있는 것이 정상인지 확인

예를 들어

Network Name Indx Defd Mbrs St Adapter ID Group ID

rs232_0 [ 2] 2 1 S 255.255.0.2 255.255.0.2

rs232_0 [ 2] tty0 0x863cbf29 0x86406e67

Defd / Mbrs / St ===> 2 /2 /S 이면 정상 (two-node인 경우임) ,

===> 3 /3 /S (three-node 인 경우)..

위의 예제의 경우는 한노드가 ring 에서 expel 된 상태로 비정상임을 보여주고 있음.

3. HACMP event 로그를 모니터링 한다면??

# tail -f /usr/es/adm/cluster.log | grep EVENT

=> 문제가 생기게 되면 event 가 올라오게 됨... event 종류에 따라 next action 이 달라짐.

위와 같이 event 가 올라오게 되면 AIX errlog 에도 event 가 올라옴.

// 실제 event 항목들에 대해 관리측면에서 모니터링 할 사항은 없습니다.

단지 위 로그가 올라올 경우에 errpt 를 보고 무슨 event 가 발생하였는지를 확인하는 게 맞습니다. //

제가 보는 관점에서는 HACMP event 를 모니터링 하는 것은 무리가 있습니다.

위 1, 2번을 모니터링 하면 cluster가 정상인지 아닌지를 확인할 수 있기 때문에 1.2 번을 관리 포인트로 고려하시는 것이 맞을 듯 싶습니다.