Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix...

18
POWER SYSTEMS FOR AIX III : ADVANCED ADMINISTRATION AND PROBLEM DETERMINATION UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW 유니원 아이앤씨(주) 시스템 기술 지원 팀 이 현 수 문서정보 과 목 명 Power Systems for AIX III: Advanced Administration and Problem Determination 단 원 명 Unit 1. Advanced AIX administration overview 수강 장소 MIRHENGE 교육센터 수강 기간 2014-09-01 ~ 2014-09-05 작성일 2014-09-15 작 성 자 이 현 수 최종수정일 2014-10-14 재개정 이력 일자 내용 수정인 버전 문서배포 이력 발신자 수신자 배포목적 일자 비고

Transcript of Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix...

Page 1: Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix administration overview 작성자 : 이 현 수 최종수정일 : 2014-10-14 페이지 6 / 18

POWER SYSTEMS FOR AIX III :

ADVANCED ADMINISTRATION AND PROBLEM DETERMINATION

UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW

유니원 아이앤씨(주)

시스템 기술 지원 팀

이 현 수

문서정보

과 목 명 Power Systems for AIX III: Advanced Administration and Problem Determination

단 원 명 Unit 1. Advanced AIX administration overview

수강 장소 MIRHENGE 교육센터

수강 기간 2014-09-01 ~ 2014-09-05 작성일 2014-09-15

작 성 자 이 현 수 최종수정일 2014-10-14

재개정 이력

일자 내용 수정인 버전

문서배포 이력

발신자 수신자 배포목적 일자 비고

Page 2: Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix administration overview 작성자 : 이 현 수 최종수정일 : 2014-10-14 페이지 6 / 18

UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW

작성자 : 이 현 수 최종수정일 : 2014-10-14

페이지 2 / 18

Content

1. 목표 ............................................................................................................................................................................................. 5

2. 응용 프로그램 작동 불능 ................................................................................................................................................. 5

2.1. 기능 또는 성능 측면 .............................................................................................................................................. 5

2.2. 예기치 않은 작동 불능 .......................................................................................................................................... 5

2.2.1. 변경 제어 ......................................................................................................................................................... 5

2.2.2. 데이터 보안 .................................................................................................................................................... 5

2.2.3. 용량 계획 ......................................................................................................................................................... 5

2.2.4. 고 가용성 설계 ............................................................................................................................................. 5

2.3 계획된 작동 불능 ...................................................................................................................................................... 6

2.3.1. 백업 서버로 Fall-over ................................................................................................................................ 6

2.3.2. 응용 프로그램 재배치(LPAR 또는 WPAR 이동) ............................................................................ 6

3. 유지 관리 작업 ...................................................................................................................................................................... 7

3.1. 필요한 작업 시간 최소화 ..................................................................................................................................... 7

3.2. 운영체제 유지보수 ................................................................................................................................................... 7

3.2.1. 유지보수 사전준비 ...................................................................................................................................... 7

3.2.2. rootvg 유지보수 ............................................................................................................................................ 7

3.2.3. BLV 유지보수 .................................................................................................................................................. 7

3.3. 시스템 백업 ................................................................................................................................................................. 7

3.3.1. fuzzy 백업 ........................................................................................................................................................ 7

3.3.2. rootvg 크기 최소화 ..................................................................................................................................... 7

3.3.3. 사용자 파일 시스템을 위한 스냅샷 기술 ........................................................................................ 8

4. 효과적인 문제 관리 ............................................................................................................................................................. 9

4.1. 최신 상태의 시스템 문서 ..................................................................................................................................... 9

4.1.1. 시스템에 대한 정보 수집 및 문서화 ................................................................................................. 9

4.1.2. 기록되어야 할 중요한 항목의 예 : ..................................................................................................... 9

4.2. 최신 상태의 유지 보수 .......................................................................................................................................... 9

4.2.1. 시스템 유지 보수 ......................................................................................................................................... 9

4.3. 문제 해결 방법 사용 .............................................................................................................................................. 9

4.3.1. 문제 해결 ......................................................................................................................................................... 9

4.4. AIX 버그일 경우 ........................................................................................................................................................ 9

4.4.1. 문제 정보 수집 ............................................................................................................................................. 9

4.4.2. 문제 보고서 ................................................................................................................................................. 10

4.4.3. 스냅 정보 제공 .......................................................................................................................................... 10

5. 몇몇 좋은 명령어들 .......................................................................................................................................................... 11

Page 3: Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix administration overview 작성자 : 이 현 수 최종수정일 : 2014-10-14 페이지 6 / 18

UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW

작성자 : 이 현 수 최종수정일 : 2014-10-14

페이지 3 / 18

6. 문제 해결 단계 ................................................................................................................................................................... 12

6.1. 1 단계 : 문제 식별 ................................................................................................................................................ 12

6.2. 2 단계 : 추가 세부사항 수집 ........................................................................................................................... 12

6.2.1. 제안 질문 ...................................................................................................................................................... 12

6.3. 3 단계 : 시스템 데이터 수집 ........................................................................................................................... 12

6.3.1. SMIT 로그 ..................................................................................................................................................... 13

6.4. 4 단계 : 문제 해결 ................................................................................................................................................ 13

6.4.1. 문제 해결을 위한 리소스 ..................................................................................................................... 13

7. 시스템 상태 코드(HMC에서 확인) ........................................................................................................................... 14

7.1. 조작 패널 ................................................................................................................................................................... 14

7.2. 참조 코드의 소스 .................................................................................................................................................. 14

7.2.1. 진단 ................................................................................................................................................................. 14

7.2.2. 하드웨어 초기화 ........................................................................................................................................ 14

7.2.3. AIX 초기화 .................................................................................................................................................... 14

7.3. 하드웨어/펌웨어 또는 AIX 초기화 스크립트의 두 가지 분류 ........................................................ 14

7.3.1. 진행 코드 ...................................................................................................................................................... 14

7.3.2. 시스템 참조 코드(System Reference Codes : SRC) ................................................................... 14

8. AIX 장애 지원 처리 절차 .............................................................................................................................................. 15

8.1. 사전 준비 정보 ....................................................................................................................................................... 15

8.2. 심각도 단계 .............................................................................................................................................................. 15

8.2.1. 심각도 1 단계(critical) ............................................................................................................................ 15

8.2.2. 심각도 2 단계(significant impact) ..................................................................................................... 15

8.2.3. 심각도 3 단계(some impact) .............................................................................................................. 15

8.2.4. 심각도 4 단계(minimal impact) ......................................................................................................... 15

8.3. 처리 과정 ................................................................................................................................................................... 15

9. AIX SUPPORT TEST CASE DATA ........................................................................................................................................ 16

9.1. snap 명령 개요 ....................................................................................................................................................... 16

9.2. snap 사용 예 ............................................................................................................................................................ 16

9.2.1. # snap –a .................................................................................................................................................... 16

9.2.2. # snap –c .................................................................................................................................................... 16

9.2.3. # mv /tmp/ibmsupt/snap.pax.Z PMR#.b<branch#>.c<country#>.snap.pax.Z ....... 16

9.3. AIX Support에 데이터 업로드 ......................................................................................................................... 16

10. AIX 소프트웨어 업데이트 구조 ............................................................................................................................... 17

10.1. 버전, 릴리스, 변경(mod), 수정(fix) ............................................................................................................. 17

10.1.1. 버전과 릴리스(oslevel) ......................................................................................................................... 17

10.1.2. 파일집합 업데이트 : 변경과 수정 레벨(lslpp –L) ................................................................... 17

Page 4: Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix administration overview 작성자 : 이 현 수 최종수정일 : 2014-10-14 페이지 6 / 18

UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW

작성자 : 이 현 수 최종수정일 : 2014-10-14

페이지 4 / 18

10.2. 수정 번들 ................................................................................................................................................................ 17

10.2.1. AIX 수정 번들의 2가지 종류 ............................................................................................................ 17

10.3. 임시 수정 ................................................................................................................................................................ 17

Page 5: Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix administration overview 작성자 : 이 현 수 최종수정일 : 2014-10-14 페이지 6 / 18

UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW

작성자 : 이 현 수 최종수정일 : 2014-10-14

페이지 5 / 18

1. 목표

문제 확인을 위한 기초적인 단계 습득

계획된 다운 타임을 최소화 하거나 유지 관리 기간을 단축시키는 AIX 기능 습득

설명서 및 문제 해결에 필요한 다른 주요 리소스를 찾는 방법 습득

2. 응용 프로그램 작동 불능

2.1. 기능 또는 성능 측면

시스템 가용성을 제공하는 것은 모든 시스템 관리자의 중요한 책임이다. 응용프로그램이

정지 되는 것은 서버의 기능적인 문제(응용프로그램 또는 시스템 충돌 등) 또는 서버의 성능

문제(낮은 응답 속도 등)로 야기될 수 있다.

2.2. 예기치 않은 작동 불능

2.2.1. 변경 제어

시스템에 배치되어 관리하기 위한 변경제어가 없는 경우, 제어되지 않은 변경은 시스템을

작동 불능 상태에 빠뜨릴 수 있다.

2.2.2. 데이터 보안

컴퓨터 바이러스나 해커에 의한 악의적인 공격(사적인 정보 노출 뿐만 아니라)도 시스템의

가용성을 줄일 수 있다. 따라서 데이터 보안 정책은 필수적이다.

2.2.3. 용량 계획

성능 문제는 종종 늘어난 부하를 처리하기 위한 리소스(메모리, 프로세서, 네트워크 대역폭,

디스크 I/O 대역폭)의 부족, 적절한 용량 할당 실패 등의 결과이다.

2.2.4. 고 가용성 설계

컴퓨터 구성 요소(파워, 네트워크 어댑터, 네트워크 스위치, 스토리지 등)를 중복 설계 하면,

각 요소들의 장애 시에도 전체 시스템을 탄력적으로 운영할 수 있다.

아무리 좋은 정책을 구현하였다 하더라도 예기치 않은 작동 불능은 발생한다. 이러한

상황에서 관리자는 영향을 최소화 하고 가능한 한 빨리 복구해야 한다. 하나의 일반적인

접근 방식은 장애 시스템의 작업을 대체할 수 있는 시스템을 운영하는 것이다. ‘고 가용성

클러스터 멀티 프로세싱 (High Availability Cluster Multi-Processing : HACMP)’은 서버 장애의

영향을 최소화 하면서 자동화 된 fall-over 백업 시스템을 제공한다. 이러한 서버 중복은 단일

시설 내에서 작동하거나 지리적으로 다른 위치에 분할하여 설계할 수 있다.

Page 6: Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix administration overview 작성자 : 이 현 수 최종수정일 : 2014-10-14 페이지 6 / 18

UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW

작성자 : 이 현 수 최종수정일 : 2014-10-14

페이지 6 / 18

2.3 계획된 작동 불능

변경 제어를 사용하여 계획된 변경을 구현함으로써 잠재적으로 예기지 못한 작동 불능의

영향을 최소화 할 수 있다.

2.3.1. 백업 서버로 Fall-over

연중 무휴 운영 시스템의 경우에는 짧은 중단도 허용 될 수 없다. 이러한 상황에서의 한

가지 방법은 응용 프로그램을 다른 시스템으로 이동시키는 것이다. HACMP 클러스터

솔루션은 시스템이 정비되는 동안 서비스를 수동으로 다른 시스템에 옮겨서 운영할 수 있다.

2.3.2. 응용 프로그램 재배치(LPAR 또는 WPAR 이동)

LPAR 이동 (Live Partition Mobility)

※ 필요 조건

1. 라이선스 : Power VM EE

2. HMC, Firmware, AIX 의 version 이 맞아야 함.

3. Power 6 series 이상.

WPAR 이동 : AIX 6.1 이상에서 가능

Page 7: Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix administration overview 작성자 : 이 현 수 최종수정일 : 2014-10-14 페이지 6 / 18

UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW

작성자 : 이 현 수 최종수정일 : 2014-10-14

페이지 7 / 18

3. 유지 관리 작업

3.1. 필요한 작업 시간 최소화

빠른 유지보수는 시스템 백업을 단시간에 완료할 수 있다. 더욱 중요한 것은, 또 다른 문

제들을 해결할 시간을 확보할 수 있다는 것이다.

3.2. 운영체제 유지보수

3.2.1. 유지보수 사전준비

작업에 필요한 재료(설치 미디어와 같은)가 무엇인지 확인한다. 설치 미디어의 경우 NFS

나 NIM 서버, 혹은 업데이트된 시스템의 소프트웨어 저장소에 있을 수도 있다.

3.2.2. rootvg 유지보수

업데이트는 rootvg가 아니라 rootvg의 사본에 한다. 이는 두 가지 장점이 있다.

첫째, 활성 된 rootvg에 변화가 없다. 단지 적용하기 위해서 다시 부팅할 뿐이다.

둘째, 복구가 쉽다. 새로운 코드 레벨에서 심각한 문제가 발생할 경우, mksysb 복구 혹은

전체 업데이트를 되돌릴 필요가 없이 단지 다시 부팅하여 앞선 코드레벨로 돌리기만 하면 된

다.

3.2.3. BLV 유지보수

두 가지 기술이 있다. 그 중 하나는 rootvg BOS 논리 볼륨을 복사하여 대체 가능한 논리

볼륨을 만드는 것이다. 이것은 multibos 라고 한다.

또 다른 기술은 rootvg의 쌍둥이 사본으로 대체 볼륨 그룹을 만드는 것이다.

3.3. 시스템 백업

3.3.1. fuzzy 백업

fuzzy 백업이란 백업하는 동안 프로그램에 의해 변경된 백업부분을 의미한다. 특정 처리의

경우, 다수의 데이터 변경사항이 있는데, 이 중 몇몇은 데이터가 백업된 후에 변경되는 것이

아니라 백업되기 전에 변경된다. 따라서 백업은 변경된 부분을 반영한 것과 그렇지 않는 것

이 존재하게 된다. 이렇게 일치하지 않는 부분이 있는 백업을 fuzzy라 한다.

3.3.2. rootvg 크기 최소화

rootvg는 단지 OS에 필요한 것만 포함되도록 최소화 되어야 한다. 모든 사용자 데이터 및

기타 중요하지 않은 파일은 개별적으로 백업 및 복원해야 한다.

예를 들면 소프트웨어 저장소는 매우 클 수가 있으며, 일반적인 경로는 rootvg 안의 /usr

파일 시스템에 있다(소프트웨어 저장소의 표준 경로 : /usr/sys/inst.images). 소프트웨어 저장

소의 자체 복구 방안(백업으로 기존 미디어가 사용 될 수도 있음)으로 개별적인 파일 시스템

Page 8: Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix administration overview 작성자 : 이 현 수 최종수정일 : 2014-10-14 페이지 6 / 18

UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW

작성자 : 이 현 수 최종수정일 : 2014-10-14

페이지 8 / 18

에 위치시키면 백업과 복구의 시간을 줄이는데 도움이 된다.

또 다른 일반적인 예는 /home 파일 시스템이다. 사용자가 방대한 양의 데이터를 저장한다

면, 별도의 파일 시스템을 도입하여 rootvg의 작업 속도를 높일 수 있다.

/tmp 와 같은 다른 파일 시스템은 mksysb가 실행되는 동안 백업으로부터 제외될 필요가

있으며(/etc/excluded.rootvg에 등록되거나 mount 되지 않음), 그들 자신만의 백업으로부터 개

별적으로 복원된다.

3.3.3. 사용자 파일 시스템을 위한 스냅샷 기술

BOS가 아닌 데이터 백업에서 중요한 것은 데이터의 일관성을 유지하면서 응용프로그램의

정지 시간을 최소화 하는 것이다. AIX가 제공하는 하나의 기술은 JFS2 스냅샷이다. 이것은 매

우 짧은 시간 동안만 프로그램을 멈추고 단일 시점의 데이터 사진을 찍을 수 있다. 이 스냅

샷을 백업 자체로 사용하거나 다른 백업의 기준으로 사용 할 수도 있다.

데이터의 스냅샷을 찍기 위한 다른 기능들 중 몇몇은 Tivoli Storage Manager와 같이 전체

스토리지 솔루션의 일부분 이거나 스토리지 서브 시스템의 일부분이다.

Page 9: Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix administration overview 작성자 : 이 현 수 최종수정일 : 2014-10-14 페이지 6 / 18

UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW

작성자 : 이 현 수 최종수정일 : 2014-10-14

페이지 9 / 18

4. 효과적인 문제 관리

4.1. 최신 상태의 시스템 문서

4.1.1. 시스템에 대한 정보 수집 및 문서화

새로운 시스템을 접할 때마다 가능한 한 많이 배우는 것은 좋은 생각이다. 물리적 리소스

와 장치 뿐만 아니라 시스템의 구성 방법(네트워크, LVM 등) 또한 문서화 하는 것도 중요하

다.

4.1.2. 기록되어야 할 중요한 항목의 예 :

− 시스템의 구성(모델, CPU 타입)

− 물리 볼륨(디스크의 유형과 크기)

− 볼륨 그룹(이름, 디스크 묶음( just a bunch of disks : JBOD), 디스크 중복 배열

(redundant array of independent disks : RAID))

− 논리 볼륨(미러 여부, 해당 볼륨 그룹, 유형)

− 파일 시스템(해당 볼륨 그룹, 사용 프로그램)

− 메모리(크기) 및 페이징 공간(용량, 위치)

4.2. 최신 상태의 유지 보수

4.2.1. 시스템 유지 보수

일반적으로 코드는 평범한 테스트 환경에서 잘 작동하지만, 때로는 예기치 못한 상황에 직

면했을 때 형편없는 작동을 보일 수 있다. 하지만 다양한 환경에서 같은 코드를 사용하는 장

비들이 무수히 많다면, 하나의 장비가 새로운 코드를 사용하여 문제를 발견하고 보고하는 것

보다 훨씬 다양한 상황에서의 문제들을 발견할 수 있다. 문제가 발견되고 보고되면 다음 배

포되는 수정 팩에서 수정된다. 따라서 최신 서비스 팩을 설치하여 다른 사람의 경험을 활용

하고 알려진 문제점에 의한 영향을 방지할 수 있다.

4.3. 문제 해결 방법 사용

4.3.1. 문제 해결

일단 제품 결함을 발견한다면, 신속한 분석을 해야 한다. 비슷한 문제를 해결했던 과거 경

험이 없거나 기억하지 못한다면, 효과적으로 많은 문제들을 해결한 문제 해결 방법을 따라야

한다.

4.4. AIX 버그일 경우

4.4.1. 문제 정보 수집

제품 결함을 발견하면 발생한 문제에 대한 설명과 주변 상황을 작성하여 AIX 지원 센터에

문의해야 한다.

Page 10: Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix administration overview 작성자 : 이 현 수 최종수정일 : 2014-10-14 페이지 6 / 18

UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW

작성자 : 이 현 수 최종수정일 : 2014-10-14

페이지 10 / 18

4.4.2. 문제 보고서

새로운 문제 관리 보고서(Problem Management Report : PMR)에는 문제의 원인을 확인하

는데 도움이 되는 정보들을 포함한다.

4.4.3. 스냅 정보 제공

스냅 명령어는 문제가 발생한 환경에 대한 방대한 양의 정보를 수집하기 위한 일반적인 도

구이다.

Page 11: Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix administration overview 작성자 : 이 현 수 최종수정일 : 2014-10-14 페이지 6 / 18

UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW

작성자 : 이 현 수 최종수정일 : 2014-10-14

페이지 11 / 18

5. 몇몇 좋은 명령어들

lspv 물리적 볼륨, VID, VG 멤버 나열(물리적 디스크와 스토리지 정보 출력)

lscfg 시스템 구성 요소 정보 제공(하드웨어 정보)

예 lscfg –vl ent0 : FRU 번호, 네트워크 주소, MAC 주소, 물리 위치 등 확인

lscfg –vl fcs0 : wwpn 확인

prtconf 시스템 환경설정 정보 출력

lsvg 볼륨 그룹 나열

lsps 페이징 공간에 대한 정보 출력(스왑 영역 정보)

예 lsps –a : 전체 페이징 정보

lsfs 파일 시스템 정보 출력

lsdev 장치 정보 출력

예 lsdev –C : 장치 이름

lsdev –Cc processor : 프로세서 정보 출력

lsdev –Cc adapter : 어댑터 정보 출력

lsdev –Cc disk : 디스크 정보 출력

lsdev –Cc tape : 테이프 정보 출력

getconf 시스템 환경설정 변수 값 출력(시스템 정보 확인)

예 getconf –a : 전체 출력

bootinfo 시스템 환경 설정 정보 출력(unsupported)

예 bootinfo –y : 하드웨어 비트 출력

bootinfo –K : 커널 비트 출력

bootinfo –p : 아키텍처 타입 출력

bootinfo –s hdisk# : VG에 할당 안된 디스크 크기 확인

bootinfo –b : 마지막 부팅된 장치 정보

snap 시스템 데이터 수집(덤프에 사용될 시스템 정보 수집)

예 snap –a : /tmp/ibmsupt에 저장됨

Page 12: Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix administration overview 작성자 : 이 현 수 최종수정일 : 2014-10-14 페이지 6 / 18

UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW

작성자 : 이 현 수 최종수정일 : 2014-10-14

페이지 12 / 18

6. 문제 해결 단계

6.1. 1 단계 : 문제 식별

문제 해결의 첫 번째 단계는 문제가 무엇인지를 알아내는 것이다. 시스템의 사용자가 문제

로 인식하는 것이 무엇인지 정확하게 이해하는 것은 중요하다. 일반적으로 발생한 문제들을

명확히 묘사하는 것은 문제발생의 원인에 대한 단서들을 제공해 주고 해결 방법의 선택에 있

어서 도움을 준다.

6.2. 2 단계 : 추가 세부사항 수집

발생한 문제는 시스템을 사용하거나 상호작용하는 어느 누구에게도 발견될 수 있다. 만약

발생된 문제가 보고된다면 세부사항을 얻을 필요가 있다. 따라서 추가 세부사항을 얻거나 무

슨 일이 일어났는지 명확한 그림을 그리기 위하여 시스템의 다른 관리자들에게 문의해야 한

다. 다른 관리자라 하면, 데이터 입력 직원, 프로그래머, 시스템 관리자, 기술 지원 담당자, 관

리자, 개발자, 운영 직원, 네트워크 사용자 등이 될 수 있다.

6.2.1. 제안 질문

− 문제가 무엇입니까?

− 시스템이 하고 있는 것은 무엇이며 하지 않는 것은 무엇입니까?

− 언제 처음 문제가 발생한 것을 알았습니까?

− 언제 발생했습니까?

− 최근 변경된 사항이 있습니까?

명확하게 그림이 그려질 때 까지 계속해서 대화해야 한다. 문제의 모든 과정에 대한 내용

을 얻기 위해서는 가능한 많은 질문을 해야 한다.

6.3. 3 단계 : 시스템 데이터 수집

프로세스가 문제를 인식하는 동안 몇몇 정보들은 이미 사용자로부터 수집된다. lsdev, lspv,

lsvg, lslpp, lsattr 등과 같은 다양한 명령어를 사용하여 시스템 설정에 대한 많은 정보를 얻을

수 있다. 또한 장애 보고 기능, 운영체제의 상태 단계, 시스템 덤프 확인, 사용 가능한 다양한

로그 파일 검사 등을 통하여 또 다른 다양한 정보를 얻을 수 있다.

− 장비 설정은 어떻게 되어 있는가?

− 발생되고 있는 오류가 무엇인가?

− OS 상태는 어떠한가?

− 시스템 덤프가 있는가?

− 어떤 로그파일이 존재하는가?

Page 13: Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix administration overview 작성자 : 이 현 수 최종수정일 : 2014-10-14 페이지 6 / 18

UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW

작성자 : 이 현 수 최종수정일 : 2014-10-14

페이지 13 / 18

6.3.1. SMIT 로그

만약 SMIT을 사용하고 있다면, 추가 정보를 얻을 수 있는 로그들이 더 있다. SMIT 로그 파

일은 일반적으로 root 유저의 home directory 안에 있으며, 디폴트 이름은 smit.log 이다.

6.4. 4 단계 : 문제 해결

모든 정보를 수집한 후에 발생한 문제를 해결하기 위한 절차를 결정한다. 문제의 원인을

파악하기 위해 행했던 모든 작업과 문제를 해결하기 위한 모든 작업의 로그를 남긴다.

− 수집한 정보를 사용한다.

− 문제 해결을 위해 행했던 작업에 대한 로그를 남긴다.

− 사용 가능한 툴을 사용한다. : 명령어 문서, 다운로드 할 수 있는 해결책 및 업데이트.

− 필요하다면 IBM 지원 부서에 문의.

6.4.1. 문제 해결을 위한 리소스

각각의 명령어들의 대한 문서와 같은 다양한 리소스들이 AIX 시스템의 문제 해결을 위해

도움을 줄 수 있다. IBM Systems Information Center는 POWER 서버 및 AIX와 관계된 모든

정보를 제공하는 웹사이트 이다. 메시지 데이터베이스는 오류 번호, 오류 ID, 코드들(LED 값)

을 검색하는데 사용할 수 있다. 또한 웹사이트에는 FAQ, 해결 방안 등에 대한 정보도 있다.

Page 14: Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix administration overview 작성자 : 이 현 수 최종수정일 : 2014-10-14 페이지 6 / 18

UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW

작성자 : 이 현 수 최종수정일 : 2014-10-14

페이지 14 / 18

7. 시스템 상태 코드(HMC에서 확인)

AIX는 부트 프로세스가 진행되는 동안 진행 및 에러 표시(디스플레이 코드)를 제공한다. 이러

한 디스플레이 코드는 문제 해결에 매우 유용 할 수 있다. 하드웨어 플랫폼에 따라 코드가 콘

솔 또는 조작 패널에 표시된다.

7.1. 조작 패널

LPAR 시스템이 아닌 경우, 조작 패널은 전면 패널의 LED 표시이다. 초기 POWER4 모델을

시작으로, POWER 시스템은 여러 논리 파티션(LPAR)을 나눌 수 있는 기능이 있다. 이 경우,

시스템 전체의 LED 디스플레이는 여전히 전면 패널에 존재한다. 그러나 각 LPAR에 대한 조

작 패널은 하드웨어 관리 콘솔(HMC)의 화면에 표시된다. HMC는 여러 개의 LPAR를 실행할

때 필요한 별도의 시스템이다. 어디에 표시되든 상관없이 모두 LED Display Code라 한다.

7.2. 참조 코드의 소스

7.2.1. 진단

진단 또는 에러 로그 분석은 하드웨어 또는 운영 시스템 문제 원인을 파악하는 데 사용될

수 있는 서비스 요청 번호(SRN)를 제공 한다.

− 서비스 요청 번호(Service request numbers : SRNs)

에러 로그나 하드웨어 장애 시 진단도구(diag)를 실행하면 표시되는 코드.

확인된 구성 요소 및 오류 상태를 나타냄.

7.2.2. 하드웨어 초기화

시스템 펌웨어는 조작 패널에 부팅 상태 코드(펌웨어 체크 포인트)를 전송한다. 콘솔이 초

기화되면, 펌웨어는 콘솔에게 8자리 오류 코드를 전송한다.

7.2.3. AIX 초기화

rc.boot 스크립트와 장치 구성 방법은 조작 패널에 진행 및 오류 코드를 보낸다.

7.3. 하드웨어/펌웨어 또는 AIX 초기화 스크립트의 두 가지 분류

7.3.1. 진행 코드

초기 프로그램로드(initial program load : IPL) 또는 부트 시퀀스의 단계를 나타내는 체크

포인트이다. 즉, 현재 단계의 상태를 나타내는 코드이다. 코드가 변하지 않거나 같은 코드

가 계속해서 반복적으로 나타난다면 장애가 발생한 것으로 해석할 수 있다.

7.3.2. 시스템 참조 코드(System Reference Codes : SRC)

하드웨어, 라이선스(펌웨어), 운영체제의 오류를 나타내는 코드이다.

Page 15: Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix administration overview 작성자 : 이 현 수 최종수정일 : 2014-10-14 페이지 6 / 18

UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW

작성자 : 이 현 수 최종수정일 : 2014-10-14

페이지 15 / 18

8. AIX 장애 지원 처리 절차

8.1. 사전 준비 정보

장비 시스템에 결함이 있다고 판단될 경우, AIX Support에 요청할 수 있다. 요청 시에는 필요

한 정보를 미리 준비하는 것이 좋다.

− 이름, 전화번호, 고객 번호

− 장비 유형, 모델, 시리얼 번호(MTMS)

− AIX 버전, release, 기술 레벨, 서비스 팩

− 장애 코드와 장애 묘사

− 심각도 레벨 : critical, significant impact, some impact, minimal

8.2. 심각도 단계

8.2.1. 심각도 1 단계(critical)

기능이 더 이상 작동하지 않음을 나타낸다. 작업을 더 이상 진행할 수 없을 정도로 심각한

영향을 미치고 있으므로 즉시 해결해야 할 필요가 있다.

8.2.2. 심각도 2 단계(significant impact)

기능을 사용할 수는 있지만 작업에 심각한 영향을 미칠 정도로 제한되어 있는 상태를 나타

낸다.

8.2.3. 심각도 3 단계(some impact)

약간의 기능 저하(운영에는 크게 영향 없음)와 함께 프로그램이 사용 가능하다.

8.2.4. 심각도 4 단계(minimal impact)

장애가 운영에 거의 영향을 미치지 않거나, 다른 방법으로 장애를 해결했음을 나타낸다.

8.3. 처리 과정

1단계 지원에서는 추적의 목적으로 PMR 번호(실제로는 PMR과 지역 번호의 조합)를 부여

한다. 나중에 같은 문제에 대한 요청을 할 경우 PMR 번호와 지역 번호를 갖고 있어야 한다.

기본 정보들이 수집되고 난 후에는, 2단계 지원으로 넘어간다. 2단계 지원에서 주변 환경과

장애 발생 원인을 조사한다. 그 후, 지원 데이터 베이스에서 장애에 대한 알려진 문제가 있는

지 또는 해결책이 있는지 찾는다. 대부분의 경우에는 이미 같은 문제에 대하여 수정되어 배

포된 기술 레벨(TL)이나 서비스 팩(SP) 버전으로 업데이트 하라는 요청을 받는다.

만약 수정되어 배포된 버전이 없다면, 업데이트 후 지켜볼 것을 요청한다. 그래도 여전히

문제가 발생한다면, 장애 지원 부서는 같은 환경의 서버에 업로드 할 완전한 시스템 정보 세

트를 요구한다. 이 때, 시스템 정보를 수집하기 위한 기본 도구가 snap 명령이다.

Page 16: Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix administration overview 작성자 : 이 현 수 최종수정일 : 2014-10-14 페이지 6 / 18

UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW

작성자 : 이 현 수 최종수정일 : 2014-10-14

페이지 16 / 18

9. AIX SUPPORT TEST CASE DATA

9.1. snap 명령 개요

snap 명령은 시스템 문제 식별 및 해결에 유용한 시스템 구성 정보를 수집하기 위해 사용

된다. 또한, pax 파일로 수집된 snap 정보를 압축 할 수도 있다. 파일은 테이프나 DVD와 같

은 장치에 기록되거나 원격 시스템으로 전송될 수 있다.

9.2. snap 사용 예

9.2.1. # snap –a

snap 명령의 –a 옵션은 수집할 수 있는 모든 시스템 구성 정보를 수집한다. 명령의 결과는

/tmp/ibmsupt 에 저장된다.

다음으로, 문제 해결에 유용하다고 생각되는 테스트케이스 데이터를 /tmp/ibmsupt/other

또는 /tmp/ibmsupt/testcase/에 복사한다. 이 추가적인 정보는 압축된 pax 파일 생성 시 포함

된다(snap 정보와 함께).

9.2.2. # snap –c

snap 명령의 –c 옵션은 /tmp/ibmsupt에 들어있는 모든 파일을 pax 파일로 압축한다. 명령

의 결과로 /tmp/ibmsupt/snap.pax.Z 파일이 만들어 진다.

9.2.3. # mv /tmp/ibmsupt/snap.pax.Z PMR#.b<branch#>.c<country#>.snap.pax.Z

snap.pax.Z 결과물은 mv 명령을 통해 이름이 변경되어야 한다. 변경되는 이름은 파일의

PMR 번호, 지역번호, 국가번호를 나타낸다. 예를 들어 PMR 번호가 12345, 지역 번호가 567,

국가 번호가 890 이면 파일 이름은 12345.b567.c890.snap.pax.Z 가 된다.

9.3. AIX Support에 데이터 업로드

# ftp testcase.software.ibm.com

User: anonymous

Password: <email address>

ftp> cd /toibm/aix

ftp> bin

ftp> put PMR#.b<branch#>.c<country#>.snap.pax.Z

AIX Support에서는 테스트케이스 데이터를 수신하기 위한 익명의 FTP 서버를 제공한다(서

버의 호스트 명 : testcase.software.ibm.com).

일단 서버에 접속을 하면 /toibm/aix 로 이동한다. FTP 변환에 의해 파일 내용이 변하지 않

도록 바이너리로 전송한다. 그 후, put 명령어로 파일을 전송한 후 AIX Support에게 알리면

된다.

Page 17: Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix administration overview 작성자 : 이 현 수 최종수정일 : 2014-10-14 페이지 6 / 18

UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW

작성자 : 이 현 수 최종수정일 : 2014-10-14

페이지 17 / 18

10. AIX 소프트웨어 업데이트 구조

10.1. 버전, 릴리스, 변경(mod), 수정(fix)

10.1.1. 버전과 릴리스(oslevel)

oslevel 명령은 기본적으로 AIX 운영체제의 버전과 릴리스

를 보여준다. oslevel –s 로 나타나는 변경과 수정 레벨 값은

일반적으로 0이다. oslevel로 보여지는 변경 레벨은 기술 레

벨을 반영한다.

10.1.2. 파일집합 업데이트 : 변경과 수정 레벨(lslpp –L)

변경과 수정 레벨은 다수의 운영체제 파일집합들의 변경 사항을 나타낸다. lslpp –L 명령을

통해 확인할 수 있다. 관리자들은 프로그램 임시 수정(Program Temporary Fix : PTF)을 수정된

파일집합 형태로 설치한다. 수정된 파일집합은 하나 이상의 문제 또는 APARs(Authorized

Program Analysis Report)를 해결한다.

10.2. 수정 번들

많은 PTF들을 수집하고 테스트 하는데 유용하다. 또한 개선과 수정의 새로운 주기를 위한

베이스라인으로도 사용될 수 있다. 테스트를 통하여 예상치 못한 상호작용을 찾는 것도 가능

하다.

10.2.1. AIX 수정 번들의 2가지 종류

− 기술 레벨(Technology Level : TL)

일반적으로 유지보수 레벨(Maintenance Level : ML)로 알려져 있음.

코드 문제 수정뿐만 아니라 사소한 기능 향상까지 포함된 주요 수정 번들.

oslevel –r 명령어로 확인 가능.

일반적으로 기가 바이트 단위의 크기

− 서비스 팩(Service Pack : SP)

기술 레벨 릴리스보다 더 자주(TL 릴리스 사이에) 릴리스 되며 보통 필요한

수정사항만 포함한다.

oslevel –s 명령어로 확인 가능

일반적으로 메가 바이트 단위의 크기

10.3. 임시 수정

때때로 고객이 발생한 문제를 해결하기 위하여 공식적인 PTF 릴리스를 기다릴 수 없는 긴

급한 상황이 발생한다. 이러한 상황에서는 개발자가 FTP 서버에 하나 이상의 개별적인 교체

파일을 올려놓고 시스템 관리자로 하여금 다운로드 하여 설치할 수 있도록 한다. 단순히 예

그림 10-1 oslevel 예 1

Page 18: Unit 1. Advanced AIX administration overview - unioneinc.co.kr · unit 1. advanced aix administration overview 작성자 : 이 현 수 최종수정일 : 2014-10-14 페이지 6 / 18

UNIT 1. ADVANCED AIX ADMINISTRATION OVERVIEW

작성자 : 이 현 수 최종수정일 : 2014-10-14

페이지 18 / 18

전 파일 위에 새로운 파일을 덮어씌우는 것이다. 그러나 이러한 방법은 임시 패치 상태로서

테스트 과정을 거치지 않아 안정화 되어 있지 않은 상태이므로 추후 경험할 수 있는 다른 문

제(기존 발행한 문제와 관련된)에서 또 다른 문제를 만들어 낼 수 있다.

오늘 날에는 efix 명령어를 통해 더 효율적으로 임시 수정 사항을 관리할 수 있다. 보안 경

고는 종종 보안 노출을 식별하기 위한 임시 수정 사항을 제공한다. 위험 분석 결과에 따라

즉시 임시 수정 사항을 적용할 수도 있고, 추후 서비스 팩이 나올 때까지 기다릴 수도 있다.

추후 정식 서비스 팩을 설치할 때에는 기존 임시 수정 사항을 삭제 후, 정식 서비스 팩을 설

치해야 한다.