CAE S/W 별 통합 해석 시스템 성능 분석 결과...

1/23 페이지

CAE S/W 별 통합 해석 시스템

성능 분석 결과 보고서

Nehalem CPU vs HarperTown CPU 비교 분석

㈜클루닉스

본 자료는 최신 Intel Processor Architecture인 Nehalem CPU 기반에서 CAE 해석

S/W에 대한 성능 분석 보고서 입니다. ㈜클루닉스의 통합 해석 시스템 구성 제품

인 GridCenter-CAP을 이용하여 테스트 되었으며, ㈜클루닉스의 허가 없이 복사나

배포를 금지합니다.

BMT 환경: GridCenter-CAP, GridCenter-HPC

BMT S/W : LS-DYNA, Fluent, Pam-stamp, Pam-crash, Abaqus, Ansys-CFX

BMT 진행 : ㈜클루닉스

BMT 일자 : 2009년 07월 17일~2009년 07월 26일

시스템 구축 및 최적화: ㈜클루닉스 / 서진우 수석([email protected])

CAE 어플리케이션 구축 및 최적화: ㈜클루닉스 / 서진우 수석([email protected])

2/23 페이지

목차

1. BMT 요약

2. BMT 환경 정보

3. BMT 시나리오 소개

4. BMT 항목 별 결과 및 세부 분석

5. BMT 결론

첨부 > 해석 결과 후처리 화면 Snapshot

3/23 페이지

1. BMT 요약

본 BMT는 최신 Intel Processor Architecture인 Nehalem CPU계열 Intel® Xeon™ X55xx

서버와 기존에 보편적으로 사용되어왔던 Intel® Xeon™ E54xx 서버와의 CAE 해석 S/W

의 병렬 계산 성능을 비교 분석한 자료입니다.

본 BMT를 통해 Nehalem 기반의 CPU로 구성된 통합 해석 시스템(HPC)이 HarperTown 기반

의 CPU로 구성된 통합 해석 시스템(HPC) 보다 30%~60% 정도 우수한 해석 처리 성능을

나타내는 걸로 확인되었습니다.

병렬 계산 성능 결과 (Intel® Xeon™ 5550 - Nehalem)

측정 단위 : 초(second)

CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32

FLUENT 4503 2066 1561 1171 601 473 380

LSDYNA 61590 44873 27701 19276 9432 7067 5211

PAMSTAMP 22812 12872 8065 4906 4059 4774 5787

ABAQUS 20595 11035 6333 3750 2753 2092 1584

PAMCRASH 12105 6892 4110 2652 1639 1154 1031

CFX 17981 7031 5996 2863 1759 1309 1088

병렬 계산 성능 결과 (Intel® Xeon™ 5430 – HarperTown)

측정 단위 : 초(second)


FLUENT 5969 3142 2776 1728 897 628 518

LSDYNA 120450 66037 38456 29608 15793 10721 8230

PAMSTAMP 35402 19275 10485 7711 6383 7505 8287

ABAQUS 27384 15603 10224 7806 3700 3430 2936

PAMCRASH 20440 10942 5978 4387 2350 1732 1440

CFX 32231 14650 9059 5283 4413 2859 2087

다음 장부터는 본 BMT의 세부적인 작업 실행 환경과 각 CAE 해석 S/W 별 BMT 실행 과정

에 대해 정리한 내용입니다.

4/23 페이지

2. BMT 환경 정보

BMT 시스템 구성도 (Nehalem, HarperTown 공통 구성)

본 BMT에 사용된 서버 수는 총 8대(64core)로 구성되었고, Nehalem CPU 기반의 4대 서

버와 HarperTown CPU 기반의 4대 서버로 2개의 통합 해석 시스템(HPC) 환경을 구성하였

습니다. 네트워크 환경은 1Gigabit 대역폭의 두 개의 네트워크 채널을 분리하여, 파일

서비스용과 계산 서비스용으로 구성하였습니다. 사용된 서버의 자세한 사양은 아래와

같습니다.

H/W 구성 정보 (Intel® Xeon™ 5550 - Nehalem)

세부 사양 자원 수

Cpu Intel(R) Xeon(TM) CPU X5550 @ 2.67GHz 2cpu(8core)

Memory DIMM Synchronous 1333 MHz 2GByte 8개 (16Gbyte)

Hard disk HP SAS 72GByte 1개 (72Gbyte)

Network NetXtreme II BCM5709 Gigabit Ethernet 2port

nodes HP ProLiant DL380 G6 4node

H/W 구성 정보 (Intel® Xeon™ 5430 – HarperTown)

세부 사양 자원 수

Cpu Intel(R) Xeon(TM) Quad E5430 CPU 2.66GHz 2cpu(8core)

Memory DIMM Synchronous 667 MHz 2GByte 4개 (16Gbyte)

Hard disk SAS DELL 230GByte 1개 (160Gbyte)

Network BM NetXtreme II BCM5708 Gigabit Ethernet 2port

nodes Dell (PowerEdge) 4 nodes

5/23 페이지

S/W 구성 정보

S/W 명 S/W 버전

운영체제 Redhat Eenterprise Server(x86_64) Release 4 (update 8)

HPC 구축 S/W GridCenter 1.9

HPC 최적화 S/W GridCEnter-CAP 1.9

해석 S/W(1) Fluent 6.3.26

해석 S/W(2) LSDYNA Mpp971.1224

해석 S/W(3) PAM-STAMP Version 2008

해석 S/W(4) PAM-CRASH Version 2008

해석 S/W(5) ABAQUS Version 6.8.2

해석 S/W(6) CFX Version 11.0

본 BMT에 사용된 HPC 구성, 해석 작업 실행, 성능 최적화 솔루션은 ㈜클루닉스에서

개발한 GridCenter 제품 군을 이용하였고, BMT에 사용된 예제는 각 해석 S/W별

Vendor에서 제공한 BMT 예제입니다.

3. BMT 시나리오

본 BMT 진행 주요 절차는 아래와 같다.

본 BMT는 초기 구성된 HPC 환경에서 POSDATA㈜를 통해 제공 받은 예제로 기본 성능 테

스트를 시행하여, 예제에 대한 무결성 검증 및 최적 해석 실행 조건을 파악하였습니다.

그 후 각 해석 S/W 수행 환경 및 시스템 환경을 최적화하고, 아래 시나리오에 의해 테

스트를 진행하였습니다.

병렬 계산 성능 측정

- 해석 시 할당 CPU(Core)수를 단계 별로 증가시키며, 해석 실행 시간을 측정한다.

- 해석 시 할당 CPU(Core)수는 1개, 2개, 4개, 8개, 16개, 24개, 32개 순으로 증가

시킨다.

- 해석 실행 시간은 초(second) 단위로 측정한다.

6/23 페이지

각 해석 S/W 별 BMT에 사용된 실행 조건은 아래와 같습니다.

FLUENT (version 6.3.26 )

해석 작업 명령은 위의 “작업명령”과 같으며, 해석 조건은 <3d double precision>,

<Steady>, <integration=1000>으로 해석이 진행되었습니다.

LSDYNA (version mppdyna-971.1224 single precision )

해석 작업 명령은 위의 “작업명령”과 같으며, 해석 조건은 <Memory1=200000000>,

<memory2=50000000>로 해석이 진행되었습니다.

7/23 페이지

PAM-STAMP ( version 2008 )

PAM-CRASH ( version 2008 )

해석 작업 명령은 위의 “작업명령”과 같으며, 해석 조건은 <single precision>,

<DMP> 방식으로 해석이 진행되었습니다.

ABAQUS ( version 6.8.2 )

해석 작업 명령은 위의 “작업명령”과 같으며, <single precision>으로 해석이 진행되

었습니다.

CFX ( version 11.0 )

해석 명령 작업은 위의 “작업명령”과 같으며, 병렬 계산 처리에 사용된 method는

“HP MPI Distributed” 이다.

8/23 페이지

4. BMT 항목 별 성능 결과 및 세부 분석

FLUENT 성능 결과 및 세부 분석

Fluent 병렬 처리 성능 결과는 아래와 같습니다.

- Nehalem(Intel®Xeon™X5500) 결과


elapsed 4503 2066 1561 1171 601 473 380

speedup 1.0 2.2 2.9 3.8 7.5 9.5 11.9

- HarperTown(Intel®Xeon™E5430) 결과


elapsed 5969 3142 2776 1728 897 628 518

speedup 1.0 1.9 2.2 3.5 6.7 9.5 11.5

FLUENT 병렬 계산 성능(Nehalem)

0

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32number of processor

elap

sed

time

0.0

2.0

4.0

6.0

8.0

10.0

12.0

14.0

spee

dup

elapsed speedup

9/23 페이지

FLUENT 병렬 계산 성능 (HarperTown)

0

1000

2000

3000

4000

5000

6000

7000


elap

sed

time

0.0

2.0

4.0

6.0

8.0

10.0

12.0

14.0

spee

dup

elapsedspeedup

32개 core를 이용하여 Fluent 해석을 진행 했을 때, Nehalem과 HarperTown 모두 1개

core 대비 11~12배의 해석 시간 단축이 일어나는 것을 측정하였습니다. Fluent의 병렬

처리 효율은 매우 우수한 편이여서, 병렬 처리에 대한 성능 개선 효율은 어떤 CPU를 사

용한다 하더라도 일정 수준 보장 되는 것으로 확인 되었습니다. 하지만 동일 조건에서

의 해석 처리 시간에 관련된 절대적 성능은 Nehalem CPU 계열이 35%정도 우수한 것으로

측정되었습니다. 아래 결과는 Nehalem과 Harperdown의 절대 성능 비교 결과 입니다.

Nehalem vs HarperTown의 Fluent 성능 비교

0

1000

2000

3000

4000

5000

6000

7000

CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32nubmer fo processor

elap

sed

time

0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

impr

ove

(%)

NehalemHarperTdown성능향상

절대 성능 비교 결과는 Nehalem CPU 계열이 HarperTown CPU보다 25~45% 정도 우수한 걸

로 확인 되었습니다. 성능 차이가 가장 큰 지점은 4개 core를 이용한 해석 구간으로

44%의 성능 차이가 확인 되었습니다.

10/23 페이지

LSDYNA 성능 결과 및 세부 분석

LSDYNA의 병렬 처리 성능 결과는 아래와 같습니다.



elapsed 61590 44873 27701 19276 9432 7067 5211

speedup 1.0 1.4 2.2 3.2 6.5 8.7 11.8



elapsed 120450 66037 38456 29608 15793 10721 8230

speedup 1.0 1.8 3.1 4.1 7.6 11.2 14.6

LSDYNA 병렬 계산 성능(Nehalem)

0

10000

20000

30000

40000

50000

60000

70000


elap

sed

time

0.0

2.0

4.0

6.0

8.0

10.0

12.0

14.0

spee

dup

elapsed speedup

11/23 페이지

LSDYNA 병렬 계산 성능 (HarperTown)

0

20000

40000

60000

80000

100000

120000

140000


elap

sed

time

0.0

2.0

4.0

6.0

8.0

10.0

12.0

14.0

16.0

spee

dup

elapsedspeedup

LSDYNA의 병렬 처리 성능은 Fluent와 마찬가지로 매우 우수한 것으로 확인 되었습니다.

32개 core를 이용하여 해석을 진행 했을 경우 1개 core 대비 12~14배 정도의 해석 시간

단축이 확인되었습니다. 병렬 계산을 통한 성능 개선 효율을 보았을 때는 HarperTown

CPU가 조금 우수한 걸로 측정되었으나, 절대적인 성능을 비교하면 Nehalem CPU가 35%

정도 우수한 성능을 나타내는 것을 확인할 수 있었습니다.

Nehalem vs HarperTown의 LSDYNA 성능 비교

0

20000

40000

60000

80000

100000

120000

140000


elap

sed

time

0%

10%

20%

30%

40%

50%

60%

impr

ove

(%)




49%의 성능 차이가 확인 되었습니다

12/23 페이지

PAM-STAMP 성능 결과 및 세부 분석

PAM-STAMP의 병렬 처리 성능 결과는 아래와 같습니다



elapsed 22812 12872 8065 4906 4059 4774 5787

speedup 1.0 1.8 2.8 4.6 5.6 4.8 3.9



elapsed 35402 19275 10485 7711 6383 7505 8287

speedup 1.0 1.8 3.4 4.6 5.5 4.7 4.3

PAM-STAMP 병렬 계산 성능(Nehalem)

0

5000

10000

15000

20000

25000


elap

sed

time

0.0

1.0

2.0

3.0

4.0

5.0

6.0

spee

dup

elapsed speedup

13/23 페이지

PAM-STAM 병렬 계산 성능(HarperTown)

0

5000

10000

15000

20000

25000

30000

35000

40000


elap

sed

time

0.0

1.0

2.0

3.0

4.0

5.0

6.0

spee

dup

elapsedspeedup

PAM-STAMP의 병렬 처리 성능은 Nehalem과 HarperTown 모두 Fluent나 LSDYNA에 비해 성

능 개선 효율이 상대적으로 낮은 것으로 확인 되었습니다. 16개 core를 이용하여 해석

을 진행 했을 경우 1개 core 대비 5.5~5.6배의 해석 시간 단축이 확인되었고, 24core와

32core 해석에서는 처리 성능이 더 저하되는 것으로 확인 되었습니다.

Nehalem와 HarperTown 간의 병렬 계산 성능 개선 효율의 차이는 크게 없으며, 절대 성

능은 Nehalem이 30% 정도 우수한 것으로 확인 되었습니다.

Nehalem vs HarperTown의 PAMSTAMP 성능 비교

0

5000

10000

15000

20000

25000

30000

35000

40000

CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32nubmer of processor

elap

sed

time

0%

5%

10%

15%

20%

25%

30%

35%

40%

impr

ove

(%)



로 확인 되었고, 대부분의 지점에서 30~36% 정도의 성능 차이가 나는 것으로 확인되었

습니다.

14/23 페이지

PAM-CRASH 성능 결과 및 세부 분석

PAM-CRASH의 병렬 처리 성능 결과는 아래와 같습니다.



elapsed 12105 6892 4110 2652 1639 1154 1031

speedup 1.0 1.8 2.9 4.6 7.4 10.5 11.7



elapsed 20440 10942 5978 4387 2350 1732 1440

speedup 1.0 1.9 3.4 4.7 8.7 11.8 14.2

PAM-CRASH 병렬 계산 성능(Nehalem)

0

2000

4000

6000

8000

10000

12000

14000

CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32nubmer of processor

elap

sed

time

0.0

2.0

4.0

6.0

8.0

10.0

12.0

14.0

spee

dup

elapsedspeedup

15/23 페이지

PAM-CRASH 병렬 계산 성능(HarperTown)

0

5000

10000

15000

20000

25000


elap

sed

time

0.0

2.0

4.0

6.0

8.0

10.0

12.0

14.0

16.0

spee

dup

elapsedspeedup

PAM-CRASH의 병렬 처리 성능은 PAM-STAMP와는 다르게 병렬 계산 성능이 매우 우수한 것

으로 확인 되었습니다. 32개 core를 이용하여 해석을 진행 했을 경우 1개 core 대비

12~14배 정도의 해석 시간 단축이 확인되었습니다. 병렬 계산을 통한 성능 개선 효율을

보았을 때는 LSDYNA의 경우와 같이 HarperTown CPU가 우수한 걸로 측정되었으나, 절대

적인 처리 성능을 비교하면 Nehalem CPU가 35% 정도 우수한 성능을 나타내는 것을 확인

할 수 있었습니다.

Nehalem vs HarperTown의 PAM-CRASH 성능 비교

0

5000

10000

15000

20000

25000


elap

sed

time

0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

impr

ove

(%)





16/23 페이지

ABAQUS 성능 결과 및 세부 분석

ABAQUS의 병렬 처리 성능 결과는 아래와 같습니다.



elapsed 20595 11035 6333 3750 2753 2092 1584

speedup 1.0 1.9 3.3 5.5 7.5 9.8 13.0



elapsed 27384 15603 10224 7806 3700 3430 2936

speedup 1.0 1.8 2.7 3.5 7.4 8.0 9.3

ABAQUS 병렬 계산 성능(Nehalem)

0

5000

10000

15000

20000

25000


elap

sed

time

0.0

2.0

4.0

6.0

8.0

10.0

12.0

14.0

spee

dup

elapsed speedup

17/23 페이지

ABAQUS 병렬 계산 성능(HarperTown)

0

5000

10000

15000

20000

25000

30000


elap

sed

time

0.0

1.0

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

10.0

spee

dup

elapsed speedup

ABAQUS(explicit)의 병렬 처리 성능은 32개 core를 이용하여 해석을 진행 했을 경우

1개 core 대비 9~13배의 해석 시간 단축이 확인되었으며, 매우 우수한 것으로 판단됩니

다. ABAQUS의 경우 병렬 계산을 통한 성능 개선 효율을 보았을 때는 Nehalem CPU가 우

수한 걸로 측정되었으며, 절대적인 처리 성능 역시 Nehalem CPU가 36% 정도 우수한 성

능을 나타내는 것을 확인할 수 있었습니다.

Nehalem vs HarperTown의 ABAQUS 성능 비교

0

5000

10000

15000

20000

25000

30000


elap

sed

time

0%

10%

20%

30%

40%

50%

60%

impr

ove

(%)





18/23 페이지

ANSYS-CFX 성능 결과 및 세부 분석

ANSYS-CFX의 병렬 처리 성능 결과는 아래와 같습니다.



elapsed 17981 7031 5996 2863 1759 1309 1088

speedup 1.0 2.6 3.0 6.3 10.2 13.7 16.5



elapsed 32231 14650 9059 5283 4413 2859 2087

speedup 1.0 2.2 3.6 6.1 7.3 11.3 15.4

CFX 병렬 계산 성능(Nehalem)

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

20000


elap

sed

time

0.0

2.0

4.0

6.0

8.0

10.0

12.0

14.0

16.0

18.0

spee

dup

elapsed speedup

19/23 페이지

CFX 병렬 계산 성능(HarperTown)

0

5000

10000

15000

20000

25000

30000

35000


elap

sed

time

0.0

2.0

4.0

6.0

8.0

10.0

12.0

14.0

16.0

18.0

spee

dup

elapsed speedup

ANSYS-CFX의 병렬 처리 성능은 32개 core를 이용하여 해석을 진행 했을 경우, 1개 core

대비 15~16배의 해석 시간 단축 나타날 정도로 매우 우수한 것으로 확인되었습니다. 특

히 CPU=2 구간에서는 이론적인 성능 개선 보다 더 큰 성능이 일어나는 super liner

speed up 현상이 발견 되었습니다. 병렬 성능 개선 효율은 Nehalem 과 HarperTown CPU

를 비교했을 때, Nehalem CPU에서 조금 우수하게 측정 되었습니다.

Nehalem vs HarperTown의 CFX 성능 비교

0

5000

10000

15000

20000

25000

30000

35000


elap

sed

time

0%

10%

20%

30%

40%

50%

60%

70%

impr

ove

(%)


Nehalem 과 HarperTown의 절대 성능 비교 결과는 Nehalem CPU 계열이 HarperTown CPU보

다 34~60% 정도 우수한 걸로 확인 되었습니다. 성능 차이가 가장 큰 지점은 16개 core

를 이용한 해석 구간으로 60%의 성능 차이가 확인 되었습니다

20/23 페이지

5. BMT 결론

CAE 해석 S/W 중 대표적인 Solver들을 이용하여 Nehalem CPU 계열인 Intel®Xeon™

X5550 기반 서버와 HarperTown CPU 계열인 Intel®Xeon™E5430 기반 서버와의 성능을

비교한 결과, Nehalem 계열의 서버가 기존의 HarperTown 계열의 서버보다 30~60% 정도

전반적인 성능 개선이 있다는 것을 확인 할 수 있습니다.

Nehalem CPU의 경우 기존 HarperTown과 비교하여, 프로세서간의 통신 구조와 프로세서

와 메모리 간의 통신 구조가 효율적으로 대폭 개선되어, Multi Core상의 계산 효율이

매우 향상되었다는 것을 확인 할 수 있었습니다. 또한 Nehalem에서 새로 적용된 Turbo

Boost란 기술을 이용하여, 8개 core 중 일부 core만을 이용한 해석의 경우, 유휴 core

의 소비 전력을 해석 작업이 할당된 core에 집중시켜, 처리 성능이 대폭 개선되는 것을

확인하였습니다.

Nehalem CPU 출시 초기에는 Turbo Boost 기능을 운영체제에서 지원하지 않아서, 단지

Multi Core 해석 시 병렬 처리 성능 개선 효율만 대폭 향상된 것처럼 확인된 바가 있었

다. 하지만 현재 Turbo Boost 기능이 정상적으로 지원하는 운영체제에서는 병렬 처리

성능 개선 효율 보다는, 모든 형태의 작업에서 절대적 처리 성능 자체가 모두 개선되었

다는 것을 확인할 수 있었습니다. (운영 체제에서 Turbo Boost 기능이 미 지원 시 1개

core로 작업을 수행할 경우, 단순 CPU Clock이 높은 서버가 더 우수한 성능이 나타나는

것으로 확인하였습니다. 본 테스트를 통해 Turbo Boost 기능을 통한 성능 개선이 크다

는 것을 확인하였고, 적은 core를 이용한 작업에서나, 많은 core를 동시에 이용하는 작

업에서도 모두 Nehalem의 성능 개선 효과가 적용된다는 것을 확인할 수 있었습니다.)

21/23 페이지

각 S/W 별 해석 결과 후처리 화면

FLUENT 해석 예제 결과 후처리 화면

LSDYNA 해석 예제 결과 후처리 화면

22/23 페이지

PAM-STAMP 해석 예제 결과 후처리 화면

PAM-CRASH 해석 예제 결과 후처리 화면

23/23 페이지

ABAQUS 해석 예제 결과 후처리 화면

ANSYS-CFX 해석 예제 결과 후처리 화면

CAE S/W 별 통합 해석 시스템 성능 분석 결과...

Documents

Transcript of CAE S/W 별 통합 해석 시스템 성능 분석 결과...