Ansys 소개 · 2020. 6. 3. · 5 제1장|Ansys 소개 구조 해석 제품군의 활용분야 사례(Explicit) Ansys는 요소에 대한 가장 진보된 해석 알고리즘을
CAE S/W 별 통합 해석 시스템 성능 분석 결과...
Transcript of CAE S/W 별 통합 해석 시스템 성능 분석 결과...
1/23 페이지
CAE S/W 별 통합 해석 시스템
성능 분석 결과 보고서
Nehalem CPU vs HarperTown CPU 비교 분석
㈜클루닉스
본 자료는 최신 Intel Processor Architecture인 Nehalem CPU 기반에서 CAE 해석
S/W에 대한 성능 분석 보고서 입니다. ㈜클루닉스의 통합 해석 시스템 구성 제품
인 GridCenter-CAP을 이용하여 테스트 되었으며, ㈜클루닉스의 허가 없이 복사나
배포를 금지합니다.
BMT 환경: GridCenter-CAP, GridCenter-HPC
BMT S/W : LS-DYNA, Fluent, Pam-stamp, Pam-crash, Abaqus, Ansys-CFX
BMT 진행 : ㈜클루닉스
BMT 일자 : 2009년 07월 17일~2009년 07월 26일
시스템 구축 및 최적화: ㈜클루닉스 / 서진우 수석([email protected])
CAE 어플리케이션 구축 및 최적화: ㈜클루닉스 / 서진우 수석([email protected])
2/23 페이지
목차
1. BMT 요약
2. BMT 환경 정보
3. BMT 시나리오 소개
4. BMT 항목 별 결과 및 세부 분석
5. BMT 결론
첨부 > 해석 결과 후처리 화면 Snapshot
3/23 페이지
1. BMT 요약
본 BMT는 최신 Intel Processor Architecture인 Nehalem CPU계열 Intel® Xeon™ X55xx
서버와 기존에 보편적으로 사용되어왔던 Intel® Xeon™ E54xx 서버와의 CAE 해석 S/W
의 병렬 계산 성능을 비교 분석한 자료입니다.
본 BMT를 통해 Nehalem 기반의 CPU로 구성된 통합 해석 시스템(HPC)이 HarperTown 기반
의 CPU로 구성된 통합 해석 시스템(HPC) 보다 30%~60% 정도 우수한 해석 처리 성능을
나타내는 걸로 확인되었습니다.
병렬 계산 성능 결과 (Intel® Xeon™ 5550 - Nehalem)
측정 단위 : 초(second)
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32
FLUENT 4503 2066 1561 1171 601 473 380
LSDYNA 61590 44873 27701 19276 9432 7067 5211
PAMSTAMP 22812 12872 8065 4906 4059 4774 5787
ABAQUS 20595 11035 6333 3750 2753 2092 1584
PAMCRASH 12105 6892 4110 2652 1639 1154 1031
CFX 17981 7031 5996 2863 1759 1309 1088
병렬 계산 성능 결과 (Intel® Xeon™ 5430 – HarperTown)
측정 단위 : 초(second)
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32
FLUENT 5969 3142 2776 1728 897 628 518
LSDYNA 120450 66037 38456 29608 15793 10721 8230
PAMSTAMP 35402 19275 10485 7711 6383 7505 8287
ABAQUS 27384 15603 10224 7806 3700 3430 2936
PAMCRASH 20440 10942 5978 4387 2350 1732 1440
CFX 32231 14650 9059 5283 4413 2859 2087
다음 장부터는 본 BMT의 세부적인 작업 실행 환경과 각 CAE 해석 S/W 별 BMT 실행 과정
에 대해 정리한 내용입니다.
4/23 페이지
2. BMT 환경 정보
BMT 시스템 구성도 (Nehalem, HarperTown 공통 구성)
본 BMT에 사용된 서버 수는 총 8대(64core)로 구성되었고, Nehalem CPU 기반의 4대 서
버와 HarperTown CPU 기반의 4대 서버로 2개의 통합 해석 시스템(HPC) 환경을 구성하였
습니다. 네트워크 환경은 1Gigabit 대역폭의 두 개의 네트워크 채널을 분리하여, 파일
서비스용과 계산 서비스용으로 구성하였습니다. 사용된 서버의 자세한 사양은 아래와
같습니다.
H/W 구성 정보 (Intel® Xeon™ 5550 - Nehalem)
세부 사양 자원 수
Cpu Intel(R) Xeon(TM) CPU X5550 @ 2.67GHz 2cpu(8core)
Memory DIMM Synchronous 1333 MHz 2GByte 8개 (16Gbyte)
Hard disk HP SAS 72GByte 1개 (72Gbyte)
Network NetXtreme II BCM5709 Gigabit Ethernet 2port
nodes HP ProLiant DL380 G6 4node
H/W 구성 정보 (Intel® Xeon™ 5430 – HarperTown)
세부 사양 자원 수
Cpu Intel(R) Xeon(TM) Quad E5430 CPU 2.66GHz 2cpu(8core)
Memory DIMM Synchronous 667 MHz 2GByte 4개 (16Gbyte)
Hard disk SAS DELL 230GByte 1개 (160Gbyte)
Network BM NetXtreme II BCM5708 Gigabit Ethernet 2port
nodes Dell (PowerEdge) 4 nodes
5/23 페이지
S/W 구성 정보
S/W 명 S/W 버전
운영체제 Redhat Eenterprise Server(x86_64) Release 4 (update 8)
HPC 구축 S/W GridCenter 1.9
HPC 최적화 S/W GridCEnter-CAP 1.9
해석 S/W(1) Fluent 6.3.26
해석 S/W(2) LSDYNA Mpp971.1224
해석 S/W(3) PAM-STAMP Version 2008
해석 S/W(4) PAM-CRASH Version 2008
해석 S/W(5) ABAQUS Version 6.8.2
해석 S/W(6) CFX Version 11.0
본 BMT에 사용된 HPC 구성, 해석 작업 실행, 성능 최적화 솔루션은 ㈜클루닉스에서
개발한 GridCenter 제품 군을 이용하였고, BMT에 사용된 예제는 각 해석 S/W별
Vendor에서 제공한 BMT 예제입니다.
3. BMT 시나리오
본 BMT 진행 주요 절차는 아래와 같다.
본 BMT는 초기 구성된 HPC 환경에서 POSDATA㈜를 통해 제공 받은 예제로 기본 성능 테
스트를 시행하여, 예제에 대한 무결성 검증 및 최적 해석 실행 조건을 파악하였습니다.
그 후 각 해석 S/W 수행 환경 및 시스템 환경을 최적화하고, 아래 시나리오에 의해 테
스트를 진행하였습니다.
병렬 계산 성능 측정
- 해석 시 할당 CPU(Core)수를 단계 별로 증가시키며, 해석 실행 시간을 측정한다.
- 해석 시 할당 CPU(Core)수는 1개, 2개, 4개, 8개, 16개, 24개, 32개 순으로 증가
시킨다.
- 해석 실행 시간은 초(second) 단위로 측정한다.
6/23 페이지
각 해석 S/W 별 BMT에 사용된 실행 조건은 아래와 같습니다.
FLUENT (version 6.3.26 )
해석 작업 명령은 위의 “작업명령”과 같으며, 해석 조건은 <3d double precision>,
<Steady>, <integration=1000>으로 해석이 진행되었습니다.
LSDYNA (version mppdyna-971.1224 single precision )
해석 작업 명령은 위의 “작업명령”과 같으며, 해석 조건은 <Memory1=200000000>,
<memory2=50000000>로 해석이 진행되었습니다.
7/23 페이지
PAM-STAMP ( version 2008 )
PAM-CRASH ( version 2008 )
해석 작업 명령은 위의 “작업명령”과 같으며, 해석 조건은 <single precision>,
<DMP> 방식으로 해석이 진행되었습니다.
ABAQUS ( version 6.8.2 )
해석 작업 명령은 위의 “작업명령”과 같으며, <single precision>으로 해석이 진행되
었습니다.
CFX ( version 11.0 )
해석 명령 작업은 위의 “작업명령”과 같으며, 병렬 계산 처리에 사용된 method는
“HP MPI Distributed” 이다.
8/23 페이지
4. BMT 항목 별 성능 결과 및 세부 분석
FLUENT 성능 결과 및 세부 분석
Fluent 병렬 처리 성능 결과는 아래와 같습니다.
- Nehalem(Intel®Xeon™X5500) 결과
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32
elapsed 4503 2066 1561 1171 601 473 380
speedup 1.0 2.2 2.9 3.8 7.5 9.5 11.9
- HarperTown(Intel®Xeon™E5430) 결과
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32
elapsed 5969 3142 2776 1728 897 628 518
speedup 1.0 1.9 2.2 3.5 6.7 9.5 11.5
FLUENT 병렬 계산 성능(Nehalem)
0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32number of processor
elap
sed
time
0.0
2.0
4.0
6.0
8.0
10.0
12.0
14.0
spee
dup
elapsed speedup
9/23 페이지
FLUENT 병렬 계산 성능 (HarperTown)
0
1000
2000
3000
4000
5000
6000
7000
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32number of processor
elap
sed
time
0.0
2.0
4.0
6.0
8.0
10.0
12.0
14.0
spee
dup
elapsedspeedup
32개 core를 이용하여 Fluent 해석을 진행 했을 때, Nehalem과 HarperTown 모두 1개
core 대비 11~12배의 해석 시간 단축이 일어나는 것을 측정하였습니다. Fluent의 병렬
처리 효율은 매우 우수한 편이여서, 병렬 처리에 대한 성능 개선 효율은 어떤 CPU를 사
용한다 하더라도 일정 수준 보장 되는 것으로 확인 되었습니다. 하지만 동일 조건에서
의 해석 처리 시간에 관련된 절대적 성능은 Nehalem CPU 계열이 35%정도 우수한 것으로
측정되었습니다. 아래 결과는 Nehalem과 Harperdown의 절대 성능 비교 결과 입니다.
Nehalem vs HarperTown의 Fluent 성능 비교
0
1000
2000
3000
4000
5000
6000
7000
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32nubmer fo processor
elap
sed
time
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
impr
ove
(%)
NehalemHarperTdown성능향상
절대 성능 비교 결과는 Nehalem CPU 계열이 HarperTown CPU보다 25~45% 정도 우수한 걸
로 확인 되었습니다. 성능 차이가 가장 큰 지점은 4개 core를 이용한 해석 구간으로
44%의 성능 차이가 확인 되었습니다.
10/23 페이지
LSDYNA 성능 결과 및 세부 분석
LSDYNA의 병렬 처리 성능 결과는 아래와 같습니다.
- Nehalem(Intel®Xeon™X5500) 결과
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32
elapsed 61590 44873 27701 19276 9432 7067 5211
speedup 1.0 1.4 2.2 3.2 6.5 8.7 11.8
- HarperTown(Intel®Xeon™E5430) 결과
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32
elapsed 120450 66037 38456 29608 15793 10721 8230
speedup 1.0 1.8 3.1 4.1 7.6 11.2 14.6
LSDYNA 병렬 계산 성능(Nehalem)
0
10000
20000
30000
40000
50000
60000
70000
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32number of processor
elap
sed
time
0.0
2.0
4.0
6.0
8.0
10.0
12.0
14.0
spee
dup
elapsed speedup
11/23 페이지
LSDYNA 병렬 계산 성능 (HarperTown)
0
20000
40000
60000
80000
100000
120000
140000
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32number of processor
elap
sed
time
0.0
2.0
4.0
6.0
8.0
10.0
12.0
14.0
16.0
spee
dup
elapsedspeedup
LSDYNA의 병렬 처리 성능은 Fluent와 마찬가지로 매우 우수한 것으로 확인 되었습니다.
32개 core를 이용하여 해석을 진행 했을 경우 1개 core 대비 12~14배 정도의 해석 시간
단축이 확인되었습니다. 병렬 계산을 통한 성능 개선 효율을 보았을 때는 HarperTown
CPU가 조금 우수한 걸로 측정되었으나, 절대적인 성능을 비교하면 Nehalem CPU가 35%
정도 우수한 성능을 나타내는 것을 확인할 수 있었습니다.
Nehalem vs HarperTown의 LSDYNA 성능 비교
0
20000
40000
60000
80000
100000
120000
140000
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32number of processor
elap
sed
time
0%
10%
20%
30%
40%
50%
60%
impr
ove
(%)
NehalemHarperTdown성능향상
절대 성능 비교 결과는 Nehalem CPU 계열이 HarperTown CPU보다 28~49% 정도 우수한 걸
로 확인 되었습니다. 성능 차이가 가장 큰 지점은 1개 core를 이용한 해석 구간으로
49%의 성능 차이가 확인 되었습니다
12/23 페이지
PAM-STAMP 성능 결과 및 세부 분석
PAM-STAMP의 병렬 처리 성능 결과는 아래와 같습니다
- Nehalem(Intel®Xeon™X5500) 결과
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32
elapsed 22812 12872 8065 4906 4059 4774 5787
speedup 1.0 1.8 2.8 4.6 5.6 4.8 3.9
- HarperTown(Intel®Xeon™E5430) 결과
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32
elapsed 35402 19275 10485 7711 6383 7505 8287
speedup 1.0 1.8 3.4 4.6 5.5 4.7 4.3
PAM-STAMP 병렬 계산 성능(Nehalem)
0
5000
10000
15000
20000
25000
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32number of processor
elap
sed
time
0.0
1.0
2.0
3.0
4.0
5.0
6.0
spee
dup
elapsed speedup
13/23 페이지
PAM-STAM 병렬 계산 성능(HarperTown)
0
5000
10000
15000
20000
25000
30000
35000
40000
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32number of processor
elap
sed
time
0.0
1.0
2.0
3.0
4.0
5.0
6.0
spee
dup
elapsedspeedup
PAM-STAMP의 병렬 처리 성능은 Nehalem과 HarperTown 모두 Fluent나 LSDYNA에 비해 성
능 개선 효율이 상대적으로 낮은 것으로 확인 되었습니다. 16개 core를 이용하여 해석
을 진행 했을 경우 1개 core 대비 5.5~5.6배의 해석 시간 단축이 확인되었고, 24core와
32core 해석에서는 처리 성능이 더 저하되는 것으로 확인 되었습니다.
Nehalem와 HarperTown 간의 병렬 계산 성능 개선 효율의 차이는 크게 없으며, 절대 성
능은 Nehalem이 30% 정도 우수한 것으로 확인 되었습니다.
Nehalem vs HarperTown의 PAMSTAMP 성능 비교
0
5000
10000
15000
20000
25000
30000
35000
40000
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32nubmer of processor
elap
sed
time
0%
5%
10%
15%
20%
25%
30%
35%
40%
impr
ove
(%)
NehalemHarperTdown성능향상
절대 성능 비교 결과는 Nehalem CPU 계열이 HarperTown CPU보다 23~36% 정도 우수한 걸
로 확인 되었고, 대부분의 지점에서 30~36% 정도의 성능 차이가 나는 것으로 확인되었
습니다.
14/23 페이지
PAM-CRASH 성능 결과 및 세부 분석
PAM-CRASH의 병렬 처리 성능 결과는 아래와 같습니다.
- Nehalem(Intel®Xeon™X5500) 결과
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32
elapsed 12105 6892 4110 2652 1639 1154 1031
speedup 1.0 1.8 2.9 4.6 7.4 10.5 11.7
- HarperTown(Intel®Xeon™E5430) 결과
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32
elapsed 20440 10942 5978 4387 2350 1732 1440
speedup 1.0 1.9 3.4 4.7 8.7 11.8 14.2
PAM-CRASH 병렬 계산 성능(Nehalem)
0
2000
4000
6000
8000
10000
12000
14000
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32nubmer of processor
elap
sed
time
0.0
2.0
4.0
6.0
8.0
10.0
12.0
14.0
spee
dup
elapsedspeedup
15/23 페이지
PAM-CRASH 병렬 계산 성능(HarperTown)
0
5000
10000
15000
20000
25000
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32number of processor
elap
sed
time
0.0
2.0
4.0
6.0
8.0
10.0
12.0
14.0
16.0
spee
dup
elapsedspeedup
PAM-CRASH의 병렬 처리 성능은 PAM-STAMP와는 다르게 병렬 계산 성능이 매우 우수한 것
으로 확인 되었습니다. 32개 core를 이용하여 해석을 진행 했을 경우 1개 core 대비
12~14배 정도의 해석 시간 단축이 확인되었습니다. 병렬 계산을 통한 성능 개선 효율을
보았을 때는 LSDYNA의 경우와 같이 HarperTown CPU가 우수한 걸로 측정되었으나, 절대
적인 처리 성능을 비교하면 Nehalem CPU가 35% 정도 우수한 성능을 나타내는 것을 확인
할 수 있었습니다.
Nehalem vs HarperTown의 PAM-CRASH 성능 비교
0
5000
10000
15000
20000
25000
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32number of processor
elap
sed
time
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
impr
ove
(%)
NehalemHarperTdown성능향상
절대 성능 비교 결과는 Nehalem CPU 계열이 HarperTown CPU보다 28~41% 정도 우수한 걸
로 확인 되었습니다. 성능 차이가 가장 큰 지점은 1개 core를 이용한 해석 구간으로
41%의 성능 차이가 확인 되었습니다
16/23 페이지
ABAQUS 성능 결과 및 세부 분석
ABAQUS의 병렬 처리 성능 결과는 아래와 같습니다.
- Nehalem(Intel®Xeon™X5500) 결과
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32
elapsed 20595 11035 6333 3750 2753 2092 1584
speedup 1.0 1.9 3.3 5.5 7.5 9.8 13.0
- HarperTown(Intel®Xeon™E5430) 결과
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32
elapsed 27384 15603 10224 7806 3700 3430 2936
speedup 1.0 1.8 2.7 3.5 7.4 8.0 9.3
ABAQUS 병렬 계산 성능(Nehalem)
0
5000
10000
15000
20000
25000
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32number of processor
elap
sed
time
0.0
2.0
4.0
6.0
8.0
10.0
12.0
14.0
spee
dup
elapsed speedup
17/23 페이지
ABAQUS 병렬 계산 성능(HarperTown)
0
5000
10000
15000
20000
25000
30000
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32number of processor
elap
sed
time
0.0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
9.0
10.0
spee
dup
elapsed speedup
ABAQUS(explicit)의 병렬 처리 성능은 32개 core를 이용하여 해석을 진행 했을 경우
1개 core 대비 9~13배의 해석 시간 단축이 확인되었으며, 매우 우수한 것으로 판단됩니
다. ABAQUS의 경우 병렬 계산을 통한 성능 개선 효율을 보았을 때는 Nehalem CPU가 우
수한 걸로 측정되었으며, 절대적인 처리 성능 역시 Nehalem CPU가 36% 정도 우수한 성
능을 나타내는 것을 확인할 수 있었습니다.
Nehalem vs HarperTown의 ABAQUS 성능 비교
0
5000
10000
15000
20000
25000
30000
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32number of processor
elap
sed
time
0%
10%
20%
30%
40%
50%
60%
impr
ove
(%)
NehalemHarperTdown성능향상
절대 성능 비교 결과는 Nehalem CPU 계열이 HarperTown CPU보다 25~52% 정도 우수한 걸
로 확인 되었습니다. 성능 차이가 가장 큰 지점은 8개 core를 이용한 해석 구간으로
52%의 성능 차이가 확인 되었습니다
18/23 페이지
ANSYS-CFX 성능 결과 및 세부 분석
ANSYS-CFX의 병렬 처리 성능 결과는 아래와 같습니다.
- Nehalem(Intel®Xeon™X5500) 결과
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32
elapsed 17981 7031 5996 2863 1759 1309 1088
speedup 1.0 2.6 3.0 6.3 10.2 13.7 16.5
- HarperTown(Intel®Xeon™E5430) 결과
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32
elapsed 32231 14650 9059 5283 4413 2859 2087
speedup 1.0 2.2 3.6 6.1 7.3 11.3 15.4
CFX 병렬 계산 성능(Nehalem)
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
20000
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32number of processor
elap
sed
time
0.0
2.0
4.0
6.0
8.0
10.0
12.0
14.0
16.0
18.0
spee
dup
elapsed speedup
19/23 페이지
CFX 병렬 계산 성능(HarperTown)
0
5000
10000
15000
20000
25000
30000
35000
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32number of processor
elap
sed
time
0.0
2.0
4.0
6.0
8.0
10.0
12.0
14.0
16.0
18.0
spee
dup
elapsed speedup
ANSYS-CFX의 병렬 처리 성능은 32개 core를 이용하여 해석을 진행 했을 경우, 1개 core
대비 15~16배의 해석 시간 단축 나타날 정도로 매우 우수한 것으로 확인되었습니다. 특
히 CPU=2 구간에서는 이론적인 성능 개선 보다 더 큰 성능이 일어나는 super liner
speed up 현상이 발견 되었습니다. 병렬 성능 개선 효율은 Nehalem 과 HarperTown CPU
를 비교했을 때, Nehalem CPU에서 조금 우수하게 측정 되었습니다.
Nehalem vs HarperTown의 CFX 성능 비교
0
5000
10000
15000
20000
25000
30000
35000
CPU=1 CPU=2 CPU=4 CPU=8 CPU=16 CPU=24 CPU=32number of processor
elap
sed
time
0%
10%
20%
30%
40%
50%
60%
70%
impr
ove
(%)
NehalemHarperTdown성능향상
Nehalem 과 HarperTown의 절대 성능 비교 결과는 Nehalem CPU 계열이 HarperTown CPU보
다 34~60% 정도 우수한 걸로 확인 되었습니다. 성능 차이가 가장 큰 지점은 16개 core
를 이용한 해석 구간으로 60%의 성능 차이가 확인 되었습니다
20/23 페이지
5. BMT 결론
CAE 해석 S/W 중 대표적인 Solver들을 이용하여 Nehalem CPU 계열인 Intel®Xeon™
X5550 기반 서버와 HarperTown CPU 계열인 Intel®Xeon™E5430 기반 서버와의 성능을
비교한 결과, Nehalem 계열의 서버가 기존의 HarperTown 계열의 서버보다 30~60% 정도
전반적인 성능 개선이 있다는 것을 확인 할 수 있습니다.
Nehalem CPU의 경우 기존 HarperTown과 비교하여, 프로세서간의 통신 구조와 프로세서
와 메모리 간의 통신 구조가 효율적으로 대폭 개선되어, Multi Core상의 계산 효율이
매우 향상되었다는 것을 확인 할 수 있었습니다. 또한 Nehalem에서 새로 적용된 Turbo
Boost란 기술을 이용하여, 8개 core 중 일부 core만을 이용한 해석의 경우, 유휴 core
의 소비 전력을 해석 작업이 할당된 core에 집중시켜, 처리 성능이 대폭 개선되는 것을
확인하였습니다.
Nehalem CPU 출시 초기에는 Turbo Boost 기능을 운영체제에서 지원하지 않아서, 단지
Multi Core 해석 시 병렬 처리 성능 개선 효율만 대폭 향상된 것처럼 확인된 바가 있었
다. 하지만 현재 Turbo Boost 기능이 정상적으로 지원하는 운영체제에서는 병렬 처리
성능 개선 효율 보다는, 모든 형태의 작업에서 절대적 처리 성능 자체가 모두 개선되었
다는 것을 확인할 수 있었습니다. (운영 체제에서 Turbo Boost 기능이 미 지원 시 1개
core로 작업을 수행할 경우, 단순 CPU Clock이 높은 서버가 더 우수한 성능이 나타나는
것으로 확인하였습니다. 본 테스트를 통해 Turbo Boost 기능을 통한 성능 개선이 크다
는 것을 확인하였고, 적은 core를 이용한 작업에서나, 많은 core를 동시에 이용하는 작
업에서도 모두 Nehalem의 성능 개선 효과가 적용된다는 것을 확인할 수 있었습니다.)
21/23 페이지
각 S/W 별 해석 결과 후처리 화면
FLUENT 해석 예제 결과 후처리 화면
LSDYNA 해석 예제 결과 후처리 화면
22/23 페이지
PAM-STAMP 해석 예제 결과 후처리 화면
PAM-CRASH 해석 예제 결과 후처리 화면
23/23 페이지
ABAQUS 해석 예제 결과 후처리 화면
ANSYS-CFX 해석 예제 결과 후처리 화면