isac-cpu.com · Web view1) Control Flow: HW IP에서는 공통된 동작의 집합체에...

11
Exascale 프프프프 프프 프프 프 프프 삼삼삼삼삼삼삼 삼삼삼 삼삼 I. Trend 1971 삼 삼삼 삼삼삼삼 i4004 삼 삼삼삼 삼삼삼삼삼삼삼삼 삼삼삼 삼삼삼삼 삼삼삼 IT 삼삼삼 삼삼 BT, NT 삼삼 삼삼삼 삼삼삼삼삼 삼삼삼. PC 삼 Internet 삼 삼삼삼 2010 삼삼삼삼 삼 1 삼 IT 삼삼 삼삼삼삼 삼삼삼삼삼, 삼삼 1 삼삼삼 삼삼 HW 삼 SW 삼삼삼삼 삼삼삼삼 삼삼삼 삼 삼삼 삼 2 삼 IT 삼삼 삼삼삼 삼삼삼 삼 삼삼삼. <삼삼 1> 삼 2 삼 IT 삼삼 삼삼 삼삼삼 1960 삼삼삼삼 삼삼삼삼 50 삼삼삼 HW 삼 IT 삼삼삼 삼삼 삼 삼삼삼, 2010 삼삼 삼삼삼삼 Apple, Google 삼삼 삼삼 SW, Contents NW 삼삼삼 삼삼삼 IT 삼삼 삼삼삼, 삼삼삼 삼삼삼삼삼 삼삼 삼삼삼삼 삼삼삼 삼삼삼 삼 2 삼 IT 삼삼 삼삼삼 삼삼삼삼 삼삼 삼삼 삼삼삼삼. 삼삼삼 삼삼 삼삼 2삼 IT 삼삼 삼삼삼 삼삼삼삼 삼 삼삼 삼1삼 삼삼 삼삼삼삼삼삼삼삼삼 삼삼 40 삼삼 삼 3 삼삼(3x10 16 ) 삼삼삼 삼삼삼삼. <삼 1> 삼삼삼삼삼삼삼삼 삼삼 삼삼 삼삼삼 삼삼삼 삼삼 삼삼삼 삼삼삼 삼삼삼삼 삼삼삼 4000 삼, 삼삼삼삼 36 삼삼 삼삼삼삼삼, 삼삼삼 삼삼삼 삼삼 삼삼 삼삼삼삼 IPC (Instructions Per Clock)삼 400 삼 삼삼, 삼삼 TR 삼 삼삼 삼삼삼 5 삼삼 삼삼삼 삼삼 삼삼삼삼 삼삼/(삼삼 x 삼삼삼삼)삼 FoM (Fig- ure of Merit)삼 삼삼 삼삼 삼삼 삼삼삼 삼삼 삼삼 40 삼삼 삼 3 삼삼 (3x10 16 )삼 삼삼, 삼삼 2.58 삼삼 삼삼 삼삼 삼 삼삼삼삼. 삼삼삼삼삼삼삼삼삼 삼삼 2 삼 삼삼 삼삼 8.2% 삼삼 2% 삼삼삼 삼삼삼 삼삼 삼삼삼 삼삼 삼삼 삼삼삼. <삼삼 2> 삼삼삼삼삼삼삼삼 삼삼 삼삼 삼삼 삼삼삼 삼삼 2 삼삼 삼삼삼삼 삼삼 삼삼 2005 삼삼 삼삼삼삼 삼삼 삼삼삼삼삼 삼삼 삼삼삼삼 3GHz 삼삼삼삼 삼 삼삼 삼삼삼삼 삼삼삼 삼삼삼 삼삼삼 45nnm 삼삼 삼삼삼삼삼삼 삼삼삼 OCV(On Chip Variation) 삼삼 control 삼 삼삼삼 삼삼-삼삼 삼삼삼삼 삼삼삼 삼삼삼삼삼, 삼 삼 삼삼삼삼삼 삼삼삼삼 fan cooling 삼삼삼 200W 삼 삼삼삼삼 삼삼 삼삼삼삼 삼삼삼 삼삼 삼삼삼 삼삼삼삼삼, 삼삼삼삼삼 삼삼삼 삼삼삼 삼삼삼 삼삼삼 삼삼삼삼 Multi- Many Core 삼 삼삼 삼삼삼 삼삼삼삼삼 삼삼삼삼삼삼 삼삼삼 삼삼삼삼삼 삼삼삼삼. 삼삼 40 삼삼 2D 삼삼삼삼삼삼삼 삼삼삼 nm 삼삼삼 삼삼삼삼 random dopant fluctuation 삼 삼삼 삼삼삼 삼삼삼삼삼 leakage 삼삼삼 삼삼, Vth 삼 삼삼 삼 삼삼 삼삼, 삼삼 삼삼삼 2000 삼삼 삼삼 삼 삼 1V 삼삼삼 삼삼삼 삼삼, 삼삼삼삼 삼삼삼 삼삼 삼삼삼 삼삼삼 삼삼삼 삼삼삼삼삼. 2011 삼 5삼 삼삼삼 3D 삼삼삼 FD (Fully Depleted) Trigate 삼 삼삼, 22nm Ivy Bridge CPU 삼삼삼 삼삼 삼삼삼 삼삼삼삼 삼삼삼삼삼 삼삼삼삼삼. 삼삼삼 3D 삼삼삼 Si 삼삼삼 삼삼 삼삼삼 삼삼 삼삼삼 Vth 삼삼 삼삼삼 삼삼 2D삼 삼삼삼 random dopant fluctuation 삼삼 삼삼삼삼 삼 삼삼 삼 1 st IT Revolution [PC & Internet]

Transcript of isac-cpu.com · Web view1) Control Flow: HW IP에서는 공통된 동작의 집합체에...

Page 1: isac-cpu.com · Web view1) Control Flow: HW IP에서는 공통된 동작의 집합체에 해당되는 instruction 개념 없이 설계자 의도에 따라 수많은 동시 처리

Exascale 프로세서 기술 분석 및 전망

삼성종합기술원 박성배 상무

I. Trend

1971 년 미국 인텔사의 i4004 로 시작된 마이크로프로세서 혁명이 없었다면 현재의 IT 산업은 물론 BT, NT 산업 발전도 불가능했을 것이다. PC 와 Internet 이 주도한 2010년까지를 제 1 차 IT 산업 혁명이라 구분한다면, 그림 1 에서와 같이 HW 와 SW 복잡도가 역전되는 변곡점 이 후가 제 2 차 IT 산업 혁명의 시기가 될 것이다.

<그림 1> 제 2 차 IT 산업 혁명 변곡점

1960 년대부터 현재까지 50 여년간 HW 가 IT 산업을 주도 해 왔다면, 2010 년을 정점으로Apple, Google 등과 같은 SW, Contents NW 중심의 혁신적 IT 사업 모델이, 매출과 수익면에서 기존 업체들과 격차를 벌이며 제 2차 IT 산업 혁명을 선도하고 있는 것이 사실이다. 그러나 이와 같은 2 차 IT 산업 혁명이 가능하게 된 것은 표 1 과 같이 마이크로프로세서가 지난 40 년간 총 3 경배(3x1016) 혁신된 덕분이다.

<표 1> 마이크로프로세서 기술 혁신

이것은 반도체 구현 기술의 비약적 발전으로 속도는 4000 배, 집적도는 36 만배 개선되었고, 고성능 컴퓨터 구조 기술 적용으로 IPC (Instructions Per Clock)의 400 배 향상, 단위 TR 당 전력 소모가 5 만배 개선된 것을 종합하면 성능/(가격 x 전력소모)의 FoM (Fig- ure of Merit)이 인류 도구 개발 역사상 가장 빠른 40년간 총 3 경배 (3x1016)를 기록, 매년 2.58 배씩 개선 되어 온 결과이다. 마이크로프로세서는 그림 2 와 같이 매달 8.2% 매주 2% 개선의 경이적 기술 혁명이 계속 진행 중이다.

<그림 2> 마이크로프로세서 기술 발전 추세

[Source: IBM]

InflectionPoint

1st IT Revolution [PC & Internet]

Page 2: isac-cpu.com · Web view1) Control Flow: HW IP에서는 공통된 동작의 집합체에 해당되는 instruction 개념 없이 설계자 의도에 따라 수많은 동시 처리

그러나 그림 2 에서 보여주는 바와 같이 2005년을 전후하여 단일 프로세서의 동작 주파수가 GHz 내외에서 더 이상 개선되지 못하고 있는데 이것은 45nnm 이하 디바이스에서 회로간 OCV(On Chip Variation) 산포 control 의 한계로 속도-수율 생산성이 극한에 도달했으며, 칩 당 전력소모가 팩키지의 fan cooling 한도인 200W 로 도달하며 동작 주파수를 높이는 회로 복잡도 증가보다는, 상대적으로 단순한 저전력 복수개 코어를 내장하여 Multi-Many Core 를 통해 성능을 지속적으로 개선해나가는 대안이 구축되었기 때문이다.

지난 40 년간 2D 디바이스에서는 크기가 nm 단위로 줄어들며 random dopant fluctuation등 산포 조절의 어려움으로 leakage 전류가 급증, Vth 를 높일 수 밖에 없어, 동작 전압이 2000 년대 초반 이 후 1V 대에서 고정된 것이, 주파수를 높이며 전력 소모를 낮추는 실질적 장벽이었다. 2011 년 5 월 인텔은 3D 구조인 FD (Fully Depleted) Trigate 를 적용, 22nm Ivy Bridge CPU 개발을 통해 저전압 고속화에 성공했다고 발표하였다. 그러나 3D 구조는 Si 두께와 높이 균일성 확보 문제로 Vth 산포 조절이 기존 2D 의 한계인 random dopant fluctuation 대비 난이도가 더 높을 수 있어 양산 여부가 주목된다. 인텔 발표대로 2011 년 하반기 양산에 성공할 경우 동작 전압을 1V 에서 0.5V 이하로 낮추는 초고속 초저전력 DLV (Deep Low Voltage) 설계 기술이 본격화 될 것이며, 2012 년 이 후에는 3D 트랜지스터를 중심으로한 새로운 속도-수율-성능 경쟁이 펼쳐질 것으로 예상된다.

Multi-Many Core 부문에서는 단일 칩내 병렬성을 극대화하는 기술로 1980 년대 유럽을 중심으로 활발하게 연구되었던 수십만개 코어를 수퍼컴퓨팅에 활용하는 MPP(Massively P-arallel Processing) 기술이 재조명 되고 있다. Moore 의 법칙에 따라 18 개월에 2 배씩 집적도를 높여 온 반도체 기술을 최대한 활용하여, 그림 3 과 같이 수익성의 경계선 크기인 1cm x 1cm 의 칩위에 2014 년이 되면 3GHz 1 백만개의 32 비트 ALU 를 집적하여 3 POPS (Peta Operations Per Second) 연산이 가능해진다. 2018 년 4M ALU 를 거쳐, 2020 년 12GHz 8M ALU 에 이르면 0.1 EOPS (Exa Operation Per Second)에 근접하여, 반도체 컴퓨터 설계자들의 궁극의 목표인 SW Centric 단일 칩 수퍼컴퓨팅을 지향하는 Exascale 프로세서가 등장하게 될 것이다. 이 기술 혁신은

그림 4 에 보인 바와 같이 완전히 새로운 파라다임의 Smart SoC 시장을 형성하게 될 것으로 예상된다.

<그림 3> 1cm x 1cm 칩내 32 비트 ALU 개수

2M

4M

8M

1M

32-Bit ALUs

1.2K Gates/32-Bit ALU@ 100mm2 SoC

Page 3: isac-cpu.com · Web view1) Control Flow: HW IP에서는 공통된 동작의 집합체에 해당되는 instruction 개념 없이 설계자 의도에 따라 수많은 동시 처리

<그림 4> Exascale 프로세서 기반의 차세대 Smart SoC 시장 전망현재 PC 와 Server 시장을 독점하고 있는 Intel x86 CPU 가 1980 년 IBM PC 에 채택되면서, 현재까지 독점적 시장을 확보하고 있는것은 IBM 호환 PC 의 표준화에 기반을 둔 수십만개의 IHV (Independent HW Vendor) 및 ISV (Independent SW Vendor) infra 내에서 자발적으로 형성된 대규모 시장 경제에 기인한 저가 고성능 효과 덕분이다. CPU 와 OS 를 독점하고 있는 Intel 및 Microsoft 역시 지난 수십년간 x86 CPU 의 여러가지 성능상 제약을 벗어나기위해 i860, Itanium 등 고성능 RISC CPU 개발 및 포팅등을 시도 해 왔으나, 수백조달러가 기투자된 x86 호환 시장의 독점적 지배력때문에 PC 및 인터넷 시장 발전에 끌려온 것이 현실이다. IBM, Sun, DEC 등 압도적 성능의 RISC 프로세서들이 후발 주자로서 서버 시장에 등장했었으나 거의 대부분 사라진 상태이며, RISC 프로세서로는 유일하게 ARM CPU 가, 고성능 프로세서 대비 단순 구조로 성능은 크게 열세였으나, 상대적으로 전력 소모가 작은 장점을 최대한 활용하여 2000 년 Nokia cell phone 에 채택됨으로 현재의 ARM 기반 Mobile/Consumer SoC 시장이 PC CPU의 2 배로 성장한 것은 아이러니한 결과이다. Intel 은 최근 자사의 22nm 공정 기술을 Ach-ronix FPGA 회사에 제공하는 것과 함께, reconfigurable computing platform 용 MPP core 를 내장한 P4 (Power, Price, Perfor- mance, Programmability) 혁신 프로세서를

발표하며[1] Exascale 시대를 준비하고 있다.

프로세서의 전력 소모는 90 년대 중반까지 40W 대였으나 삼성전자가 1998 년 세계 최초로 1GHz Alpha CPU 를 발표 후, 300MHz 대에 머물러있던 동작 주파수가 급격히 GHz 대로 개선되는 경쟁이 시작되었으며, 전력 소모도 그림 5 와 같이 200W 대까지 급증하였다.

<그림 5> 인텔 CPU 전력 소모 추세2000 년대 후반에 들어서며 전력 소모는 시스템 설계에 가장 중요한 변수가 되었으며 특히 그림 6 과 같이 수십만대의 서버를 거대한 건물내에 집적하여 운용하는 수퍼 컴퓨터 혹은 cloud computing data center 들은 년간 전기료만 수천만 달러에 달하는 등 green supercomputing 의 요구가 극대화 되고 있다.

PC CPU $50BHW SoC $100B

Smart SoC $250B

1980 1990 2000 2010 2017

IBM PCon Intel x86 CPU

Nokia Phoneon ARM CPU

Smart Consumer on Exascale Pro-cessor Inflection

Point

x86 Binary Com-patible Mass Infra for IHV/ISV

High Performance 3-4GHz 6-24 Core

Power ~100W Price ~$100 Memory Bot-tleneck

Drivers

Obstacles

CPU: Low Power, Low Price ARM Mass Infra for IHV/ISV

Data: Low Power Low Price Dedicated HW IPs HW IP: No Pro-grammability CPU/DSP: x10 Power, Price & Memory Bottleneck than HW IPs

P4 Innovation in Exascale Processors P4 [Price, Power, Per-formance & Programmability] en-abled by Matured Si Scaling 4K/4M/4G,.. ALUs

Programming Model Dynamic Compiler & Debugger Simulator, Profiler & Runtimes

Page 4: isac-cpu.com · Web view1) Control Flow: HW IP에서는 공통된 동작의 집합체에 해당되는 instruction 개념 없이 설계자 의도에 따라 수많은 동시 처리

이에 따라 Lawrence Livermore, Google 등 기존의 수퍼 컴퓨터 및 초대형 data center 운용자들은 Exascale 컴퓨터의 연구 개발을 통해 기존 컴퓨팅 대비 보다 급격한 전력 소모 절감을 위한 혁신적 기술 개발을 시도하고 있다.

<그림 6> Data Center 전력 소모-운용 비용 2010 년 최고 성능의 수퍼컴퓨터가 1 Peta FLOPS 성능에 2.3MW 전력을 소모하고 있어 1 Exa FLOPS 성능을 위해 2.3GW 가 소요되며, 향 후 10 년간 100 배 전력 소모가 개선되더라도 23MW 가 필요하다. 최근 수퍼컴퓨터 개발 그룹들은 범용 프로세서 대비 동일한 응용프로그램을 그림 7 과 같이 1/1000 의 전력, 1/100 의 gate count 등 10 만배의 FoM 을 갖고 구현하는 전용 HW embedded computing 분야를 집중적으로 연구하고 있다[2].

<그림 7> 범용 프로세서 vs HW IP FoM

비전용 프로세서 대비 범용 프로세서에서는 그림 8 의 Power 5 와 같이 ALU 등 실행 unit 보다 instruction 및 data stream pipeline 의 non-blocking 용 부가 회로들의 방만한 오버헤드가 IPC 성능 개선의 한계점을 넘어 지나치게 큰 것을 볼 수 있다.

[Figure Source: U.S. Depart. of Energy]<그림 8> 프로세서별 Si Budget지난 20 년간 8-way SMT 등 fancy 한 마이크로아키텍츄어를 위한 오버헤드가 급증했으나 IPC 는 정체된 상태이며, 컴퓨팅 구조와 반도체 구현 부문 혁신 목표로서 그림 9와 같이 2020 년까지 현재 기술 대비 1/10,000의 전력 소모를 갖는 100mW 당 1 Tera FLOPS HW IP 수준의 GPU (General Processing Unit), 곧 Exascale 프로세서 개발 경쟁이 될 것이다.

Moore 의 법칙에 따라 18 개월에 2 배, 5 년에 10 배, 10 년에 최대 100 배의 집적도 향상을 통한 전력 소모 감소를 가정하더라도, More than Moore 의 추가 혁신 100 배 전력 소모 절감이 필요하다. 이를 위해 1) 차세대 Computing(알고리즘 최적화 프로그래밍 및 SDK 기반), 2) 차세대 Memory (GHz GB core 밀착형 DRAM 등), 3) 차세대 반도체 기술 (0.5V 1mA 1nA DLV [Deep Low Voltage] device 및 회로 설계, TSV/wireless 3D package 등)의 3 대 Exascale Computing 기술이 각 10 배 이상의 효율 개선을 선도할 것이다. 본 논문에서는 위와 같은 Exascale 프로세서에 대한 기술 분석및 전망을 논의하고자 한다.

[Source: U.S. DEPARTMENT OF ENERGY ]

Reduce Power: Reduce WasteWasted Transis-

torsWasted Compu-

tationWasted Band-

widthWasted Voltage

Power

Area

FoM*

*FoM: Figure-of-Merit1/(Power*Area)

FHD H.264 Decoder

Page 5: isac-cpu.com · Web view1) Control Flow: HW IP에서는 공통된 동작의 집합체에 해당되는 instruction 개념 없이 설계자 의도에 따라 수많은 동시 처리

<그림 9> Exascale 프로세서 RoadmapII. Direction

II.1 차세대 아키텍츄어

범용 프로세서의 오버헤드를 HW IP 수준으로최소화 하는 이상적인 구조는, HW IP를 programmable 하게 설계하는 것이다. HW IP 는 사실상 거대한 CISC 프로세서로 볼 수 있으나 범용 프로세서 대비 세가지 차이가 존재한다.

1) Control Flow: HW IP 에서는 공통된 동작의 집합체에 해당되는 instruction 개념 없이 설계자 의도에 따라 수많은 동시 처리 thread 실행이 가능하며 제어 회로를 고정된 전용 FSM으로 구현하게 된다. 2) Data Flow: HW IP 는 세분화된 전용 실행 unit 을 사용함으로 효율성이 극대화 되어있다. 3) Memory Flow: HW IP 는 각 work flow별 전용 queue 형태의 메모리를 20-30 개 분산하여 사용함으로 어드레스 계산이 최소화되며 1 개 중앙 메모리 및 복잡한 어드레스 계산이 필요한 프로세서 대비 극대화된

BW 를 갖는다.

삼성은 그림 10 과 같은 SRP(Samsung Re- configurable Processor)를 개발, 사용하고 있다. SRP 는 4x4 small core array (FU: Function Unit)를 기본 구조로, Control Flow를 위해서는 4x1 FU 를 VLIW 프로세서로 사용하며, Data Flow 를 위해서는 4x4 FU 을 CGA (Coarse Grain Array) 프로세서로 사용하여 Control 및 Data 동시 처리가 가능하다. SRP 는 다음과 같은 4 대 특장점을 갖는다.

1) Control Flow: HW IP 가 고정된 FSM 을 사용하는데 비해 512x1000-bit Configuration Memory 를 사용하여 FU 의 직접적인 제어 신호를, 응용에 맞추어 run 타임 동안 최적화된 microcode 를 reload, 가변 FSM 으로 재구성되는 구조. 이로서 programmable 하나 고정된 control 을 갖는 프로세서의 단점과, 고정된 control 로 효율성은 최고이나 programmable 하지 못한 HW 의 단점을 제거하여, HW IP 를 programmable 하게 지원하는 최적 프로세서.

GPGPU

HW ASIC

MobileCPU

PCCPU

1G

10G

100G

1T

10T

100T

0.1 1 10 100 1000

FLOPS

Watts2005

20152020

2010Moore’s Lawx2 / 18-months (x10 / 5-years)

Processor for Peta Flop @2.3MW

0.1 GFLOPS/100mW

0.01 GFLOPS/100mW

10 GFLOPS/100mW

1 GFLOPS/100mW

0.1 TFLOPS/100mW1 TFLOPS/100mW

Exascale Processor: More than Moore

Mobile

Processor for Exa Flop @70MW1/30 Power Efficiency in 5-years

1/3 from Computing, 1/10 from Scaling

CE

Exascale Processor for Exa Flop @230KW1/10,000 Power Revolution by 2020

1/100 from Scaling & 1/100 from Innovation in HW like Essential Computing

Si Technology for DLV Device & CircuitsMulti-GHz Multi-GB Massive IO DRAM

Exa-byte/sec 3D Integration

Sensor NW

Data Center

Page 6: isac-cpu.com · Web view1) Control Flow: HW IP에서는 공통된 동작의 집합체에 해당되는 instruction 개념 없이 설계자 의도에 따라 수많은 동시 처리

2) CPU + GPU CPU + small VLIW CPU + CGA 의 3 단 구조: 기존 Nvidia 등 GPU 의 control 부재로 GPGPU 가 되지 못하는 단점을 보완하며 차세대 GPU 구조 지향.

3) SW pipeline 최적화 compiler 및 SDK: 범용 프로세서 PC 수준의 SDK 및 개발 환경.

4) 고속 FU 구조: 단순 반복 규칙적 Multi-GHz FU 를 계층적 floorplan 으로 structured P&R 최대 활용, Multi-GHz Bus 를 유지하며, 500MHz 급 auto P&R 의 HW IP/CPU 대비 Multi-GHz 반도체 설계 기술 극대화 가능.

FURF

FURF

FURF

FURF

FURF

FURF

FURF

FURF

FURF

FURF

FURF

FURF

Central RF (Register file)

FU FU FU FU

Instruction DATA

Coarse Grain Array (CGA)Coarse Grain Array (CGA)

VLIW

ControlLatency

Data

ThroughputSmart compiler

(C/C++)

Advanced DSP design driven by workload analysis

Advanced DSP design driven by workload analysis

<그림 10> SRP 블록 다이어그램

Nvidia GPGPU (General Purpose Graphics Processing Unit)는 GP (General Purpose) 로 사용될 수 없다는 결과가 계속 보고 되고 있다[3]. 그림 11 과 같이 인텔 Core i7 과 GTX 280의 peak 성능은 100GFLOPS 대 1TFLOPS 의 10 배에 해당되나, 평균 성능 개선은 2.5x 에 불과해 가격대 성능 FoM 이 도리어 열세인 것은 GPU 가 control 프로세싱의 오버헤드를 지나치게 과소 평가한 결과이다. 그러나 SRP 는 VLIW small CPU 를 GPU 에 해당되는 CGA 와 병행해서 사용함으로 기존 DSP 및 GPU 대비 가장 앞선 구조적 장점을 갖고 있다.

<그림 11> 인텔 Core i7 vs Nvidia GTX280

향 후 Exascale 프로세서는 그림 12 와 같이 Control + Data 동시 처리 구조를 기반으로, control 동작 주파수를 최대화하는 Extreme RISC, data 처리를 전용 HW IP 수준의 intrinsic ISA 로 지원하는 Extreme CISC 로 Superlinear 한 MPP 성능을 지향할 것이다[4].

F1 F2 D2 E1 E2 E3 E4 E5

MUL1 MUL2

LS Pipeline

ALU1 ALU2Instruction

Decode

I$

AGU

I$

Access

InstructionFetch

FU0F0

FU1

TagMatch

ing

D1

Op.

Fetch

Instr.

Dec

E6

ALU3 WB

SHFT WB

WB

MUL1 MUL2

LS Pipeline

FU2SHFT WB

WB

E7

Radio ISA FU Cellular Channel/Wireless

Media ISA FU AV/Im-age 3D/Ray-Tracing

Intelli-gence ISA FU Recogni-tion Mining Synthesis

Page 7: isac-cpu.com · Web view1) Control Flow: HW IP에서는 공통된 동작의 집합체에 해당되는 instruction 개념 없이 설계자 의도에 따라 수많은 동시 처리

<그림 12> H.RISC+V.CISC Superlinear 성능

표 2 와 같이 각 프로세서간 32nm 공정 기술을 가정한 경우 가장 이상적인 Exascale 프로세서 후보군으로, 현재 기술로 도달 할 수 있는 최고의 성능은 0.1 TFLOPS/100mW 에 달한다. 이 수치는 향 후 5 년내 이 기술이 상용화 될 경우 2015 년에 1 TFLOPS 100mW Exascale 프로세서가 등장할 수 있다.

표 2 의 각 지표는 칩 크기에서 출발하며 CPU 와 GPU 는 1.4mA 100nA 의 고속 공정, 다른

프로세서들은 0.7mA 1nA 의 저전력 공정을 가정하였다. Cox 와 metal stack 은 유사하다고 가정하여 Si/Watt/mm2는 모두 동일한 가정을 사용하였다. Si 면적에 대한 효율성은 custom 0.3, structured 0.2, 순수 P&R 0.1 을 가정하였으며 Si 내 모든 노드의 switching activaty 는 통상적으로 범용 CPU 에서는 아래 수식에서 1% 노드가 activate 되며, HW IP에서는 peak cycle 에 동작하는 노드를, 전체 회로의 15% 비율로 가정한 결과, practical power 를 CPU 60W, GPU 80W, mobile CPU 0.6W, HW IP 120mW 등 근접한 결과를 얻게 된다. 결과적으로 FHD Codec work load 를 실행시키는 Watt/FHD Codec 수치를 magnitude of order 단위에서 근접한 결과를 보여주고 있다.

P = α f C V2 + β V3 + γ V5

α: Switching Activity, f: 동작 주파수, C: Capacitance, V: 동작 전압, β: subthreshold leakage 상수, γ: gate leakage 상수

<표 2> Exascale 프로세서 Virtual Prototyping32nm 로 가장 작은 단위의 Q 와 V 를 가정하고 알고리즘 및 구조 기술이 실제 가장 적은 리소스로 된 HW IP 가 최소의 price, power 를 얻을 수 있다고 가정하면 표 2 에 보인 Exascale 프로세서가 HW IP-I 대비 FHD Codec 구현 면적 1/10, 전력 소모 1/3 로 프로세서의 오버헤드가 HW IP 의 구현상 오버헤드대비 효율성이 역전 될 수 있다. 3GHz 이상 small core 설계 후 규칙적이고 반복적인 array 를

계층 구조적으로 structured custom 설계를 통해 3GHz 이상 속도를 유지하는 구조와 구현의 이상적인 조화를 통해, HW IP 는 random 한 auto P&R 로 최대 500MHz 수준 설계를 가정한 것임으로 array 프로세서만큼 빠른 P&R TAT 와 성능을 갖기가 쉽지 않을 것이며 이로서 순수 프로세서 array 와 메모리로 300MHz FPGA 를 3GHz FPPA (Field Programmable Processor Array)가 대체하며

Page 8: isac-cpu.com · Web view1) Control Flow: HW IP에서는 공통된 동작의 집합체에 해당되는 instruction 개념 없이 설계자 의도에 따라 수많은 동시 처리

Smart SoC 의 새로운 SW 혁명을 주도할 차세대 컴퓨팅 구조가 될 것이다. 그러나 MIT H.264 HW IP-II 와 같이 최적 컴퓨팅 및 메모리 구조, struct- ured custom 을 혼용하여 성능을 극대화 시킬 경우 HW 가 분명한 장점을 다시 갖게된다[5].

II.2 차세대 Memory 기술

Exascale 프로세서에서 가장 우선적으로 해결되어야 할 문제는 메모리 속도와 구조이다. GHz 프로세서를 동작 시켜도 메모리 latency 때문에 multithread 및 고난이도의 non-blocking queue 등의 방식을 채택하여 문제를 완화시키고는 있으나, 본질적인 개선책은 Multi-GHz 초고속 Multi-GB 초고집적 DRAM 및 차세대 분산형 메모리 구조를 사용하는 것이다. 1970 년 인텔이 발표한 8um PMOS 2MHz 1K-bit DRAM 은 비슷한 시기에 발표된 10um PMOS 740KHz 4-bit 마이크로프로세서보다 2.7 배 더 빨랐으며 이 추세는 1980 년대 초반까지 유지되었다.

[Source: IBM]<그림 13> 프로세서와 DRAM 의 성능 gap그러나 이 후 그림 13 과 같이 DRAM 기술은 집적도에 집중되어 속도를 높이는 대신 GB 이상 초고집적도로 경이적인 가격 혁명을 통해 2011년 현재의 IT 산업에 결정적 기여를 해왔으나, 프로세서와의 속도 갭이 100 배 이상 벌어지며, 향 후에는 고속화가 필연적이며 물론 그림 14 와 같이 가격면에서도 급격한 개선이 필요로 되고 있다.

[Source: IBM]<그림 14> Computation 과 메모리 가격 변화

IBM 은 그림 15 와 같이 45nm SOI 를 사용, 1.35ns 의 초고속 0.24mm2 1M-bit DRAM 모듈을 서버용 Power 7 CPU 및 Xbox 게임용 XCGPU 에 적용 중이며 이것은 상용 DRAM 에 비해 초고속 설계를 위해 array 크기를 작게한 결과 전체 면적은 4 배 정도 크나 속도는 20 배 빠른 결과이며, 상용 DRAM 보다는 면적에서 불리하나 동급 SRAM 대비 6 배의 집적도를 갖고있어 성능과 가격면에서 초격차 경쟁력을 갖고 있다. 인텔도 유사한 기술을 곧 사용 할 것으로 예상되며 eDRAM 으로 사용할 것인지 TSV 등 3D 팩키지를 통해 수천 핀의 Wide IO 로 GHz GB DRAM 으로 갈 것인지는 Price, Power, Performance, Programmability 의 P4 경쟁력으로 좌우 될 것이다. 이것은 또한 기존 반도체 업계 리더들이 선택할 장비, 공정 기술의 경제성등 기술적 이슈외에 Eco 시스템의 방향도 중요한 변수가 될 것이다.

<그림 15> 4GHz IBM Power 7 CPU eDRAM두번째 메모리 구조 혁신이 필요한 분야는 어드레스연산을 최소화한 분산형 queue 구조 채택이다. HW IP 는 메모리 20 여개를 사용하여 각 work flow별 독립 queue 의 구조를 갖고 1개 메모리에 집중 액세스하는 프로세서 대비 20배의 대역폭을 갖게 된다. 또한 대부분의 pixel-bit stream 응용들은 그림 16 과 같이 극단적으로 높은 spatial localiy 와 역시

Page 9: isac-cpu.com · Web view1) Control Flow: HW IP에서는 공통된 동작의 집합체에 해당되는 instruction 개념 없이 설계자 의도에 따라 수많은 동시 처리

극단적으로 낮은 temporal locality 를 갖고 있다[2]. 즉 사용된 근방의 데이터에 대한 상관성은 극도로 높으나 한번 사용된 데이터에 대한 재사용률은 극도로 낮다. 다른 특성으로 액세스 패턴이 X-Y 축 기준으로 첫 stream 데이터들을 X 방향으로 어드레싱 했다면 두번째 그룹 연산을 위해서는 Y 방향으로 순차적 어드레싱을 하는 경향이 강하다. HW IP 는 이러한 특성을 최대한 활용하며 또 다른 특장점으로 현재 프레임에서 처리할 데이터 세트가 전프레임에서 준비 될 수 있는 부분이 많아 프레임 단위 파이프라인을 통해 control/branch flow 를 최소화 시킬 수 있으며, 정해진 queue 액세스로 address 연산도 최소화 될 수 있다.

<그림 16) Stream 응용의 극단적 locality

이것은 그림 17 과 같은 X-Y stack 방식의 32x32x64-bit X-Y stack register file 설계로 최적화가 가능하다. 예를들어 H.264 의 Luma prediction 에 push 와 pop 액세스로 실행 사이클을 대폭 1/10 로 단축시키는 예를 보여주고 있다. 이외 알고리즘의 2D-3D 프레임 파이프라인 재배치를 통해 획기적 사이클 절감이 가능하다.

<그림 17> X-Y stack RF 사이클 절감 기법세번째 혁신은 값싼 computing 리소스를 사용하여 메모리 액세스를 절감하는 방안이다. 그림 18 과 같이 3x3 median filter 는 해당 숫자들끼리 서로 비교, 중간값 5 를 찾는데 수백 사이클이 소요되나, 9 개의 FU 에 자신을 제외한 8 바이트 데이터를 copy 한 후 FU 번호에 해당된 data 는 byte 복제 후 원래 데이터를 감산하여 1 사이클에 중간값 판별이 가능하다.

<그림 18> 메모리의 컴퓨팅 리소스 치환 예

최종적으로는 그림 19 와 같이 초고속 초대용량 메모리와 값싼 컴퓨팅 리소스를 최대 활용, 꼭 필요한 메모리 액세스를 통해 성능 대폭 향상 및 가격과 전력 소모의 절감을 목표로 한다.

H.264 FHD decod-ing – Luma Inter-prediction

Vertical fil-ter-ing

Hor-izon-tal filter-ing

¼ pel

X

YX-Y Stack

To-tal cy-cles = 170

Data load & address generation

Data Shuffling

Data Computation

Data Store & address generation

LOAD from stack;

NONE;

Data Computation

STORE to stack;

To-tal cy-cles = ~18 cy-cles

Loop 예제 : II=2, loop count=16

--5 1

-5 2

--5 2

-5 3

--5 3

-5 4

--5 4

-5 5

--5 5

-5 6

--5 6

-5 7

--5 7

-5 8

--5 8

5555 5555 5555 5555

4321 4321 8765 8765- -

<=0

>0

<=0

>0

<=0

>0

<=0

>0

<=0

>0

<=0

>0

<=0

>0

<=0

>0

+ + + + + + + +

+ + + + + + + ++ + + + + + + +

55

>=4

<=40 1

505

FU0 FU1 FU2

FU3 FU4 FU5

FU6 FU7 FU8

FU0 FU1 FU2

FU3 FU4 FU5

FU6 FU7 FU8987654

321

987654

321

Page 10: isac-cpu.com · Web view1) Control Flow: HW IP에서는 공통된 동작의 집합체에 해당되는 instruction 개념 없이 설계자 의도에 따라 수많은 동시 처리

<그림 19> Memory 액세스 waste 절감

II.3 차세대 반도체 구현 기술

5GHz IBM Power6 프로세서 파이프라인 설계의 경우 그림 20 과 같이 동작 속도와 IPC 의 sweet spot 인 13 FO4 로 사이클 타임을 정하고 13 스테이지를 이용해 명령어 처리에는 총 169 FO4 게이트 지연시간이 소요된다.

<그림 20> 파이프라인 사이클 타임과 성능5GHz 사이클 타임 200ps 를 13 FO4 로 맞추기위해서는 1 게이트 당 지연시간은 OCV-PVT 마진 포함해서 12-16ps 이내가 되어야 한다. PC/Server 프로세서들은 1um 폭당 1.4-1.7 mA Idsat, 100nA Ioff 의 고성능 트랜지스터를 사용하여 3GHz 이상 성능을 목표로 하며, Mobile/CE 에서는 0.7-0.8mA Idsat, 1nA Ioff 의 저전력 트랜지스터를 사용하여 전력 소모 극소화를 지향하나, 최근에는 인텔이 1nA Ioff 의 저전력이면서 1,2mA Idsat 의 초고속 트랜지스터를 발표하여 Mobile/CE 에서도 그림 21 에서와 같이 3GHz급이면서 초저전력이 가능한 프로세서가 등장 할 것으로 예상된다.

<그림 21> Idsat - 동작 주파수 상관도

1 FO4 게이트 당 12-16ps 이면 load capacitance 가 1/4 인 FO1 게이트는 3-4ps 의 속도를 갖게되나 그림 22 과 같이 40nm 이하에서는 포화되거나 혹은 느려지게 된다.

<그림 22> Ring Oscillator 동작 속도

이것은 회로 동작 시간 T 가 Q=IT 에서 Q/I, Q 는 CV 임으로 보통 CV/I 에 비례하는데, I 를 결정짓는 Vt 가 채널이 짧아지며 DIBL (Drain Induced Barrier Lowering) 만큼 감쇄하는 원인과 source 에서 채널로 주입되는 전자의 입사 속도가 strained Si 등으로 그림 23 과 같이 급속히 개선되기는 했으나 유효속도는 inversion층의 capacitance, S/D 저항 및 DIBL 의 영향으로 그림 24 와 같이 도리어 줄어들며, 그림 25 와 같이 S/D 과의 miller cap을 포함한 fringe cap 이 늘어나며 느려지게 된다.

13G Hz

3 0 0

6 0 0

12 0015 00

18 00Id

-sa

t, uA

5GHz

IBM

Po

wer6

3.6M

Hz/

uA

340m

m2

4GHz

In

tel

Penr

yn

2.3M

Hz/

uA

150m

m2

13 S

tage

13

F O4

15ps

/FO

4 @

1 400

uA

14 S

tage

15

F O4

17ps

/FO

4 @

1 700

uA

243G

Hz

Cust

om

MP

2.7M

Hz/

uA

10-1

2 St

age

13 F

O4

Cus

t om

24ps

/FO

4 @

1 200

uA

4 5 n

3 2 n

9 0 0

10 S

tage

26

F O4

P&

R

38ps

/FO

4 @

7 40u

A

10-1

2 St

age

13 F

O4

Cust

o m

38ps

/FO

4 @

7 40u

A

2 8 n

1GHz

M

P

1.35

MH

z/uA

3/

4mm

2

2GHz

Cu

stom

M

P

2.

7MHz

/uA

2m

m2

Page 11: isac-cpu.com · Web view1) Control Flow: HW IP에서는 공통된 동작의 집합체에 해당되는 instruction 개념 없이 설계자 의도에 따라 수많은 동시 처리

<그림 23> Source 캐리어 입사 속도 개선

<그림 24> 유효속도 저하와 전류 감쇄

<그림 25> Fringe – Miller Cap. 성분 증가

이와 같은 Idsat, Ioff 및 지연시간 T 는 모두 1-1.2V 의 full VDD 수준에서 논의 되었으나 실제 Voltage 는 Charge 당 에너지, 곧 전력 소모이며 Charge 의 양이 Capacitance x Voltage 로 결국 Voltage 의 제곱으로 전력 소모가 증가함으로 VDD 를 줄이며 어떻게 속도를 유지하는지가 핵심 기술이 된다. 궁극적으로는 0V 에 수렴하는 전압으로 구동되는 회로가 이상적이며 subthreshold 회로에 대한 연구도 많이 되고있으나 근본적으로 낮은 E-field 로 인해 전류량이 너무 작아 고속 동작에는 적합하지 않다. 인텔은 32nm 자사 공정에서 그림 26 과 같이 0.34V 를 에너지-속도의 최적 전압으로 발표하고 있다[1].

<그림 26> 인텔 32nm 0.34V 최적 전압

인텔은 그림 27 과 같이 저전압에서의 낮은 E-field 를 3D MuGate 트랜지스터로 보상, 0.7V DLV 의 성능을 37% 획기적으로 개선한 기술을 발표하였고[6] 삼성은 2006 년 TBCFET[7]등 인텔 22nm 대비 2 배 이상 성능을 갖는 3D TR을 개발했으나, 3D 구조에서의 균일성 확보가 양산경쟁력을 좌우하게 될 것이다.

<그림 27> 인텔 22nm FD-Trigate DLV 특성

IBM 의 5GHz CPU 는 200ps 96KB L1 Cache를 그림 28 과 같이 16x72 의 작은 고속 array 및 계층적 domino bit line 으로 구현하였다.

<그림 28> 5GHz SRAM address/data pathQualcomm 은 45LPG 공정을 사용, 0.54V 까지

Strained-Si(solid symbols)

0

5

10

15

20

10030 300Gate Length (nm)

Virt

ual S

ourc

e V

eloc

ity (1

06 cm

/s)

PMOS

0

5

10

15

20

10030 300Gate Length (nm)

Virt

ual S

ourc

e V

eloc

ity (1

06 cm

/s)

NMOS

10 1000

0.5

1

1.5

2

Technology Node (nm)

Vel

ocity

(107

cm/s

)

NMOS vx0

NMOS v

PMOS vx0

PMOS v

0

0.5

1

1.5

2

10 100Technology Node (nm)

Dra

in C

urre

nt (m

A/

m)

NMOS IDsat

PMOS IDsat

NMOS Ieff

PMOS Ieff

(mA

/mm

)

Page 12: isac-cpu.com · Web view1) Control Flow: HW IP에서는 공통된 동작의 집합체에 해당되는 instruction 개념 없이 설계자 의도에 따라 수많은 동시 처리

동작되는 8T SRAM 을 그림 29 와 같이 개발하여 0.9V 1.5GHz 속도에 사용하고 있으며 0.6V 에 500MHz, 1.1V 에 2GHz 정도의 동작 속도를 얻고 있다.

<그림 29> Qualcomm 8T SRAM 프로세서의 또 다른 회로 설계의 bottleneck 은 MUX 회로이다. 이것은 1) 고속 동작을 위한 파이프라인 단이 늘어나며 아주 복잡한 forward path, 2) FU 이 늘어나며 더욱 복잡도가 증가하며, 3) SIMD pack, unpack 을 포함한 데이터 NW 등으로 가장 단순하면서도 회로 속도에 큰 impact 를 주고 있다. 48:1 의 MUX를 standard cell 로 P&R 시 45nm 에서 약 400ps 가 소요되며, 단순 TG 회로로 구성하더라도 Cj 가 급속하게 증가하여 260ps 정도 소요된다. Cj 증가를 NMOS 와 PMOS path 로 분산하고 출력을 gate cap.으로 받을 경우 Cj 에 의한 영향을 최소화 시킬 수 있다. Low VDD 특성이 나빠지나, 부분적 ABB 등 Vt를 낮추거나 인텔 3D TR 등과 같이 낮은 Vth 를 적용하여 보상 가능하며 그림 30 의 회로를 사용, 48:1 160ps 저전력 고속 MUX 구현이 가능하다.

<그림 30> 전형적 MUX 및 P-N 분리 MUX

또 다른 저전력 설계 기법으로 signal inte- grity 에서 임피던스 매칭이 필요하다. 임피던스 매칭이 되지않아 reflection 에 의해 신호가 왜곡되며 발생되는 overdamping, under- damping 기간동안 그림 31 과 같이 칩내 metal 과 channel 저항 성분으로 전자들이

에너지를 phonon 으로 방출하며 전력이 소모된다.

<그림 31> Maxwell-Poisson 전력 소모

그림 31 에서 보듯 트랜지스터의 Poisson 전력 소모 대비 metal stack 의 규모 증가로 특히 Maxwell 방정식에 기반을 둔 1/2 slew rate (6배의 Fourier 에너지 집중 주파수), 즉 10ps slew 의 경우 5ps (200GHz) 주파수 영역에서 RLC 매칭을 통해 그림 32 와 같이 VDD, VSS, Clock, long wire 의 최단 return path 와 임피던스 매칭을 고려한 초고주파 설계가 필요하다.

<그림 32> 임피던스 매칭 전력 소모 감쇄

회로 설계의 다른 중요한 이슈가 OCV-PVT 에 대한 temporal, spatial 변화분에 대한 내구성 설계이다. 디바이스 크기와 doping 위치 및 양 조절의 한계로 표 3 과 같이 16 가지 내구성 설계 부문에 대한 고려가 필요하다.

PC/Server CPU 는 고가임으로 speed binning

Pump-ing-Out Elec-trons

Pump-ing-In Elec-trons

Thermal Phonons

Maxwell Power Save in In-terconnec-tions Minimize Over/Under Damping by Precise Impedance Matching- Maximize Regularity for Hierar-chical P&R- Maximize Local Clus-tering w/ PG & CG

Poisson Power Save in Si Maximize Conduc-tance @ DLV- Minimize Area w/ Custom- Minimize Switching Activities w/ PG & CG

[Metal Stack: Intel 32nm]

RLC/RC

RLC

134MHz7.5ns period15ns slope

RCTotal Power

Power Ratio

Page 13: isac-cpu.com · Web view1) Control Flow: HW IP에서는 공통된 동작의 집합체에 해당되는 instruction 개념 없이 설계자 의도에 따라 수많은 동시 처리

을 통해 각 동작 주파수에 따라 가격을 변화시키며 판매하게 되지만, Mobile/CE 는 사실상 목표 동작 주파수에 blind shipping 수준의 주파수 적확도를 가져야 함으로 필요이상의 마진이 사용되나 tolerance engineering 을 통해 over design 을 회피하며 속도 수율을 최대화 하는 것이 필요하다. 최근에는 마진 부문의 효율을 극대화 하기위해 그림 33 과 같이 LAGS (Local Asynchronous Global Synchronous) 방식으로 설계해 마진을 흡수하는 설계 방식이 제안되기도 했으며[8] ABB 에 대한 연구와 같이 병행되어 좀 더 spatial, temporal 변수를 흡수하는 방향으로 강화될 필요가 있다.

<표 3> 회로 설계 tolerance

<그림 33> OCV-PVT 기인 LAGS 필요성

Low temperature inversion 문제는, 기존의 회로들은 저온에서 항상 빠르게 동작되어왔으나 최근 45nm 이하 디바이스에서 도리어 저온에서 느려지기 시작하는 전압이 점차 높아져 최종 설계 timing closure 의 hold/set up timig closure 에 어려움을 더하고 있다. 이 문제는 그림 34 와 같이 온도를 센싱하여 고온에서는 RBB 로 Vth 를 높이며, 저온에서는 FBB 로

scattering 효과를 억제, 개선 시킬 수 있다.

<그림 34> Low Temp. 역전 현상차세대 설계 기술로서 Multi-GHz Multi-GB DRAM 기술, 5-terminal (G, D, S, Gate-Tied Channel, Back Gate) FD-DT (Dynamic Threshold) MG (Multi Gate) MC (Multi Channel) TR 과 ABB 설계 기술을 최적화한 design assisted device 기술, 200GHz 이상 초고주파 최적 설계 및 OCV-PVT tolerance 에 robust 한 Exascale 프로세서는 궁극적으로 반도체 기술력이 성패를 좌우한다. 삼성, 인텔과 같은 반도체 설계 및 디바이스, 공정 기술의 최고 경쟁력을 갖춘 IDM (Integrated Device Manufacture) 기업들이 유사한 컴퓨팅 구조를 갖고 경쟁하는 fabless 업체 대비 최종 경쟁력에서 초격차를 벌리며 메모리 사업과 유사하게 commodity 사업으로서 성공을 거둘 수 있을 것이다.

III. Conclusion

Exascale 프로세서는 그림 35 와 같이 2-10GHz 의 아주 작은 프로세서 어레이와 혁신적인 메모리 구조 및 NW 을 갖게될 것이며 FPGA 를 FPPA (Field Programmable Processor Array)로 대량 생산, 사용자들이 마치 메모리와 같이 구입하여 seamless open OS platform 상에서 rich 한 SDK 를 사용하여 최고의 성능, 최저 전력 소모, 최저 가격, 자유로운 범용 programmability 의 프로세서가 등장할 것으로 예상된다. 이와 같은 초고성능 Exascale 프로세서 이상 Zetta (1021), Yotta (1024) 프로세서 개발은 향 후 수십년간 정해진 로드맵 경쟁이 될 것이다.

그러나 IBM 이 제약회사들로부터 막대한 funding 을 받아 진행하는 Deep Biology Computing 연구결과를 보면, 3 만개 원자로 구성된 단백질 100us folding 을 시뮬레이션 하기위해 수많은 간략화 과정 후 물을 배제한

Sub-45

nAB

B

Page 14: isac-cpu.com · Web view1) Control Flow: HW IP에서는 공통된 동작의 집합체에 해당되는 instruction 개념 없이 설계자 의도에 따라 수많은 동시 처리

고체상태로 접근하는 연산에만 1023 FLOPS 가 필요로되며, 이와 유사한 규모의 단백질 30억개로 이루어진 단일 세포안에서, 아직도 소스가 규명되지 못한 신호체계에 의해 folding 되는 것을 물과 함께 시뮬레이션하는것은 시도 자체가 불가능한 문제이다. 따라서 프로세서 기술을 사용하여 자연계를 이해하고 시뮬레이션 하기 위해서는 아직도 극히 초보적 단계로서 향 후 수십년동안에도 지극히 원시적인 성능 수준이 될 것이나, 그럼에도 불구하고 지속적이고 혁신적인 Exascale 프로세서를 기반으로 하는 2 차 IT 산업 혁명은, 원자 수준 시뮬레이션 기반의 NT, BT 산업에 새로운 지평을 열어 인류 발전에 무한한 가능성을 제시해 줄 것이다.참고문헌[1] Agarwal 등, ISSCC 2010 [2] DARPA, Exascale Computing 2008

[3] 100x GPU vs CPU, Intel, ISCA’10[4] DARPA, Exascale SW Study 2009[5] 0.7V H.264 720p, A-SSCC 2008[6] //newsroom.intel.com/docs/DOC-2032[7] MBC/TBCFET, VLSI Symposium 2006[8] LAGS, ISSCC 2007 필자소개

학력: 1981 년 2 월 고려대학교 공과대학 학사

1989 년 8 월 고려대학교 대학원 석사경력: 1982 년 3 월~1991 년 2 월 ETRI

1991 년 3 월~현재 삼성전자

<그림 35> Exascale 프로세서 Platform

[Base Figure: MIT Prof. Arvind]

General Purpose CPU x86 / ARM Specific Processors RMS AccelerationsArray Processors Scalable Domain FU

Local Queue Memory # of port, size, bus

X-Y Stack RF # of port, entry, bus

Cross Bar Shuffling NW # of channel, queues, slice

FPGA for Special IP & IO HDMI, Serdes,..

※ Recognition, Mining & Synthesis

Design Methodology Custom to SoC PM: PG/CG w/ DVFSTool Chains Integrated Compiler System SimulatorSeamless Platform Open OS to Std. Drivers OpenCL, MPI, GCD Total SolutionsDevice 0.6V 1mA 1nA @32nm ( 0.7V 0.9mA FBB)Analog IPs Low Swing Bus Drv/Rec High-Q PLLs

Package 3D Integration