기계학습 모형을 통한 새로운 물리 모형의...

/ 물리학에서의 기계학습 I

물리학과 첨단기술 DECEMBER 20174

저자약력

조원상 교수는 KAIST 물리학과에서 박사 학위(소립자가속기현상론 전공)를 취

득하고 서울대학교 이론물리연구소, IPMU, Univ. of Florida, IBS 순수이론

물리연구단 연구원을 거쳐 현재 서울대학교 물리천문학부 연구조교수로 재직

중이다.([email protected])

기계학습 모형을 통한 새로운 물리 모형의 탐사 DOI: 10.3938/PhiT.26.046

조 원 상

REFERENCES

[1] S. Russel and P. Norvig, Artificial Intelligence : A Modern

Approach (Prentice Hall).

[2] John McCarthy, coined the term ‘AI’ (1955).

Use of Machine Learning Models in the Search for

New Physics

Won Sang CHO

As the performance of machines used to extract a model

hidden in complicated data is evolving so rapidly, new pos-

sibilities of utilizing machine learning for surveying physical

science are emerging. In this letter, we provide an in-

troduction on basic machine learning algorithms with a brief

comparison between machine learning modeling and con-

ventional modeling in physical science. In addition, as an

important example of machines, we introduce the artificial

neural networks that led to recent artificial intelligence (AI)

revolution in terms of deep learning. Then, we conclude this

letter with a discussion on future developments of machine

learning for physical science, which might give some per-

spective on the future use of AI for studying nature.

과학과 인공지능과 그리고 기계학습

과연 인공지능이 물리법칙들을 발견해낼 수 있을까? 뉴턴과

아인슈타인의 시공간에 대한 중력이론과 미시계의 양자 현상을

담은 양자역학과 양자장론, 그리고 다체계와 응집계, 상관된 복

잡계에서의 물리이론들까지, 자연에 대한 수많은 관찰과 실험

을 바탕으로 인류가 정립해낸 물리 이론과 법칙들을, 과연 인

간이 창조해낸 인공 지능을 통해 다시금 발견하고, 이러한 능

력과 새로운 방법론을 바탕으로, 보다 어렵고 복잡한 물리 현

상에 대한 탐사를, 보다 높은 차원에서 수행해 나갈 수 있을까?

이는 인공지능의 발전이 다양한 미래 산업의 폭발적인 성장

을 이끌고 있는 현 시점에서, 많은 물리학자들이 던져볼 수 있

는 질문일 것이다. ‘공상과학 소설에서와 같이 먼 미래에는 그럴

수도 있지 않을까?’라는 막연한 긍정론과 더불어, ‘여러 가지 수

학적 대칭성과 물리적 직관에 따라 새로운 물리 모형을 탐사하

는 복잡한 사유 과정을, 과연 기계가 따라할 수 있을까…?’라는

부정론도 존재할 것이다. 필자도 이러한 인공지능이 가능할지

가늠하지 못한다. 다만 현재 물리학을 포함한 여러 과학 연구

분야에서도, 다양한 형태의 인공 지능을 활용하고 있는 사례가

점차 많아지고 있는 이 시점에서, 세상을 변화시키고 있는 인공

지능의 정체가 도대체 무엇인지, 또 이러한 인공지능의 발전을

이끌고 있는 기본적인 기계학습 알고리즘을 살펴보는 것이, 보

다 생산적인 논의를 위한 밑바탕이 될 것이라 생각하기에, 이에

관한 내용과 전망을 소중한 지면을 빌려 전하고자 한다.

인공지능과 기계학습

인공지능[1]을 개인적으로 정의한다면, 1) 어떤 상황에 대처할

수 있는 능력과 더불어 2) 새로운 경험으로부터 학습을 거쳐

새로운 능력을 습득할 수 있는 능력이라 할 수 있겠다. 이때

이 ‘능력’을, 어떤 입력 에 대한 해석이나 예측에 해당하는

대응 모형 라고 생각할 수 있고, 이러한 능력을 구현하는

방법에는 다양한 접근방법이 있어왔다.

대표적인 방법은, 인간이 설정한 주요 변수 공간에서의 모든

경우에 대한 대응모형값을 직접 프로그래밍하는 것이다. 즉,

인간이 만들어낸 여러 가지 이론을 통하여 잘 정의된 함수를

사용하여, 임의의 입력값에 대한 대응모형값을 수동으로 프로

그래밍하여 인공지능모형을 구축하는 방법은, 1950년대 중반

인공 지능(AI, Artificial Intelligence)이라는 용어가 생긴 이래,[2]

1980년대까지 인공지능의 발전을 이끄는 주요한 접근 방법이

물리학과 첨단기술 DECEMBER 201 7 5

REFERENCES

[3] Arthur Samuel, IBM Journal of Research and Development

3, 210 (1959).

[4] Pedro Domingos “The Master Algorithm: How the Quest

for the Ultimate Learning Machine Will Remake Our World”

(2015).

었다.

하지만 이런 수동 프로그래밍 방식을 통한 인공지능의 구현

은, 성능 향상에 한계를 맞게 되고, 이후 인공신경망을 비롯한

여러 가지 프레임의 기계학습[3]이 새로이 주목받기 시작하였다.

특히 2010년대부터는 심층신경망을 사용한 딥러닝(Deep

Learning) 기법이 크게 발전하였고, 이를 통한 인공지능의 구

현이, 압도적으로 우월한 성능을 보이며, 인공지능의 발전을

이끌고 있는 중이다. 이때 전술한 수동 프로그래밍 방식과 기

계학습의 큰 차이점은 바로 기계학습의 경우, 모형의 구축에

있어서 인간의 이론을 통한 프로그래밍 없이, 순수하게 데이터

를 통하여 기계 스스로 데이터의 속성을 설명하고 만족시키는

모형을 구축한다는 것이다.

기계학습을 통한 인공지능이 우월할 수 있는 이유

“…we can know more than we can tell.” ‑ M. Polanyi,

「The Tacit Dimension」

그럼 데이터를 통한 기계 학습 모형이 수동 프로그래밍 모형보

다 뛰어난 성능을 보일 수 있는 근본적인 이유는 무엇일까?

이는 프로그래밍에 쓰는 인간 언어 표현의 한계(불연속성)에

서 비롯된 것이라 할 수 있다. 한 예로 ‘웃는 얼굴’이라는 개념

(인식모형)을 정의(프로그래밍)해보자. 이때 ‘입꼬리의 위치’나

‘눈매’, 혹은 ‘광대의 높이’와 같이 인지하고 있는 언어 개념에

서 유래되어 프로그래밍에 사용 가능한 몇 가지 유효 변수만

으로 기술하는 경우, 그 인식모형의 성능은 그리 좋지 않을 것

이라 쉽게 예상할 수 있다. 반면에 우리 뇌가 신경망의 연결로

써 학습해낸 웃는 얼굴에 대한 인식모형을 보자. 이는 기계학

습의 경우와 같이 수많은 시각 정보를 바탕으로 우리의 뇌가

경험적으로 학습한, 매우 큰 다변차원 특성공간에서의 인식 모

형일 것이며, 알다시피 매우 훌륭한 성능을 자랑한다.

이를 통해서 알 수 있는 사실은, 어떤 대상을 온전히 표현해

낼 때, 인간이 만들어낸 언어나 상징만을 유효한 기저로 사용

하여 완벽한 연역 모형을 건설하기에는 불가능한 경우가 매우

많다는 것이고, 기본적으로 이를 위해서 훨씬 더 많은 차원의

속성 변수가 필요하고, 결국은 이들 차원까지 다 고려해야만

훌륭한 인식모형이 정의될 수 있다는 것이다.

서두의 문구와 같이, 우리가 이미 뇌신경망의 형태로 복잡하

지만 훌륭한 다변차원의 모형을, 체험 학습을 통해 잘 건설해

왔다면, 그것을 다시 불완전한 인간의 언어로 표현해서 가르치

려 하지 말고, 우리가 학습한 것처럼 똑같은 방식으로 기계도

데이터로부터 직접 모형을 학습하게 만드는 것이 바로 기계학

습을 통한 인공지능의 구현 방법이다.

‘모형’과 ‘데이터’: 기계학습과 과학의 핵심 키워드

기계학습을 정의할 때 한 가지 강조하고 싶은 점은, 기계학

습뿐만 아니라 동시에 과학까지, 이 둘을 관통하는 핵심적인

두 가지 키워드가 있다는 점인데, 그것은 바로 ‘모형(model)’

과 ‘데이터(data)’이다.

여기서 ‘모형’이라 함은, 앞서 기술된 인공지능의 ‘능력’에 해

당되며, 이는 일반적인 자연과학, 공학, 사회, 경제 등의, 과학

적 방법론을 통한 모든 학문에서의 궁극적인 목표가 되는 그

‘모형’과 일맥상통하며, 기계학습에서도 역시 궁극적으로 데이

터로부터 얻어내려고 하는 최종 학습 목표가 되는 개념이다.

‘자연이나 그 어떤 대상을 이해하는 틀, 그리고 이해하고 있는

그 전부’를 의미하는, 이 모형이라는 개념은 보다 정량적으로,

‘특성 변수 공간(input/feature variable space, )에서 관찰된

데이터 의 특징을 담고 있는, 어떤 수학적 표현 ’라 정

의할 수 있다.

이때 이러한 모형을 담아낼 수 있는 어떤 전산 프레임이 바

로 ‘기계학습’에서의 ‘기계’이며, 이를 구체적으로 표현한 기계

학습(Machine Learning)의 정의는 다음과 같이 표현될 수 있

다:

기계학습: 명시적인 프로그래밍 없이, 데이터를 기반으로 스스

로 중요한 패턴이나 규칙을 학습하는 전산 알고리즘이나 그

과정

기계학습의 종류

기계학습은 그 발전과정에서 다양한 문제에 대하여 굉장히

다양한 방식으로 구현되어 있다. 보통 다음과 같은 기준으로

기계학습 알고리즘을 분류할 수 있다:

1. 모형의 표현방식에 따른 기계학습의 분류

기계학습 알고리즘은 자신의 모형을 구체적으로 표현하는 방

식에 따라서 구분할 수 있는데, 이는 궁극적으로 인공지능에

대한 철학과 이를 구현하기 위한 접근 방식으로부터 많은 영

향을 받아왔다. 그들을 대표적인 알고리즘으로서 구분하자면

다음과 같다.[4]

물리학에서의 기계학습 I


Fig. 1. Binary classification. Machine learned a model of a heart as

the boundary between the green and red dots from the data gen-

erated by mouse clicking. Green area = P(green|x) > 0.5, Red area =

P(green|x) < 0.5.[10]

REFERENCES

[5] L. Breiman, J. Friedman, R. Olshen and C. Stone, Classifi-

cation and Regression Trees (Wadsworth, Belmont, CA,

1984).

[6] McCulloch S. Warren and Walter H. Pitts, Bulletin of Mathe-

matical Biophysics 5, 115 (1943); Jürgen Schmidhuber, Neural

Networks 61, 85 (2015). arXiv:1404.7828.

[7] Riccardo Poli, William B. Langdon, Nicholas F. McPhee

and John R. Koza, A Field Guide to Genetic Programming

(2008).

[8] H. Zhang, “The optimality of Naive Bayes”, Proc. FLAIRS

(2004).

[9] C. Cortes and V. Vapnik, Machine Learning 20, 273 (1995).

[10] ConvnetJS, https://cs.stanford.edu/people/karpathy/convnetjs

/demo/classify2d.html.

(1) 의사결정트리(decision tree)[5]

기호와 논리/규칙의 조합으로 모든 모형을 표현. 순차적. 국소

적. 기호(symbol)주의.

(2) 인공신경망(artificial neural network)[6]

인간의 두뇌를 모방, 신경망 뉴런 간의 연결 가중치 조정으

로 모든 모형을 표현. 딥러닝. 동시적. 광역적. 연결(connec-

tion)주의.

(3) 유전자 프로그래밍(genetic programming)[7]

트리 구조로 유전자 프로그램을 표현. 이 프로그램들이 적절

한 선택압 하에서, 교차와 돌연변이, 그리고 생존을 거친 진화

과정을 통해 모형을 학습. 유전 알고리즘(genetic algorithm).

진화(evolution)주의.

(4) 나이브 베이즈 분류기(Naïve Bayes Classifier)[8]:

(분류) 학습모형들을 베이즈정리를 만족하는 확률모형으로

해석하여, 주어진 데이터에 대한 사후 확률(Posteriori proba-

bility)로 표현. 베이즈(Bayesian)주의.

(5) 서포트벡터머신(Support Vector Machine)[9]

근접 데이터끼리의 유사성을 측정하여, 가장 큰 유사도의 차이

를 갖는 서포트벡터(분류경계) 모형을 유추. 유추(analogy)주의.

2. 학습 방식과 모형의 속성에 따른 분류

기계학습 모형의 학습방식에 따라 다음과 같은 종류로 나뉜다:

(1) 지도학습(supervised learning)

(2) 비지도학습(unsupervised learning)

(3) 준지도학습(semi-supervised learning)

(4) 강화학습(reinforcement learning)

더불어 기계학습 모형의 속성에 따라서,

(A) 판별모형(discriminative model) 학습: 서로 다른 류의 데

이터 사이의 최적 경계를 구분 짓기 위한 경계 모형의 학습과, 이

를 통한 입력 데이터 종류의 예측

(B) 생성모형(generative model) 학습: 데이터 자체의 속성 공

간에서의 분포 모형의 학습(분포추정)과 이 모형을 활용한 (기존

에 없던) 새로운 데이터의 생성.

등으로 분류할 수도 있다. 학습방식에 따른 분류를 좀 더 자세히

살펴보자.

(1) 지도학습(Supervised Learning)

지도학습은, 속성공간의 데이터 에 대한 라벨 가 주어져

있을 때, 와 사이의 관계정보모형 을 학습해내는 경

우를 말한다. 이러한 경우, 기계가 학습한 모형 을 통해

서 얻을 예측치 ′를 ‘지도’할 정답 가 있기 때문에,

정답과 예측치 사이의 오류를 줄이는 방향으로 모형 를

수정하여, 학습을 이루어 내는 방식이라 할 수 있다. 이를 통

하여 최종적으로는 임의의 입력 에 대한 속성 를 예측해내

는 것이 목적이 된다.

특히 라벨 가 불연속적인 유한개의 집합일 경우, 이를 분

류(classification) 문제라 한다. 그림 1은 2차원의 속성공간( ,

)에서 2종의 색상라벨(녹색 or 빨강)을 갖는 데이터들을

분류(2종 분류문제, binary classification)하기 위한 판별모형

을, 인공신경망을 사용한 확률모형으로 표현하여, 지도 학습한

결과를 나타낸 것이다. 여기서 신경망이 학습할 모형은

https://cs.stanford.edu/people/karpathy/convnetjs/demo/classify2d.html

https://cs.stanford.edu/people/karpathy/convnetjs/demo/classify2d.html


REFERENCES

[11] https://en.wikipedia.org/wiki/Regression_analysis.

[12] C. Bishop, k-means clustering, Pattern Recognition and Machine

Learning (2006).

[13] https://en.wikipedia.org/wiki/Principal_component_analysis.

Fig. 3. Clustering process from (a) to (i) by K-means clustering

algorithm.[12]

Fig. 4. PCA(Principal Components Analysis) for reducing and re-en-

gineering the dimensionality of data.[13]

Fig. 2. Linear regression.[11]

a) argmaxy[f(y)]는 f(y)값을 극대화하는 y값을 의미한다.

b) 앞서 소개한대로, 기계학습 모형의 다양한 표현 방법에 따라서 모형의

구체적인 정의와 오차함수의 형태, 그리고 모형파라미터의 최적화 방법

등에서 많은 차이가 있을 수 있다.

(데이터 가 색상일 확률)로 주어지고, 이때

임의의 학습모형 파라미터 와 주어진 에 대한, 최적의 분

류 예측치는 다음과 같이 정의된다a):

′ argmaxy

이때 각 데이터 마다, 예측치 ′과 정답 를 비교하여 적

절한 오차함수를 정의하고, 이 오차함수를 줄이도록 하는 모형

파라미터 의 업데이트(학습)를 모든 훈련 데이터에 대하여

여러 번에 걸쳐서 실행하게 된다.b)

컴퓨터 비전(computer vision) 분야에서의 이미지 인식(image

recognition)은, 대표적인 분류문제로서 이미지에 대한 속성 라

벨(고양이, 강아지, 거북이, … )이 있는 데이터를 사용한 지도

학습으로 접근 가능하다. 최근에는 심층신경망을 활용한 딥러

닝을 활용하여, 더욱 더 복잡한 이미지 데이터들의 다종분류

(1000∼10000) 문제를 매우 정확하게 풀어내고 있으며,

전술한 지도학습을 통한 분별모형과 더불어, 비지도 학습을 사

용한 군집모형을 함께 사용하기도 한다.

또한 라벨 가 연속적인 실수값을 가질 때, 관계모형 을

지도학습하는 문제를, 회귀(regression) 문제라 부른다. 그 예로

서 그림 2는 1차원의 속성공간 에서 연속된 실수값의 라벨

을 갖는 데이터의 회귀문제를 보여준다. 이 경우 신경망이 학습

할 모형 는 바로 예측치 ′에 대응되며, 역시 주어진 모든

데이터에 대하여 ′→로의 오차를 줄이는 방향으로 학습을 수

행하게 된다.

(2) 비지도학습(Unsupervised Learning)

비지도학습은 데이터의 속성 라벨 에 무관하게, 데이터에

담겨있는 특성들을 자체적으로 학습해내는 기계학습 알고리즘

에 해당한다. 지도학습용 라벨정보(인간의 모형)를 사용하지 않

기에, 라벨정보를 획득하기 어려운 경우라도 적용할 수 있는,

데이터를 이해하는 데 있어서 매우 중요한 알고리즘이 되며,

이때 지도 라벨과 관련된 오차함수 대신 문제마다 다른 형태

의 오차함수를 정의하여 사용하게 된다.



Fig. 5. Density estimation using various kernels for a distribution of

100 samples in 1 dimension.[14]

c) 기본적으로 Markov Decision Process의 최적화에 해당.

REFERENCES

[14] http://scikit-learn.org/stable/auto_examples/neighbors/plot_

kde_1d.html.

[15] M. Minsky, SNARC-Stochastic Neural Analog Reinforcement

Calculators (1954).

[16] R. Sutton and A. Barto, Reinforcement Learning: An Intro-

duction (The MIT Press, 1988).

[17] “Playing Atari with Deep Reinforcement Learning”, arXiv:

1312.5602[cs.LG].

[18] David Silver et al., Nature 529, 484 (2016).

[19] Pedro Domingos, Comm. Of the ACM 55(10), 78 (2012).

비지도학습의 대표적인 예로서 군집화(clustering)[12](그림 3),

차원의 축소(dimensionality reduction)[13](그림 4)와 분포추정

(density estimation)[14](그림 5) 등이 있다.

(3) 준지도학습(semi-supervised learning)

준지도 학습은 일반적으로 라벨이 있는 경우와 없는 데이터

가 함께 존재할 때, 있는 경우의 지도학습과 없는 경우의 비지

도학습을 함께 훈련에 사용하는 기계학습 알고리즘에 해당한

다. 특히 많은 양의 이미지 데이터의 경우, 각 이미지마다 라

벨을 부여하는 일에 큰 비용이 발생할 수 있기 때문에 이런

경우 일부 적은 수의 지도학습용 라벨 데이터를 나머지 비 라

벨데이터와 함께 준지도학습 알고리즘에 사용하여, 최종 학습

모형의 성능을 높이게 된다.

(4) 강화학습(reinforcement learning)

강화학습[15,16]은 어떤 환경에서의 상태로 정의된 객체가 현

재의 상태를 인식하여, 선택 가능한 행동 집합에서의 행동을

선택하여, 다른 상태로 진화해갈 때, 누적된 행동선택의 결과

로서 최종적인 보상치를 최대화하는 ‘최적의 의사결정 프로세

스 모형’c)의 학습을 의미한다.

이때 학습 과정에서 시행착오(trial and error)를 거쳐 강화

된 사건/행동(reinforced events)을 학습하기 때문에 인간의 생

존모형 학습방식과 매우 유사하고, 또한 학습 중에 외부 환경

으로부터의 피드백(지도)을 받기 때문에 기본적으로 지도 학습

이라 할 수 있지만, ‘최적의 의사결정 모형’의 동적인 지도와,

데이터의 속성 라벨을 기반으로 한 정적인 일반 지도와는 매

우 다른 측면이 많기 때문에, 따로 강화학습 자체를 독립적인

기계학습으로 분류한다.

‘최적의 의사결정’이라는 매우 일반적이고 중요한 문제에 대

한 모형이기 때문에, 행동심리학, 기계 제어, 운용과학, 신경과

학을 비롯한 인간처럼 학습하고 행동하는 인공지능의 연구분야

에 있어서 매우 중요한 기계학습 분야이며, 이러한 특성으로

인해, 최근에는 심층 신경망을 활용한 딥러닝과 결합하여, 아타리

게임을 정복한 인공지능[17]과 바둑마스터-알파고(AlphaGo)[18]의

핵심 알고리즘으로 사용된 바 있다.

기계학습 알고리즘의 3요소

앞서 소개된 여러 가지 형태의 기계학습 알고리즘은 기본적으

로 다음과 같은 3요소로 구성되어 있고, 이를 통하여 보다 구조

적인 관점에서 기계학습에 대한 이해를 도모할 수 있다.[19] 이 3

요소를 지도학습의 예를 통하여 서술하자면 다음과 같다.

1. 모형의 표현(Representation of Model)

우선 주어진 기계학습 문제와 데이터에 대하여, 입력 변수

와 출력 의 종류와 속성을 정의하고, 데이터를 통해 학

습할 출력모형 에 대한 전산학적 표현(representation)을

결정한다. 예를 들면 인공신경망은 일반적인 기계학습 모형에

대한 연결주의적 표현이다.

이때 모형 는, 주어진 입력 데이터 에 대하여, 표현

의 커다란 틀을 결정하는 여러 가지 하이퍼파라미터 와, 이

를 바탕으로 모형의 보다 구체적인 값을 결정하는 모형의 학

습변수 를 고려하여, 로 생각될 수 있다.

예를 들면, 보다 구체적으로, 인공신경망의 경우 입출력 뉴런

과 은닉층(hidden layer)의 개수, 그리고 뉴런들 간의 연결 상

태나 활성화 함수의 종류와 같은 세부 사항들 모두 모형의 정

보처리방법과 복잡도를 결정하는 하이퍼파라미터 에 속한다

고 할 수 있으며, 이후 뉴런과 뉴런 사이 연결의 가중치들이

모형의 학습변수 에 해당한다.

2. 모형의 평가(Evaluation of Model)

주어진 훈련 데이터 에 대하여 그 시점까지 학습된 모형

http://scikit-learn.org/stable/auto_examples/neighbors/plot_kde_1d.html

http://scikit-learn.org/stable/auto_examples/neighbors/plot_kde_1d.html


d) 실제로 뇌과학 및 신경과학에서는 인간 뇌신경 전체의 연결지도를 만드

는 연구가 매우 활발하다. Human Connectome Project. 물리학과 첨

단기술 2016년 9월호 [신경과학을 위한 물리학] 참조.

e) 어떤 역치 이상에서 갑자기 출력을 증가시키는 매우 단순화된 뉴론의

활성화 모형에 해당한다. 실제로 신경과학에서는 정보의 형태와 신경망

의 구조에 따라서 매우 다양한 형태의 활성화 신호가 나타난다는 것이

밝혀져 있으며, 이러한 활성화 패턴을 역공학으로 인공신경망에 도입하

려는 시도도 많이 있다.

REFERENCES

[20] Cajal and Golgi, The Neuron Doctrin (1888).

[21] R. Sabbatini, “Neurons and Synapses: The History of Its

Discovery”, Brain & Mind Magazine (2003).

[22] McCulloch&Pitts, “Neuron model” (1943).

[23] D. Hebb, “The Organization of Behavior” (1949).

[24] F. Rosenblatt, The Perceptron - a perceiving and recognizing

automaton. Report 85-460-1, Cornell Aeronautical Laboratory

(1957), F. Rosenblatt, Psychological Review 65, 386 (1958).

의 출력값 을 계산하고 이를 바탕으로 한 예측 라

벨값 ′ 을 얻는다. 이를 실제 라벨값 과 비교하여,

지도에 쓰일 적절한 오차 함수 를 정의, 계산 후 ‘평

가’한다. 이후 모든 훈련 데이터에 대해 오차함수가

가 최소화할 수 있는 방향으로 학습 변수를 최적화하게 된다.

(⇒ 3. 모형의 최적화)

이 과정에서 훈련 데이터와 별개로, 학습에 쓰이지 않는 검

증 데이터를 사용하여 일정한 훈련 주기마다 정확도(accuracy)

나 정밀도(precision) 혹은 재현율(recall) 등의 평가 지표들을

계산한 후, 이를 통해 현 시점까지 학습된 모형의 성능과 과적

합(overfitting) 여부를 ‘평가’하고, 학습(최적화)의 계속 여부나,

현재 모형의 표현 자유도(capacity)의 적절성 여부 등을 판단

한다.

3. 모형의 최적화(Optimization of Model)

2번에서 주어진 훈련 데이터 와 현재까지 학습된 모형의

학습변수 로부터, 오차함수 의 값을 얻고 이를 최

소화하는 방향으로 학습변수 를 업데이트한다. 실제 모형의

학습이 이루어지는 매우 중요한 과정이며, 일반적으로 이는 매

우 고차원의 (학습) 변수 공간에서의 최소점 탐사 문제이기 때

문에, 빠르고 효율적인 학습을 위해서 다양한 최적화 알고리즘

들이 활용된다. 또한 앞서, 표현방식에 따라 분류한 다양한 기

계학습 알고리즘 모두 고유의 최적화 방식을 가지고 있다.

인공신경망과 퍼셉트론: 연결주의 인공지능의 탄생

앞서 소개된 기계학습 알고리즘의 세 가지 요소를 바탕으로,

이제 보다 구체적으로 인간의 신경망을 모방한 인공신경망을,

학습모형의 표현기저로 사용한 경우의 기계학습을 살펴보려 한

다. 앞서 분류된 바와 같이 인공신경망은, 뉴런들의 연결구조

와 각 연결간 세기의 조정을 통하여 궁극의 인공지능 모형을

담아낼 수 있다는 신념에 바탕을 두고 있으며, 이런 접근 방식

을 ‘연결주의’라 한다. 인간의 두뇌라는 굉장히 훌륭한 역공학

예제가 이미 존재하기에,d) 그 발전 가능성은 1940∼1950년

대 인공지능의 초창기부터 뉴런모형과 퍼셉트론모형을 통하여

실로 많은 주목을 받아왔지만, 사실 현재 딥러닝의 성공에 이

르기까지는 실로 오랜 기간 여러 번의 추운 겨울의 시기가 있

었으며, 많은 어려움을 극복해낸 결과라고 할 수 있다.

1. 퍼셉트론(Perceptron)

20세기 초 생물학에서 인간 신경세포(neuron)에 대한 이해

가 크게 진전됨에 따라서,[20,21] 인간의 신경세포를 전산 모사한 맥

컬록(Warren McColloch)과 피츠(Walter Pitts)의 뉴런 모형[22]을

통하여 인공지능을 신경망 연결을 통하여 구현하려는 연결주의

가 1940년대에 본격적으로 시작되었다. 또한 이 시기에 발표

된 헵의 학습규칙(Hebb’s Learning Rule, 1949)[23]에 의해 인

간의 뇌에서 학습이 일어날 때, 각 뉴런 간 연결상태에 변화가

일어난다는 사실이 알려지게 되었으며, 이를 통하여 신경망에

서 발생하는 학습의 물리적 본질에 대해 많은 영감을 얻게 되

었다. 이는 인공신경망의 발전에도 많은 영향을 주었으며 헵의

규칙을 반영하여 기존 뉴런 모형의 입력에, 추가적인 가중치

를 부여한 퍼셉트론(Perceptron) 모형이 1958년 Frank

Rosenblatt에 의해 고안되었다.[24]

그림 6 왼쪽 상단과 같이, 퍼셉트론은 각기 다른 연결가중치

를 갖는 다차원의 입력 신호 에 대하여, 가중

합 Σ 을 편향값 (1)와 함께 계산

하고, 값에 따라 정의된 활성화함수 activation function

값을 출력하도록 되어 있으며, 이것이 곧 퍼셉

트론이 표현하는 모형이다. 퍼셉트론 모형의 활성화함수로는

그림 6 상단의 에서와 같이 역치 을 경계로 급격

히 출력이 변하는 계단 함수가 사용되어 를 만족하는

신호이면 을, 아니면 을 출력하도록 설계되어 있다.e)

이러한 퍼셉트론 하나를 기계로 사용한 모형은, 차원의 입력

신호 에 대하여, 개의 학습변수(연결가중치편향)를

가진, 차원의 선형 초평면으로서, 주어진 2종 데이터의

분류문제(binary classification, 이진분류)를 풀기 위한 선형

분별모형(linear classifier)으로 기능할 수 있는데, 로젠블랫은

이러한 분별모형을 퍼셉트론을 통해 학습하기 위한, 퍼셉트론

알고리즘을 발표하였고, 이 알고리즘을 통하면 퍼셉트론 모형



Fig. 6. Perceptron and Multi-Layer Perceptron(MLP): graphical structure, elements and models.

f) 이는 아마도 최초의 뉴로모픽(neuromorphic) 머신이라 생각된다.

이 실제로 2종 선형분별 모형에 수렴할 수 있다는 것을 증명

하였으며(Perceptron Convergence Theorem), 더 나아가 이를

컴퓨터 프로그램이 아닌, 전기 회로 연결을 통한 기계(Mark 1

Machine)로 구현해보였다.f)

2. 다층퍼셉트론

(1) Representation of Model

뉴런모형과 퍼셉트론의 등장과 함께 여러 개의 퍼셉트론 연

결을 통하여 보다 큰 표현자유도(capacity)를 가진 신경망을

구축하고, 이를 복잡한 모형의 학습에 활용하려는 연결주의

(connectionism)를 인공지능의 구현을 위한 중요한 접근 방식

으로 고려하기 시작하였다.

퍼셉트론 유닛으로 구현한 여러 가지 인공신경망 중에 가장

활용도가 높은 신경망은 그림 6 하단과 같은 구조의 다층퍼셉트

론(Multi-Layer Perceptron, MLP)이다. 다층퍼셉트론의 기본구

조는 크게 입력층은닉층출력층의 3부분으로 나뉠 수 있다.

이때 각 층의 순서에 해당하는 기호를 ( ..max )이라

했을 때, 입력층은 , 출력층은 max에 해당되며,

은닉층은 입력층과 출력층 사이의 모든 층을 지칭한다.

이러한 구조로 보면 단퍼셉트론 모형은 입력층 (단유닛)출

력층으로 구성된 최소 단위 모형이 되며, MLP는 출력층의 유

닛이 일반화된 단층 퍼셉트론 모형의 입력층과 출력층 사이에,

각 층당 복수개의 유닛을 갖는 은닉층을 추가하여 보다 큰 표

현자유도를 갖게 만든 신경망이라고 할 수 있다.

MLP의 입력층( )은 단퍼셉트론 모형과 같이, 주어진

차원의 입력신호 에 대응되는 개의 유닛으로 구성

되어 있으며, 개의 유닛을 가진 상위 은닉층( )의

( )번째 유닛 에 모두가 서로 다른 연결 가중치

를 가지고 완전 연결된 형태를 가진다.

이러한 구조로 인하여, 예를 들면 첫 번째 은닉층의 번째

유닛 에 들어오는 신호들의 가중합은, 연결된 두 층

유닛 간의 연결 강도를 기술하는 가중치 행렬 을 사용

하여

(중복 기호 에 대한 합)으로 표


RegressionBinary

ClassificationMulticlass (N≥2)

Classification

Number of Units

1 1 N

Activation Function

IdentityFunction

Logistic Sigmoid

SoftMax

Error Function

Squared Error LogLikelihoodCategorical

Cross Entropy

Table 1. (Row: structures and features of output layer of multi-layer

perceptrons) by (Column: various supervised learning problems).현할 수 있으며, 은닉층 유닛

는 의 신호에 대

해 적절한 활성화 함수 로 정의된 출력

을 내어놓고, 이 출력은 다시 연결가중치 로 연결된 상

위 은닉층이나 출력층의 번째 유닛의 입력으로 기능한다.

기본적으로 은닉층은 이렇게 인접한 두 층의 모든 뉴런들이

서로 완전 연결되는 단층 퍼셉트론을 반복하여 층층이 쌓아서

완성되며, 이때 각 층에서의 유닛들끼리는 연결이 없다.

이러한 과정에서 다층퍼셉트론은 입력층으로부터 출력층까지

한 방향으로만 정보가 업데이트되기 때문에, 이를 완전연결 앞

먹임 신경망, 혹은 완전연결 순방향 신경망(Fully-connected

Feed-Forward Neural network)이라고도 부른다.

마지막으로 출력층은 은닉층을 쌓아온 방식대로 단층 퍼셉트

론을 하나 더 쌓고 이를 최종 은닉층과 완전 연결시키면 된다.

그림 6과 같이 개의 유닛을 가진 출력층( max )에서,

출력층의 ( )번째 유닛 max 에 들어오는 신호들의

가중합은 역시 max

max max 으로 기술되고 이 가

중합을 인자로 하는 최종 출력은 출력층의 활성화 함수

max에 달려있다. 결과적으로 현재 MLP 모형의 모든 연

결가중치 파라미터( max )에 대하여, 어떤 입력 데이

터 가 주어졌을 때, 전체 MLP 모형의 출력값은 그림

6의 우측 하단과 같이

max │ … max

로 표현된다.

(2) Evaluation of Model

이때 출력층은 전체 신경망 모형의 속성과 출력값을 최종적

으로 결정하기에 기계학습 문제의 종류에 따라서 출력층의 유

닛 개수와 활성화 함수의 정의가 달라지게 되며 이와 더불어

최종 출력값을 평가할 오차함수의 종류 또한 달라진다. 이에

앞서 소개한 여러 가지 지도학습 문제들에 대하여, 많이 쓰이

는 출력층의 형태와 오차함수를 Table 1에 정리하였다.

예를 들면 입력 신호들의 분류를 위한 분별모형을 다층 퍼

셉트론을 통하여 학습한다고 하였을 때, 이 분별모형의 출력은

적절한 확률모형에 대응되도록 설계한다. 이때 이종/이진 분류

일 경우, 출력층에 유닛을 1개, 혹은 2개를 설정할 수 있는데,

1개를 설정할 경우에는 활성화 함수를 Logistic Sigmoid 함수

(exp

)로 설정하여, 이를 신호일 확률

Psf, 비신호일 확률 1Ps에 대응시킨다. 이때 각 입력데이터

에 주어진 지도 라벨( 신호/비신호)을 참고하면, 주어진 입

력이 실제 그의 속성일 (예측) 확률 이 얻어지고,

결과적으로 모든 입력데이터에 대한 예측 확률곱을 우도함수

(Likelihood)로 사용하여, 음수의 로그 우도 함수(negative

LogLikelihood)를 주어진 입력에 대한 오차함수 로

정의하고, 이를 최소화하는 값을 최적화 과정을 통하여 학

습하게 된다.

일반적으로 2종 이상 종의 다종분류모형의 경우, 최종 출

력의 유닛은 그림 6과 같이 개를 설정하고, 그 중

번째 유닛의 출력모형은, 입력 신호가 번째 종일 확률모형

으로 설정, 이를 SoftMax 함수 max∑ expmax

expmax를

사용하여 할당한 뒤, 앞에서와 비슷한 방식으로, 이 유닛 출력

값들이 주어진 속성라벨( )에 부합할 예측 확률을 Cross-

Entropy 타입의 오차함수 로 정의하여, 이 값을 최

소화하는 값들을 학습하게 된다.

회귀문제의 경우에는 지도라벨값이 연속된 실수이고, 출력모

형은 이와 같아야 하므로 출력층의 유닛은 1개로 잡고 활성화

함수는 선형함수로 설정한다(′maxmax). 이때 주

어진 모형의 예측치 ′와 지도라벨값 의 차이를

제곱오차(Squared Error) 형식의 오차함수 로 정의

하여 역시 이 값을 최소화하는 값들을 학습하게 된다.

(3) 다층퍼셉트론의 표현능력: 활성화함수와 Universal Ap-

proximation Theorem

다층퍼셉트론과 같이, 많은 수의 뉴런들을 가지는 신경망들

은 뉴런과 뉴런의 연결 개수만큼의 가중치들을 모델의 학습

변수(혹은 representation parameter)로 가지게 되며, 각 은닉

층에서의 뉴런의 수(너비)나, 은닉층의 수(깊이)를 증가시키는

방식으로 신경망 모형의 표현 능력을 향상시킬 수 있다.

그렇다면, 다차원에서 일반적으로 비선형적인 임의의 연속

함수 모형을 다층퍼셉트론 모형이 커버할 수 있을까? 이는 뉴

런의 연결을 통한 인공지능의 구현에 있어서 매우 중요한 질

문일 것이다. 이에 관하여는 Universal Approximation Theorem

이라 불리는 보다 엄밀한 수학적 정리가 증명되어있다. 1989



Fig. 7. Illustration of the capability of a MLP to approximate functions

(a) f(x) = x2, (b) f(x) = sin(x), (c) f(x) = |x|, and (d) f(x) = H(x) where

H(x) is the Heaviside step function. N = 50 data points, shown as blue

dots, have been sampled uniformly in x over the interval (‒1, 1) and

the corresponding values of f(x) evaluated. These data points are then

used to train a MLP with 1 hidden layer having 3 hidden units with

'tanh' activation functions and linear output unit. The resulting net-

work functions are shown by the red curves, and the outputs of the

three hidden units are shown by the three dashed curves.[12]

g) Universal Approximation Theorem은 다층퍼셉트론을 사용하여 임의

의 다변수 연속함수로의 universal approximation이 가능하다는 증명

일 뿐, 실제로 주어진 데이터의 충분한 학습에 필요한 각 층의 뉴런 개

수나 은닉층의 깊이에 대한 정보를 주지는 못한다.

h) 매 iteration마다 훈련 데이터를 1개씩만 사용하여 모델의 예측값과 오

차함수를 구하고, 이에 대한 가중치의 업데이트를 할 수도 있고, 보다

일반적으로 개(≤≤) 데이터로 이루어진 mini-batch를 단위

훈련데이터 셋으로 사용할 수도 있다. 이때 을 batch size라 하고, 1

iteration당 가중치의 학습은 다음과 같은 평균오차함수,

∑

를 사용하여 다음과 같이 표현된다:

→ ∇

Batch size를 최대치 으로 설정하면, 매 iteration마다 가능한 가장

정교한 오차함수의 정보를 가지고 가중치의 최적화를 이룰 수 있으나,

상황에 따라서 메모리와 같은 하드웨어적 제약이 있을 수 있으며, 또한

가중치가 근처 국소최저점으로만 안착할 가능성이 높다. 반면에 batch

size를 작게 설정할수록, 오차함수의 해상도가 좋지 않기 때문에 가중

치의 업데이트 궤적에 불확실성이 커지는 측면이 있지만, 하드웨어적

제약은 피할 수 있으며(시간 제외), 더불어 광역최저점을 찾아가는 데

에 있어서 어느 정도 궤적의 불확실성이 도움이 되는 측면이 있기 때

문에, 문제마다 다르지만, 보통 batch size를 1과 사이, O(10~1000)

정도로 설정한다. =1인 경우를, Stochastic Gradient Decent(SGD)

방법이라 부르며, 그 중간을 (mini-batch) GD, =인 경우를 batch

GD라 부른다.

REFERENCES

[25] G. Cybenko, Mathematics of Control, Signals and Systems

2, 303 (1989).

[26] Kurt Hornik, Neural Networks 4, 251 (1991).

[27] David E. Rumelhart, Geoffrey E. Hinton and Ronald J.

Williams, Nature 323, 533 (1986).

년 Cybenko[25]는, Sigmoid 함수를 활성화 함수로 가지는, 은

닉층의 개수가 하나 이상인 다층퍼셉트론은 임의의 연속 다변

수 함수를 원하는 정도의 정확도로 근사할 수 있음을 보였으

며, 1991년 Hornik[26]은 이를 보다 일반화하여 꼭 시그모이

드 형식의 활성화 함수가 아니더라도, 비선형의 활성화 함수를

가지는 다층 퍼셉트론이 범용 근사자(universal approximator)

가 될 수 있음을 보였다.g) 수많은 유닛들의 출력이 가중합되어

범용 근사자로 기능하는 신경망의 예제를, 그림 7에서 볼 수

있는데, 이는 여러 가지 함수모형에서 비롯된 데이터(파란점)들

을, 다층 퍼셉트론(3개의 tanh 유닛을 갖는 1개 은닉층, 1개

선형출력유닛)을 사용하여 학습해낸 회귀모형(빨간 실선)으로서,

최종 회귀모형은 적절히 가중치가 곱해진 나머지 3대시선(은닉

유닛의 출력)들 합이며, 이 모형이 데이터를 훌륭하게 근사하

고 있음을 볼 수 있다.

(4) 다층퍼셉트론 모형의 훈련과 학습: Optimization of Model

전술한 바와 같이 출력층과 오차함수까지 잘 정의된 다층퍼

셉트론은, 개개의 훈련 데이터 와 현재까지의 학습된 연결

가중치 에 대하여, 모형의 예측치 와 이를 (지도라벨

과 함께) 평가하는 오차함수값 을 갖게 되며, 이 오차

함수 값을 줄이는 방향으로 경사하강법(Gradient Decent

Method)을 사용하여 가중치를 최적화하면서 훈련 데이터를 보

다 잘 설명하는 모형을 학습한다( : 학습률, Learning Rate): → ∇

이때 신경망의 수많은 가중치들을 한꺼번에 바꾸는 것이 매

우 힘들기 때문에 역전파(Back-propagation) 알고리즘[27]을 사

용하여, 출력층부터 입력층까지 거꾸로 한 층씩 업데이트한다.

역전파 알고리즘은 다층퍼셉트론의 학습을 실질적으로 가능하

게 만든 돌파구로서 현재 신경망을 통한 기계학습에 매우 중

요한 역할을 담당하고 있으며, 더욱 빠르고 효율적인 최적화

알고리즘에 대한 연구가 계속되고 있다.

한편 이런 방식으로 학습에 쓰일 오차함수는 낱개부터 전체

까지, 매우 다양한 사이즈의 훈련 데이터집합을 사용하여 정의

될 수가 있는데, 이 단위가 되는 훈련데이터집합을 mini-

batch이라 부른다.h) 이때 한 mini-batch에 대한 신경망 모형

출력들의 평균오차함수를 계산하고, 이를 바탕으로 경사하강법

에 의한 가중치 업데이트를 실시하는 것을 1 iteration의 학습


REFERENCES

[28] http://www.asimovinstitute.org/neural-network-zoo/.

이라 한다. 또한 아직 학습에 참여하지 않은 남은 mini-batch

들에 대한 iteration을 반복하여, 가지고 있는 모든 훈련 데이

터를 한 번씩 다 사용하여 학습을 끝내는 기간을 1 epoch의

학습이라고 한다. 그리고 매 epoch 후, 모형의 성능을 평가하

여 만족스러운 학습이 이루어질 때까지, 여러 번의 epoch를

반복하여 학습을 실행한다.

(5) 다층퍼셉트론 모형의 검증: Validation of Model

매 epoch 후, 훈련에 쓰이지 않는 검증 데이터를 함께 사용

하여, 오차함수 값을 비롯한 현재 모형에 대한 여러 성능평가

지표(정확도, 정밀도, 재현율)들을 계산하여, 현재 모형의 성능

과 과적합(overfitting) 여부를 판단한 후, 학습 계속 여부를 결

정한다. 만일 검증 데이터에서의 성능이 훈련 데이터보다 나쁘

고, 또한 점점 더 나빠지고 있다면, 이는 현재의 학습 모형이

훈련 데이터에만 너무 최적화되어 예측의 일반성을 잃고 있는

과적합 상태라 할 수 있기에, 학습곡선(Learning Curve: 성능

&오차 vs epoch)을 관찰해가며, 과적합이 일어나기 전에 학습

을 중지할 수 있도록 한다.

심층신경망(Deep Neural Network)과

딥러닝(Deep Learning)

최근 기계학습의 놀라운 발전을 이끌고 있는 딥러닝은 일반

적으로 은닉층의 개수가 2∼3 이상의 심층신경망(Deep Neural

Networks)을 활용한 기계 학습을 의미하며, 심층신경망에는 이

미 소개된 다층퍼셉트론뿐만 아니라, 데이터의 구조와, 기계학

습의 종류에 따라서 매우 다양한 형태의 신경망들이 고안되어

활용되고 있다.[28]

다른 기계학습 알고리즘들과 비교하였을 때 심층신경망을 사

용한 딥러닝의 장점은 일단 차원이 매우 크고 복잡한 데이터

들을 커버할 만큼 강력한 표현능력을 가진 모형을, 여러 층의

신경망 연결을 통하여 어렵지 않게 구현할 수 있다는 점이다.

하지만 이는 단점으로도 작용하여, 가중치 공간의 차원이 너무

큰 경우, 학습을 위한 가중치 최적화 알고리즘 구현이 어렵다

는 것, 또한 이를 위해서 기본적으로 데이터가 매우 많이 필요

하다는 것, 그리고 모형의 속성이 신경망의 여러 유닛에 동시

적으로 분산되어 학습되고 발현되기 때문에 인간이 해석하고

컨트롤하기 어렵다는 점 등의 단점과, 동시에 풀어야 할 문제

들이 존재한다.

사실 1950년대 퍼셉트론 모형 이후, 연결주의에 입각한 2

∼3층 이상의 다층퍼셉트론을 활용한 딥러닝 모형은 이미 존

재한 지 오래되었으나, 신경망이 넓고 깊어질수록 증가하는 수

많은 가중치(O(100 k∼1000 M))의 학습은 쉬운 일이 아니다.

1980년대 역전파 알고리즘의 고안으로 학습 및 훈련 프로세

스의 성능에 많은 발전이 있었지만 일정수 이상의 다층에서는

여전히 학습 성능에 한계가 존재하였다. 이와 연관된 대표적인

문제 중의 하나로 Sigmoid 함수를 은닉유닛의 활성화함수로

사용한 심층신경망에서의 ‘기울기 소실문제(Varnishing Gradient

problem)’가 있으며, 이는 은닉층이 깊을수록, 역전파 알고리

즘을 통한 가중치의 업데이트가, 입력층 부근으로 갈수록 잘

일어나지 않는 현상을 의미한다.

이러한 어려움을 극복한 최근의 딥러닝 성능 향상은 다양한

요인들이 있겠지만, 주로 다음과 같은 면에서의 발전에 기인한

다:

1. GPU의 활용: 심층신경망 모형의 거대 행렬곱 연산을, GPU

의 수많은 병렬코어(GPU당 수천 개) 들을 사용하여, 훨씬

효율적으로 처리하게 되었다. 이는 같은 코어수의 CPU 대

비, 비용 및 시간 면에서 엄청난 이득을 가져다주었으며, 실

질적으로 실험실 차원에서, 길게는 몇 주에서 몇 달 안에

의미있는 학습을 수행 가능하게 만들었다.

2. 풍부한 데이터: 풍부한 데이터의 존재는 고차원의 속성변수

공간에서 존재할 데이터의 복잡한 분포양상과 윤곽을 보고

이를 학습하는데 있어서 매우 필수적인 요소이다. 인터넷이

활성화되면서, 대량의 (지도/비지도) 기계학습용 이미지 및

음성 데이터를 쉽게 확보할 수 있게 되었다.

3. ReLU(Rectified Linear Unit) 활성화함수의 활용: 전술한 ‘기

울기 소실문제’는 상당 부분, 입력이 커질 때 기울기가 0으

로 점근하는 Sigmoid 함수의 성질에 기인하는 면이 있기

때문에, 은닉층의 활성화 함수를 구간적 선형(piece-wise

linear) 함수인 ReLU 형식으로 대체하여, 결과적으로 심층

망 가중치의 최적화 효율에 많은 개선을 이루게 되었다.

4. 신경망모형의 자유도의 제한: 부족한 데이터양 대비 너무

큰 표현자유도의 신경망 모형은 학습에 있어서 과적합에 빠

지기 매우 쉽다. 이에 복잡한 모형을 위한 큰 표현자유도의

신경망 아키텍처를 쓰되, 신경망의 자유도를 부분적/순간적

으로 제한하는 여러 기법들이 발전되었다.

① 가중치의 제한(L1/L2 Regularization):

오차 함수에 가중치 제한항을 더하여, 학습시 가중치가

너무 커지지 않도록 하고 이로써 뉴런 입력 신호(가중합)

의 크기도 발산하지 않도록 적절히 제어한다.

② 신경망 뉴런의 부분적 활성화(Dropout):

신경망의 복잡성이 클 경우 과적합이 보다 쉽게 일어나



REFERENCES

[29] Geoffrey E. Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya

Sutskever and Ruslan R. Salakhutdinov, “Improving neural

networks by preventing co-adaptation of feature detectors”

(2012). arXiv:1207.0580 [cs.NE].

[30] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard,

W. Hubbard and L. D. Jackel, Neural Comput. 1, 541 (1989).

게 되는데, Dropout[29]을 통해 처음 설정한 신경망 뉴런

중의 일부를, 어느 epoch 각각의 iteration마다 임의로

비활성화 시키고, 부분적으로만 활성화된 신경망을 가지

고 학습한다. 이런 랜덤 부분 신경망들의 학습을 평균

내어, 한 epoch 동안 전체 신경망의 학습된 가중치로 사

용한다.

5. 합성곱 신경망(convolutional neural network, CNN)이나,

재귀 신경망(recurrent neural network, RNN)과 같이, 다양

한 종류의 데이터 특성에 맞는 신경망의 고안 및 활용.

6. 사전 비지도 학습을 통한 양질의 가중치 초기값의 선택.

데이터 속성의 계층적 학습과

물리적 딥러닝 프레임의 건설

여기서 딥러닝에 관하여 중요한 궁금증이 생긴다. 앞서 소개

한 Universal Approximation Theorem에 따르면, 기본적으로

은닉층의 개수가 하나 이상인 신경망은 범용 근사자(universal

approximator)로서 기능할 수 있으므로, 복잡도가 큰 신경망을

만들 때, 층수를 늘리는 대신, 각 층의 뉴런 개수를 늘리는 방

식으로 접근하면 안될까? 즉 딥러닝이 아닌 와이드 러닝으로

는 왜 접근하지 않을까?라는 질문이 생긴다.

이에 대해서는 일단 체험적인(heuristic) 이유가 매우 크다고

한다. 즉 비슷한 수의 퍼셉트론과 연결가중치를 상정하여 실험

을 해보면, 적절한 너비로 층을 깊게 쌓는 것이, 큰 너비로 층

을 얕게 쌓는 것보다, 학습이 보다 효율적으로 일어난다는 것

이다. 사실 현재 딥러닝 프레임의 성공적인 적용과 활용을 넘

어서, 이런 학습이 가능한 이유에 대해 생각해보고, 이에 대한

이론적 토대를 마련하는 것은 사실 연결주의를 통한 궁극적인

인공지능의 구현에 있어서 가장 중요하고 근본적인 도전 과제

라 할 수 있으며, 컴퓨터 과학을 비롯하여 수학, 물리학, 신경

과학, 뇌과학, 인지과학, 통계학 등등을 아우르는 학제간 연구

가 많이 필요한 영역이라고 판단한다.

심층망을 통한 학습이 잘 되는 이유로는 데이터 속성의 계

층적 학습이 가능하다는 데에서 주요 원인을 찾을 수도 있다.

즉, 어떤 데이터의 숨은 속성에 대한 모형을 학습할 때, 건설

하려는 최종 모형이, 계층성이 있는 서로 다른 스케일에서의

유효 모형들의 합성이라고 생각할 수 있다면, 여러 층의 신경

망을 사용하는 것이, 데이터가 가진 계층적인 속성들을 첫 번

째 층부터 시작하여, 보다 심층의 신경망으로 업 스케일 합성

해가며 보다 효율적인 학습을 이루어 낼 수 있다는 것이다.

이러한 심층신경망을 통한 데이터 속성의 계층적 학습 모형

은, 물리 모형들의 특성과 비슷한 면이 있다. 많은 경우 물리

모형은 어떤 에너지 스케일에서의 부분 속성들의 합으로써 그

스케일의 유효 모형을 구성하고, 이 유효 모형은 또한 스케일

파라미터가 변화함에 따라서, 다른 물리적 자유도와 모형 파라

미터를 갖는, 다른 스케일 계층의 유효 모형으로 변화해간다.

이때 서로 다른 계층에서의 유효 모형끼리의 전환 연결이, 예

를 들자면 유효 양자장론에서와 같이, 비슷한 이론 프레임 안

에서 재규격화군(renormalization group)과 매칭(matching)을

통하여 자연스럽게 이루어질 수도 있고, 에너지 스케일이나 혹

은 양적인 측면에서 크게 다를 경우에는 현존하는 유효 이론

프레임 간의 매칭에 어려움이 있을 수도 있다.

중요한 사실은, 자연에 대한 인식을 담은 어떤 언어적 개념

이나 물리 모형들이, 보다 근본적인 세부 단어/모형들의 합임

과 동시에, 보다 일반적으로는 이러한 세부 모형들의 총합이

다시 계층적으로 합성되어 다른 계층에서 발현된 유효 모형으

로 정의될 수 있다면, 이러한 모델링 법칙이 유효한 어떤 영상

데이터나, 특수한 물리 시스템의 경우, 데이터에 담긴 속성을,

계층적인 신경망 모형을 통해 담아내려는 시도가 상당히 효과

적일 수 있다는 점이다. 또한 더 나아가 현재 딥러닝이 성공적

일 수 있는 이유를 보다 근본적으로 이해하고, 최적화된 성능

의 신경망을 건설하기 위해서는 데이터 자체가 가진 물리적

수학적 특성을 이해하는 것이 매우 중요하다는 결론도 유추해

낼 수 있다.

이러한 논의의 연장선상에서 보면, 딥러닝 성능의 향상은,

직접적으로 (여러 계층의 유효 시스템에서 정의된) 데이터 특

성에 최적화된 신경망의 설계에 달려있다 할 수 있을 것이며,

이에 대한 재미있는 예를, 다음의 합성곱 신경망에서 찾아볼

수 있다.

합성곱 신경망(Convolutional Neural Network)과

영상 데이터의 계층적 학습

딥러닝에서 심층신경망을 통한 데이터 속성의 계층적 학습을

확인해 볼 수 있는 예는, 영상인식 분야에서 찾아 볼 수 있는

데, 실제로 영상인식에서 혁명적인 발전을 이루어 낸 심층신경

망의 큰 특징은 바로 그림 8과 같은 합성곱 신경망(Convolu-

tional Neural Network, CNN)을 활용한다는 점이다.

CNN[30]은 영상 데이터의 처리를 위해 특수한 연결 구조를


Fig. 8. Convolutional Neural Network with convolution and sub-

sampling (pooling) operations.[31]

Fig. 9. An illustration of the CNN architecture of AlexNet.[33]

REFERENCES

[31] https://commons.wikimedia.org/wiki/File%3ATypical_cnn.

png.

[32] http://www.image-net.org/challenges/LSVRC/.

[33] A. Krizhevsky, I. Sutskever and G. Hinton, “Imagenet clas-

sification with deep convolutional neural networks”, In:

NIPS (2012).

가지도록 고안된 다층 신경망으로, 크게 보면 고차원의 영상데

이터를 입력으로 받는 (입력층)에 (특징추출망)이 연결되어, (특

징추출망)의 출력을 다시 입력으로 받아 분류모형을 학습해내

는 (분별망)과 이에 연결된 최종 (출력층)으로 구성되어 있는데,

이는 기존 (입력층) (분별망은닉층) (출력층)으로만 구성된

다층 퍼셉트론과 비교하여 (입력층)과 (분별망) 사이에 (특징추

출망)이 추가된 형태를 갖는다.

이러한 설계의 이유로는 일단 1) 이미지 데이터의 경우 입력

층의 속성변수차원(유닛개수)이 해상도에 따라 수백에서 수백만

에 이르기 때문에, 이들에 관련된 모형을 단순히 완전연결된

다층퍼셉트론 형태의 심층신경망을 이용하여 학습하기에는 연

결 가중치 파라미터의 수가 너무 많기 때문이고, 둘째로 2) 이

미지나 음성 데이터와 같이 위상이나 기하학적 구조가 있는

경우에는 입력데이터를 1차원 뉴런으로 단순 나열하여 완전

연결하기보다는, 데이터 구조에서의 국소적인 패턴에 주목할

수 있는 보다 효율적인 연결이 필요하다는 데에 있다.

이때 (특징추출망)은 영상/음성 데이터에 담긴 기하학적/위

상학적 구조를, 데이터의 차원을 줄이며, 효율적으로 추출할

수 있도록 고안되었으며, (특징추출망)의 하위 구조는 (합성곱

층)에 연결된 (서브샘플링층), 이러한 두 층의 조합이 반복 적

층된 형태를 갖는다. (합성곱층)은 각기 다른 가중치를 갖는 다

양한 구조의 합성곱커널(convolution kernel)들을, 입력층의 모

든 가능한 위치에 대해 적용하여, 이러한 연산의 결과로 생성

된, 차원이 줄어든 속성맵(feature map)층을 의미하는데, 입력

데이터에 대한 합성곱 연산으로 연결된 연결을 통하여, 국소적

인 영역에서의 특성을 효율적으로 추출하는 기능을 하게 된다.

(합성곱층) 다음에 이어진 (서브샘플링층)은 만들어진 속성맵에

대하여, 대상이 되는 부분적인 뉴런들에 대한 최대치(max

pooling)나, 평균치(average pooling)를 취하여 서브샘플링 속

성맵(subsampled feature map)층을 만들어내는 연산을 통하

여, 역시 속성맵 데이터의 공간적 해상도를 줄이며 데이터의

차원을 축소하는 역할을 하게 되며, 이렇게 (합성곱층)과 (서브

샘플링층)을 통해 추출된 정보는, 이미지의 입력층에서 어떤

구조를 갖는 신호의 위치가 바뀌어도, 그 위치에 무관하게 신

호의 특징을 추출할 수 있는 성질을 갖게 된다(Translation

Invariance, 병진대칭성).

(분류망)과 (출력층)은 앞서 소개된, 완전 연결된 다층 퍼셉

트론으로 되어 있으며, (특징추출망)을 통해 저차원으로 추출된

입력데이터의 핵심 정보들을, 입력으로 받아서 (분류문제의 경

우) 입력데이터의 분류 모형을 학습하고, 이를 최종(출력층)에

서 확률모형값을 출력한다.

한 예로 그림 9는, ILSVRC[32]라는 이미지 인식 대회에서

2012년도에 우승한 AlexNet[33]이라는 인공신경망의 CNN 구조

를 나타내고 있는데, AlexNet은 심층의 CNN을 영상인식에 본

격적으로 활용한 결과, 기존의 알고리즘 대비 매우 큰 성능차

로 우승하였고, 이는 딥러닝의 확산에 매우 큰 계기가 되었다.

처음 224×224 (pixel)×3 (R/G/B)의 입력변수차원을 가진 영

상 입력 데이터는, CNN (특징추출망)의 (합성곱×서브샘플링)

의 연산층을 5번 거치면서, 그 차원이 크게 줄어든 출력을 내

어놓고, 이것을 다시 완전 연결된 3층의 다층퍼셉트론으로 구

성된 (분별망)의 입력(4096개의 뉴런)으로 사용하여 최종 1000

개의 SoftMax 출력을 갖는 1000종 분별 모형을 학습해낸다.

ILSVRC의 최고 결과는 2012년 AlexNet이, top5 에러율에

서, 전년의 26%에서 16%로의 향상을 이루어냈고, 이후 보다

깊은 심층망들을 활용한 발전이 이루어져, 2017년에는 2%까

지 향상되었다. 이는 보통 5% 이내로 평가되는 인간의 에러율

과 비교할 때 매우 의미심장한 발전이라 할 수 있다.

마지막으로 그림 10은, 전술한 심층 신경망을 통한 데이터

속성의 계층적 학습을, 이미지 데이터를 학습한 합성곱 신경망

을 통하여 확인해 볼 수 있는 예로서, AlexNet과 같은 CNN

https://commons.wikimedia.org/wiki/File%3ATypical_cnn.png

https://commons.wikimedia.org/wiki/File%3ATypical_cnn.png



Fig. 10. Visualization of features in a fully trained model. For each fea-

ture map we also show the corresponding image patches. Note: (i)

the strong grouping within each feature map, (ii) greater invariance

at higher layers and (iii) exaggeration of discriminative parts of the

image.[34]

REFERENCES

[34] Matthew D. Zeiler and R. Fergus, “Visualizing and Under-

standing Convolutional Networks”, European conference on

computer vision, 818-833.

[35] David H. Ackley, Geoffrey E. Hinton and Terrence J. Sejnowski,

Cognitive Science 9, 147 (1985).

[36] Diederik P. Kingma and Max Welling, “Auto-Encoding

Variational Bayes”, arXiv:1312.6114 [stat.ML].

[37] Ian Goodfellow, et al., “Generative Adversarial Networks”,

In: NIPS (2014).

구조에서, (특징추출망)을 이루고 있는 5개 (합성곱층)들에 학

습된 중요 정보를, 다시 pixel 공간에 투영해본 이미지(Decon-

volved Image)를 나타내고 있다. 이에 따르면 첫 번째 층에서

는 주로 경계선의 일부분이나, texture, 색상 등등, 이미지를

구성하는 매우 기본적인 블록들을 학습했음을 알 수 있고, 깊

은 층으로 갈수록 그들이 조합되어 점점 더 크고 복잡한 패턴

의 이미지를 학습하여, 최종적으로는 전체 이미지의 스케일에

서, 중요한 속성을 효과적으로 담아내고 있음을 확인해볼 수

있다.

이렇게 이미지 데이터와 속성라벨을 매핑하는 인식모형을,

CNN이 매우 잘 학습해내는 사실이 의미하는 바는 다음과 같

다. 우선 1) CNN 자체의 정보 추출 방식이, 이미지 데이터 인

식모형의 속성(물리)에 매우 잘 부합한다는 점. 두 번째로는 2)

이렇게 물리에 기반한 효율적인 정보 추출방식을 신경망의 설

계에 최대한 활용하면, 주어진 가용 계산 자원에 대하여 정보

처리 신경망을 더욱 심층화하여, 데이터 유효 속성의 더욱 촘

촘한 계층적 학습이 가능해질 수 있고 이러한 방식으로 신경

망 모형의 성능에 많은 향상을 이룰 수 있다는 사실이다. 특히

이미지 데이터의 학습에 대해서, 신경망의 깊이가 최종 학습모

형의 성능향상에 매우 중요한 요인이 된다는 점을 알 수 있는

데, 예를 들면 2014년 googleLeNet은 약 100층의 신경망을

사용하여 top5 에러값을 7%까지 줄였으며, 2015년 ResNet은

152층을 사용하여 top5 에러 3.6%를 달성하였다.

생성 모형(Generative Model)과 적대적 생성 신경망

(Generative Adversarial Network)

현재까지 딥러닝을 위한 심층신경망의 예를, 이미지의 분류

를 위한 분별 모형 학습을 통하여 알아보았다. 분별 모형은 간

단히 표현하자면 입력공간에서, 서로 다른 신호 간의 경계(예

를 들자면 분별모형의 출력이 확률(0: 잡음, 1: 신호)이라면, 0.5

에 해당하는 경계면)에 대한 모형이라 할 수 있다. 그렇다면

그 경계가 아니라, 잡음과 신호의 분포도(distribution) 그 자체

는 모형으로 학습할 수 없을까? 고양이 사진으로부터, 그 사진

에 담긴 고양이의 모든 것을 그대로 신경망 모형으로 담아낼

수 있을까? 그리하여 학습된 고양이 모형으로부터 고양이의

사진을 더욱 정교하게 만들어내거나, 학습된 고양이의 속성을

활용하여 새로운 이미지를 창조해낼 수 있을까? 이에 대한 물

음에는 바로 생성 모형(generative model)에서 어느 정도 답을

찾을 수 있다.

앞서 여러 가지 기계 학습의 종류에 대해 소개한 바와 같이,

생성 모형은 기본적으로 비지도 학습을 통한 밀도 추정

(density estimation), 즉 데이터의 입력속성공간 에서 그들

의 분포가 따르는 어떤 확률 모형 를 학습해내고, 학습

한 모형을 바탕으로 기존에 없던 새로운 데이터를 생성해내는

것을 목표로 하는 기계 학습 모형의 한 종류이다. 특히 데이터

에 주어진 특별한 사전 지도 라벨의 유무에 상관없이 데이터

자체에 대한 완벽한 이해와 그 속성의 자유로운 활용을 목표

로 하기 때문에, 보다 근본적인 인공지능의 구현을 위한 매우

중요한 기계학습분야라 할 수 있다. 앞서 예를 들었던 기계학

습의 분별 모형들도 사실 데이터들에 대한 완벽한 생성 모형

이 주어진다면, 이를 활용하여 최적의 분별 모형을 알아낼 수

도 있다(Neyman-Pearson Lemma).

생성 모형 알고리즘으로는 Boltzmann Machine,[35] Varia-

tional Autoencoder(VAE)[36]와 같은 예들이 있으며, 더불어 최

근에 많은 주목을 받고 있는 적대적 생성 신경망(Generative

Adversarial Network, GAN)[37]도 여기에 속한다.

분별 모형과 같은 지도 학습 모형과 비교해 볼 때, 생성 모

형과 같은 비지도 학습 모형 건설의 큰 특징은 잠재 변수

(latent variable) 공간 의 설정 및 활용이라고 할 수 있다.

잠재 변수는 데이터를 잘 설명하는 (그의 정확한 의미는 변수

마다 명확히 정의되지 않은) 어떤 유효 차원의 속성 변수를 뜻

하며, 보통 무의미할 수도 있는 다차원을 포함한 입력 데이터


Fig. 11. Vector arithmetic for visual concepts. For each column, the

Z vectors of samples are averaged. Arithmetic was then performed on

the mean vectors creating a new vector Y. The center sample on the

right hand side is produce by feeding Y as input to the generator.[38]

REFERENCES

[38] Alec Radford, Luke Metz and Soumith Chintala, “Unsuper-

vised Representation Learning with Deep Convolutional Gen-

erative Adversarial Networks”, arXiv:1511.06434 [cs.LG].

로부터 적절히 차원이 축소되어 데이터의 핵심을 인코딩

(encoding) 해낼 수 있는 유효 차원의 역할을 맡는다.

이를 통해 좀 더 일반적으로 생각해보면, 지도 학습 분별 모

형의 경우, 데이터 가 가진 속성 라벨 들은, 속성이 확률모

형 으로서 잘 축약 정의된 잠재 변수 공간(∼ )

에서, 사전 지식에 의해 데이터의 종류를 그 라벨 값으로 인

코딩해놓은 유효 잠재변수값, 혹은 유효 잠재변수모형

이라 할 수 있으며, 이런 의미에서의 지도 학습이란, 데이터

를 미리 인코딩된 유효 잠재변수 값에 대응시키는 모형

을 학습( )해내는 과정이라 생각할 수 있다.

반면에 미리 인코딩된 유효 잠재변수모형이 없는 비지도 학

습 데이터의 경우에는, 자체를 적절한 잠재변수공간

에서의 학습을 통하여 얻거나 (예를 들면, Autoencoder의 경

우), VAE나 GAN 경우에는, 각 데이터마다 적절한 를 가

정하여 이 샘플을 입력으로 사용했을 때, 주어진 모델파라미터

에 대해 ∼가 되는 디코더(decoder)나,

혹은 가 되는 생성자(generator) 모형을 신경망을

통해 학습하기도 한다.

2014년 Ian Goodfellow et al.에 의해 고안된 GAN[37]은 비

지도학습을 통해서, 입력 데이터 그 자체를 학습하고 새로운

데이터를 생성하는 생성 모형 학습 알고리즘으로서, ‘적대적’이

라는 표현이 의미하듯이, 생성자(generator, )와 판별자(dis-

criminator, ), 이 두 개의 모형(신경망)이 서로 경쟁 학습하

는 과정을 통해서, 입력 데이터에 대한 학습이 이루어지도록

설계되어 있다.

우선 판별자모형 는 진짜와 가짜에 반반씩 노출되는

상황에서, 어느 입력 데이터 가 실제 데이터에서 왔을 확률을 나

타내며, 생성자모형 는 적절한 사전 확률 을 가진 잠

재 변수 벡터 ∼ 입력에 대하여, 입력 데이터 공간 로의

모조데이터 를 생성하는 매핑 ∼을 의미

한다.

이때 판별자는 진짜 데이터 입력의 경우 , 가짜

데이터일 경우 로 판정할 확률을 극대화하도록 학

습을 시키고, 동시에 생성자는 자신의 모조 데이터 에 대하

여 값을 최대화 하도록 자신의 모형을 학

습해 나간다. 이러한 프레임에서 생성자와 판별자가 서로 경쟁

적으로 학습을 벌인 결과로, 생성자의 매핑 모형 이 정교해

져서 이 모형이 생성하는 모조 데이터의 분포모형이 실제 데

이터의 모형 와 일치하게 되면 ( from )∼ (

from data), 모든 에 대해서 판별자의 모형 의 출력값

이 0.5가 되며, 이때 학습된 생성자에는, 초기에 가정한 사전

잠재변수 ∼ 입력에 대하여, 실제 데이터 모형 를

따르는 값을 생성하는 생성함수 모형 ∼

이 학습된다.

실험을 통해 밝혀진 GAN의 재미있는 특징은, 생성자가 학

습해낸 모형이 단순한 픽셀정보의 저장이 아닌, 숨어있는 내부

패턴의 인식을 통한 속성들의 합성 모형이라는 것이며, 이렇게

학습된 생성자 모형을 사용하면, 학습에 사용된 모든 입력 데

이터의 속성과 모형을 바탕으로 이들이 속성이 합성된 새로운

합성 모형의 데이터를 창조하거나 복원해 낼 수도 있다. 이러

한 능력을 입증한 여러 가지 예제들 중에서, 그림 11은 GAN

의 생성자 신경망에 학습된 여러 종류의 이미지들의 속성들을

더하거나 빼서, 이들의 속성이 합성된 새로운 모형의 이미지들

을 생성해낸 실험결과를 나타내고 있는데, 대략 그 과정을 설

명하면 다음과 같다.

1. 합성하기 원하는 속성을 다음의 세 종류로 정하고, 각 속성

에 맞는 이미지셋( )과 이들의 학습시에 사용할 잠재변수벡

터( )를 정한다.

속성(1) 안경을 쓴 남성 ⇒ ,

속성(2) 안경을 쓰지 않은 남성 ⇒ ,

속성(3) 안경을 쓰지 않은 여성 ⇒ ,

2. GAN을 구성하여, 이미지셋 (1, 2, 3)을, 각각의 속성에

대한 잠재변수벡터 ( )를 사용하여 생성망을 학습시킨다.



3. (1∼3) 속성들을 이용하여, 새롭게 생성해보기를 원하는 조

합들을, 학습시 사용한 잠재변수 벡터공간에서의 연산에 대

응시켜, 새로이 조합된 속성에 해당하는 합성 잠재변수벡터

를 구한다:

예) 속성조합: (1) (2) (3) ‘안경을 쓴 여성’

⇒ 합성 잠재변수벡터: (1) (2) (3)′

4. 2번에서 학습이 끝난 후, 모든 속성 데이터를 학습한 생성

망에, 합성 잠재변수벡터(′ )를 다시 입력으로 사용하여, 합

성된 속성 모형의 출력 이미지를 얻는다.

그 결과 그림 11에서와 같이, 합성된 속성을 가진 (학습시에

쓰이지 않았던) 전혀 새로운 이미지(‘안경을 쓴 여성’)들을 창조

해낼 수 있는, 패턴 인식을 바탕으로 한 생성 능력을 실험적으

로 보였다. 이외에도 GAN의 학습 및 생성 능력을 활용한 수

많은 연구들이 활발히 시도되고 있으며, 그 중에 유명한 활용

예제로는 이미지의 해상도 보충(SRGAN) 등이 있으며, 최근 과

학 분야에도 점점 많은 시도가 이루어지고 있다.

과학연구에 있어서, GAN과 같은 생성모형 알고리즘이 중요

한 이유에는 여러 가지가 있을 수 있지만, 그 중 몇 가지를 상

상해보자면,

1. 실험 데이터를 그대로 학습해낸 생성망을 통해, 주어진 데

이터에 대하여 (이론상) 무한대로 정확한 모형을 신경망이라

는 표현으로 소유할 수 있다는 점.

2. 여러 가지 속성들의 합성 모형을 쉽게 창조해내고, 이에 대

한 모사 데이터 역시 매우 쉽게 만들어 낼 수 있다는 점.

3. 더불어 이런 생성망에 흡수된 모형을 기존의, 혹은 새로운

과학 이론 프레임 안에서 재해석해내는 재미있는 과제를 제

공한다는 점. 또한 적어도 이런 생성망 모형(인공지능)의 존

재가 인간이 해석 가능한 언어로 추구하는 최적의 과학 이

론과 법칙의 탐사 과정에 다양한 측면으로 큰 도움이 되리

라는 점.

정도가 될 것 같다.

기계학습 모형을 통한 물리 모형의 탐사

그렇다면 지금까지 소개한 기계학습의 분별 모형이나 생성모

형의 예처럼, 관측 데이터를 잘 구분해내거나 설명하는 모형을

기계학습을 통하여 획득하는 활동을 과연 과학이라 할 수 있

을까? 즉 기계가 학습해낸 신경망 모형을 과연 과학 모형이라

할 수 있을까?

일반적인 과학의 정의에 따르면, 자연관측 데이터를 학습한

기계학습 모형은 그 자체로 이미 과학 모형이라 할 수 있다.

데이터를 학습한 신경망의 연결 가중치 파라미터 개수가 수백

만 개라 하더라도, 주어진 실험 데이터를 모두 다 설명해내고,

새로운 데이터와 잘 부합하는 예측치를 제공하거나, 새로운 상

황에 대한 새로운 예측 데이터를 생성할 수 있는 모형이라면,

과학 모형이 아닐 이유가 없을 것이다. 따라서 보다 흥미로운

질문은 과연 이 기계학습 모형이, 더 정제된 의미에서의 과학

모형, 예를 들면 잘 정의된 물리적 개념이나 물리적 제한 조건

에 기반을 둔 수학 모형에 대응될 수 있을지의 여부일 것이다.

이에 대한 전망은, 물리학의 발전 과정과 더불어, 앞서 소개

한 딥러닝 프레임의 발전 과정을 함께 살펴보면 약간의 감을

얻을 수 있다.

물리학의 발전 과정을, 간략하게 (관측데이터에 대한) 1. 물

리 이론과 그에 속한 2. 세부 모형의 혁신이라고 할 때, 비슷

하게 이를 (이미지 데이터의 처리를 위한) 신경망 모형의 혁신

과정에 대응시켜 살펴 볼 수 있다. 예를 들어서 임의의 형태로

연결된 신경망으로부터, 완전연결된 다층 퍼셉트론 형태를 거

쳐, 합성곱 신경망으로 발전한 과정을 보자면, 이때 합성곱 형

태의 신경망은 이미지 데이터의 효율적인 처리 및 학습을 위

한 ‘(최신의) 물리 이론 프레임’이라 할 수 있으며, 또한 이미지

데이터의 세부 특성에 따라서 달라지는 합성곱 신경망의 세부

형태와 모형은, 그 물리 이론 프레임 하에서의 세부 모형 튜닝

에 해당된다고 볼 수 있다.

즉, 합성곱 신경망을 사용한 모형의 우월함은 구체적으로는

이미지 데이터의 인식모형이 가지는 물리적/수학적 속성(국소

환원성과 계층성, 그리고 대칭성(병진))을 신경망의 정보처리

구조에 반영한 결과라 할 수 있으며, 이를 통하여 신경망의 정

보 처리가 보다 합리적으로 이루어져서, 상대적으로 작은 연결

망으로도 보다 성능이 좋은 모형을 다양한 데이터(이미지, 음

성, 등등)에 대하여 학습해내는 점은 물리 이론 프레임의 발전

과정에서, 이에 속한 모형들의 파라미터 개수가 전반적으로 감

소되면서 예측에의 일반성을 넓혀 가는 현상에 대응된다고도

할 수 있을 것이다.

이상에서 ‘과연 기계학습 모형이 (현재에도) 매우 강력하지만,

근본적으로 귀납적이고 기초적인 과학 모형을 넘어서, 보다 고

차원의 연역과 유추가 가능한 물리 모형에 대응되고 그로서

기능할 수 있을지?’에 대한 여부는, 우선 현재까지 구축된 물

리 이론 프레임에서 설정된, 관측 데이터의 구조와 물리적 실

재에 대응되는 신경망을 고안하여, 이들이 가진 물리량과 (내

외부) 자유도들이 만족하는 대칭성에 걸맞는 최적의 신호 처리

연결망을 설계하는 데에 달려있다고 생각한다. 예를 들면 합성

곱 신경망 모형이 만족하는 병진 대칭성을 넘어서, 회전이나

보다 일반적으로 로렌츠 변환을 포함한 푸앙카레 변환에 대칭


성을 갖는 정보처리망을 설계하는 것 자체가, 우리가 사는 시

공간에 대한 물리적 신경망으로의 진화에 해당하는 의미있는

첫걸음에 해당될 수 있을 것이다. 현재 최신의 신경망 구조가

이러한 근본적인 물리학적 대칭성과 객체를 아직 다루지 않은

이유는 자명하다. 그동안 신경망이 다루던 데이터가 생활 속

이미지와 음성에 국한되어 있기 때문이며, 그 잠재성이 실제

본격적으로 꽃을 피우기 시작한 역사 또한 매우 짧기 때문이

다.

과학 발전의 역사를, 자연으로부터의 최대한의 귀납적 지식

에 대한 수학적 연역체계의 완성과정이라 정의해보자. 인류는

매우 날것의 번개나 정전기의 경험으로부터, 오랜 기간 데이터

를 축적하며, 수많은 귀납적 모형을 거쳐, 전하와 그들 사이의

힘, 그리고 이 힘을 매개하는 장(field)이라는 개념을 만들어 냈

으며 이를 양자장론이라는 물리 이론 프레임 하에서 소립자의

표준모형(the Standard Model)이라는 보다 세부적인 모형으로

엮어냈다. 이 과정에서 모형 체계가 가지는 수많은 수학적 물

리적 대칭성들을 고려하여 힉스(Higgs) 입자의 존재를 예견해

냈고 반세기의 노력 끝에 이를 실험적으로 발견해냈다. 소립자

물리학뿐만이 아니라, 최근의 중력파 연구를 포함한 수많은 현

대 노벨 물리학상들이 이러한 사유 과정의 성공적인 검증에

해당한다는 것을 우리는 잘 알고 있으며, 이는 실로 놀라운 연

역체계가 아닐 수 없다.

이러한 상황에서 물리학을 포함한 현대 과학은 기계학습이라

는 또 하나의 부스터를 만났다. 기계학습 모형은 그 자체로 초

(super) 귀납 모형이며, 이는 인류가 태초 원시 세포부터 생존

을 위해 행해온 치열한 경험적 모델링 과정이, 대량화 자동화

되어 임의의 정확도로 최적화될 수 있는 귀납적 모델링의 극

단이라 할 수 있다. 더 나아가 이제는 마치 인류가 날것의 경

험적 모형으로부터 고도의 물리적 개념을 발전시켜 온 것처럼,

그러한 개념을 내재한 기계모형으로의 발전을 모색하고 있다.

이러한 진화를 통하여 기계학습 모형이 초 귀납과 동시에

초 연역이 가능한 강력한 인공지능으로서 과학의 발전을 이끌

수 있을 것인지, 또 궁극적으로는 이러한 인공지능이 DNA로

축약되는 인류 진화의 생물학적 프레임을 넘어서, 인류 진화의

새로운 프레임으로 사용될 수 있을지를 적극적으로 상상해보

고, 긍정적인 변화에 기여하는 것은, 어느 집단이나 국가의 과

학 및 산업 경쟁력뿐만이 아닌, 인류 전체의 미래를 위해 매우

중요한 노력이 될 것이라 생각한다.

기계학습 모형을 통한 새로운 물리 모형의...

Documents

Transcript of 기계학습 모형을 통한 새로운 물리 모형의...