제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer...

38
2자연언어처리의 역사

Transcript of 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer...

Page 1: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

제2장 자연언어처리의 역사

Page 2: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

Early History (1)

• 최초의 시도

– Warren Weaver : 기계번역 제안(1949)

– Idea: Translation is a process of dictionary lookup, plus substitution, plus grammatical reordering.

– Example

I must go home

Ich muss nach hause gehen

• 초기 기계번역 연구

– W.Weaver and A.D.Booth : 영어-불어 (Early 1950)

– George Town Univ.와 IBM : 러시아어-영어 (1954)

2

Page 3: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

Early History (2) - 초기 기계번역의 교훈 -

• Translation is really not possible without understanding. – Example (English Russian English) The spirit is willing but flesh is weak The vodka is strong but the meat is rotten.

• A great amount of world knowledge was needed, a program had to understand what was being said in order to be able to translate it properly.

The pen is in the box. The box is in the pen.

• Syntactic Ambiguities They are flying planes. Time flies like an arrow. He saw a man on the hill with a telescope.

• Give a great deal of impetus to work on syntactic theories.

3

Page 4: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

Early History (3) - 정보 검색 -

• IBM

– 1950년대말 대량의 연구 논문을 대상으로 한

정보검색 연구 시작

– 1964년에 의학문헌의 정보검색 시스템

MEDLARS 서비스 개시

4

Page 5: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

Early History (4) - 기타 관련 연구 -

• Automata Theory

– 1950년대말부터 1960년대에 여러 Automata 모델 제안

– 계산 이론의 기초일 뿐만 아니라, 언어 분석 모델로서 중요한 역할

• Introduction of the idea of heuristic search

– Newell and Simon (1956)

• Introduction of the LISP programming language

– John McCarthy (1960)

5

Page 6: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

Early History (5) - 언어학 이론 -

• Chomsky

– Syntactic Structure(1957), Aspect of the Theory of Syntax(1965)

– 변형 생성 문법 • 구구조 개념, 변형 개념

• 문장의 기본은 구구조이며, 문장은 구구조의 변형이다.

• C. Hockett

– Grammar for the Hearer(1961)

– 인간의 언어 이해는 문장을 끝까지 다 들은 후, 구문분석을 시도하는 것이 아니고, 문장을 들으면서 그 때까지의 구문구조를 이해하고 있으며, 다음에 어떤 어구, 문장의 구조가 발화되는지 예상하면서 듣는다.

6

Page 7: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

1960년대의 자연언어처리

• Ideas

– The use of limited domains for language-understanding systems

– The use of key words to trigger certain actions

– The translation of English into formal languages

• Some Systems

– Key-word systems : ELIZA, DOCTOR, PARRY, etc.

– Translating English into a Formal System : STUDENT

– Data-base Question Answering : BASEBALL

7

Page 8: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

BASEBALL (1)

• Bert F. Green, Jr., Alice K. Wolf, Carol Chomsky,

and Kenneth Laughery (1963)

• Database Question Answering system

– Database query generation from English

–미국 프로야구 자료를 자연언어로 검색하는

시스템

8

Page 9: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

BASEBALL (2)

• BASEBALL’S database

• Question: “Who did the Yankees play on July 7?”

• After Query Generator (OR (July 7 – Yankees/– ?ANSWER/–

(July 7 – ?ANSWER/– Yankees – ) )

• Answer : “Red Sox”

9

MONTH PLACE DAY GAME WINNER/SCORE LOSER/SCORE

July

July

July

Cleveland

Boston

Detroit

6

7

7

95

96

97

White Sox/2

Red Sox/5

Tigers/10

Indians/0

Yankees/3

Athletics/2

Page 10: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

ELIZA (1)

• Joseph Weizenbaum (at MIT), 1966

• 인간과 컴퓨터간의 대화 시스템

– Key-word에 의한 패턴 비교 기법 이용

– 상당한 지적 능력을 가진 시스템처럼 보여짐

10

Pattern Respond

(* computers *)

(* mother *)

(* I believe that *)

<nothing matched>

Do computers frighten you?

Tell me more about your family.

How long have you believe that .

Please go on.

Page 11: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

ELIZA (2) User : Men are all alike.

Eliza : In what way?

User : They’re always bugging us about something or other.

Eliza : Can you think of a specific example?

User : Well, my boyfriend made me come here.

Eliza : Your boyfriend made you come here.

User : He says I’m depressed much of the time.

Eliza : I am sorry to hear you are depressed.

User : It’s true. I am unhappy.

Eliza : Do you think coming here will help you not to be unhappy?

User : I need some help; that much seems certain.

Eliza : What would it mean to you if you got some help?

User : Perhaps I could learn to get along with my mother.

Eliza : Tell me more about your family.

11

Page 12: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

STUDENT

• Developed by Daniel Bobrow, 1968.

• Translates algebra problems into a set of linear equations

– John’s age now is two times Mary’s age. JA = 2 * MA

– In three years John will be 6 years older than Mary. JA + 3 = MA + 6

• 패턴 비교 기법 이용

– 패턴의 빈자리(slot)에 필요한 요소를 끼워넣는 방법

– 단순한 패턴 비교와 소수의 경험적 규칙만으로도 문장의 분석이 가능하다는 것을 보여준 프로그램

12

Page 13: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

격문법 (Case Grammar)

• C. Fillmore (1968)

• 문장의 각 주요 명사구가 술어 동사에 대해 어떤 격으로 역할하는가에 주목

• 격관계를 의미적으로 해석

• 행위자격(agent), 대상격(object), 도구격(instrument) 등

• 다음 두 문장의 표면구조는 다르나 심층격은 동일 He opened the door by the key. A key opened the door

• 기계적으로 처리하기 매우 어려움 – 하나 하나의 개별 동사에 대해 그 동사가 어떤 의미의

격(명사구)를 요구하는지 상세하게 사전에 기술해야 함 – 의미소라는 것을 수십 내지 수 백개 설정

13

Page 14: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

1970년대의 자연언어처리

• The flowering of Semantic Information

Processing and Seeds of Cognitive Science

• Systems

– SHRDLU (1972)

– LUNAR (1972)

– MARGIE (1973)

– NLPQ (1974)

14

Page 15: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

SHRDLU • Terry Winograd (1972)

• Transform sentences into programs (in Block-world domain) – Carry out various tasks(e.g., moving blocks on a table), or search for

information in SHRDLU’s database, or generate an answer for its user.

• Can handle sentences exhibiting a wide variety of linguistic phenomena – Interpreted declarative sentences as database updates, interrogative

sentences as database searches, and imperative sentences as specifications for goals; these goals were achieved

• Linguistic coverage was very broad compared to previous programs – Can handle quantifications, generate natural-sounding dialogue, and

answer questions about the history of its dialogue and plan execution.

15

Page 16: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

LUNAR • Woods, Kaplan, and Nash-Webber (1972)

• A Natural Language Front-end for a database

containing moon rock sample analysis

• Use ATNs (Augmented Transition Networks)

• Very general notion of quantification based on

predicate calculus

• Use sophisticated techniques to translate

questions into database queries.

16

Page 17: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

SHRDLU and LUNAR

• Use relatively unconstrained language

• Work in very narrow domain

– SHRDLU : Block-world

– LUNAR : Moon-rock sample analysis

• Have complete, privileged knowledge of their

work

17

Page 18: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

MARGIE (1)

• Shank, Goldman, Rieger, and Riesbeck (1973)

• Deal with much more unconstrained language, particularly language about human actions

• Based on Conceptual Dependency Theory (by Shank)

– Every EVENT has : an ACTOR an ACTION performed by that actor an OBJECT that the action is performed upon a DIRECTION in which that action is oriented

– CD primitive actions ATRANS MTRANS SPEAK INGEST PTRANS MBUILD GRASP EXPEL PROPEL ATTEND MOVE

18

Page 19: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

MARGIE (2) (e.g.) John gave Mary a book.

actor John action ATRANS /* transfer possession */ object book direction FROM John TO Mary

19

John ATRANS book P O R Mary

John

Page 20: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

1970년대의 교훈

• Knowledge Representation – Central importance to all natural processing

– Issues • How should items in memory be indexed and accessed

• How should context be represented

• How should memory be updated

• How can programs deal with inconsistency

• Common Sense

– Knowledge of the outside world

(e.g.) The city councilmen refused the women a permit because they feared violence // they : city councilmen they advocated revolution // they : women

20

Page 21: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

FRAMES

• Minskey, 1975

• Structures consisting of a core and slots

• Each slot corresponding to

– Either a facet or participant of a concept embodied in

the frame or a space for a pointer to a related concept

• Provide a neat explanation for “default reasoning”

21

Page 22: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

SCRIPTS

• Roger Shank and his collaborators at Yale (1977)

• (e.g.) Track : Coffee Shop

Props : Table Roles : S – Customers

Manu W – Waiters

F – Food C – Cook

Check M – Cashier

Money O – Owner

22

Page 23: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

Unification-based Grammar Formalisms

• Grammatical Theories – LFG (Lexical Functional Grammar) : Bresnan (1982)

– GPSP (Generalized Phrase Structure Grammar) : Gazdar (1985)

– HPSG (Head-driven Phrase Structure Grammar) : Pollard (1985)

• Grammatical Tools

– DCG (Definite Clause Grammar) : Pereira & Warren (1980)

– FUG (Functional Unification Grammar) : Kay (1983)

– PATR-II : Shieber et al. (1983)

23

Page 24: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

Unification-based Grammar Formalisms

• Augmented Phrase Structure Grammar

– Context-Free based grammar rules

– Use feature structures instead of simple grammar symbols

• Feature structure

– Complex-feature-based informational elements

– Associations between features and values

• Unification

– Information-combining operation

– main operation in unification-based grammar formalisms

24

Page 25: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

Feature Structure • 명사 “철수”와 동사 “먹다”의 자질 구조 (HPSG의 예)

25

LEX

N MAJ HEAD LOC SYN

철수"" PHON

LEX

OBJ GR

N MAJ HEAD|LOC|SYN

SUBJ GR

N MAJ HEAD|LOC|SYN

SUBCAT

V MAJ HEAD

LOC SYN

"먹다" PHON

Page 26: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

Unification

26

)2( third:person

singular:number:agreement FS

)1( NP:cat FS

)3(

third:person

singular:number:agreement

NP:cat

2 1 FSFSFS

Page 27: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

Unification

)3(

third:person

singular :number : agreement

NP :cat

FS

27

)4(

plural :number : agreement

NP :cat FS

FailednUnificatioFSFS 4 3

Unification of FS3 and FS4 is failed because the values of “agreement :

number” feature of them are not the same (conflict)

Page 28: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

최근 자연언어처리 연구동향

• 문법 규칙의 단순화, 사전의 대용량화

– 각종 대용량 분석 사전, 시소러스 등

• Corpus에 기반한 언어처리

– 원시 Corpus, Tagged Corpus

– 문법, 어휘 정보 등 각종 언어 정보 추출

– 통계 기반 언어 처리 기계학습 기반 언어처리

• 실용 수준의 자연언어처리 시스템 개발

– 상용 기계번역 시스템

– 정보 검색 시스템

– 문서 분류, 요약 시스템 등

• 딥 러닝 (Deep Learning) 기술의 발달 – 이미지 인식, 음성 인식 분야에서 딥 러닝 기술이 최고의 성능을 보여줌

– 자연어처리 분야에도 최근 딥 러닝 기술이 많은 응용 분야에서 최고 성능을 보여주고 있음

28

Page 29: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

기계 번역의 역사 (1)

• GAT

– 1952년에 시작하여 1965년에 완성

–소련어-영어 번역 시스템

–번역 대상 : 물리학 분야 논문

–단어 대 단어에 숙어 처리 가미

–번역의 질은 매우 떨어졌으나, 1979년까지 미국

원자에너지국에서 사용

29

Page 30: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

기계 번역의 역사 (2)

• CETA

– 1967년에 완성되어 1971년까지 사용

– 프랑스 Grenoble 대학에서 시작

– 언어학 이론에 기반한 번역

– Interlingua 방식 (Pivot approach)

• Interlingua : 개별 언어와 독립적 표현

• GETA

– CETA의 후속 시스템

– CETA의 실패를 거울 삼아 변환 방식(transfer approach) 채택

30

Page 31: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

기계 번역의 역사 (3)

• TAUM

– 일기예보 대상

– 영어-불어 번역 시스템

– 순수한 변환 방식

• METEO

– TAUM을 확장한 완전 자동 번역 시스템

– 번역 성공률이 90-95% 수준

• 실패하는 경우도 대부분 철자 오류 등임

31

Page 32: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

기계 번역의 역사 (4)

• SYSTRAN

– 최초로 상품화된 기계번역 시스템

– 1970년 미국 연방 정부 FTD 사용 (러시아-영어)

– 1974년 NASA 사용 (러시아-영어)

– 1976년 EC 사용 (영어-불어)

– 1978년 불어-영어

– 1979년 영어-이태리어

– 1985년 불어-독어, 영어-독어

32

Page 33: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

기계 번역의 역사 (5)

• METAL

– 1982년에 개발된 독어-영어 양방향 기계 번역 시스템

– GPSG를 이용한 영어 분석

• EUROTRA

– 유럽 공동체의 9개 언어 번역을 시도

– 1992년 1단계 연구 종료 : 시스템 개발에는 실패

– 유럽 공동체 예산의 40% 정도가 번역 비용으로 드는

만큼, 연구 개발이 계속될 전망

33

Page 34: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

기계 번역의 역사 (6)

• 일본의 연구

– 1964년 교토대학 Nagao 교수에 의해 시작

– 1990년 현재 20여개 시스템이 상품화

– 기계 번역 연구를 가장 활발히 진행하는 국가 중 하나임

• 한국의 연구

– 1980년 정도부터 대학 및 연구소에서 연구 시작

– 현재 영-한, 일-한, 한-일 번역 시스템 상품화

– 대학, 기업체 중심으로 연구 개발

34

Page 35: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

기계 번역의 역사 (7)

• Statistical Machine Translation (SMT)

– 구글 번역기, …

– Word based model • GIZA++ (IBM model 1~6)

– Phrase based model • Moses

• Parallel corpus (sentence aligned corpus) word alignment (GIZA++) phrase extraction reordering model language model (SRILM) decoding

35

Page 36: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

SMT: example

36

Page 37: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

기계 번역의 역사 (8)

• Neural Machine Translation (NMT)

– 딥 러닝을 이용한 end-to-end 기계번역 시스템

– Word-based Recurrent Neural Network (RNN) encoder + RNN decoder로 구성됨

• Parallel corpus (sentence aligned corpus) NMT training RNN decoding

– 최근에는 Attention Mechanism을 도입하여 더욱 높은 성능을 보임

– Phrase-based MT, Hierarchical Phrase-based MT 보다 높은 성능을 보임

37

Page 38: 제2장 자연언어처리의 역사 - Kangwonleeck/NLP/02_history.pdf · 2016-08-31 · answer questions about the history of its dialogue and plan execution. 15 . LUNAR •Woods,

NMT example

38