제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다....

17
제6장 코퍼스 활용 | 1 제6장 코퍼스 활용 본 연구에서는 어린 왕자프랑스어 - 한국어 대역 텍스트를 문장단위 로 병치시켜 , 프랑스어 -한국어 병렬 코퍼스를 구축하였다. 병렬 코퍼스 를 구축할 때 , 보통 웹을 통해 코퍼스를 구축하는 방법 , OCR 프로그램을 활용하는 방법 그리고 직접 입력하는 방법 등을 선택할 수 있는데, 연구에서는 어린 왕자 텍스트를 웹(‘http://my.dreamwiz.com/fored/ prince_fr.htm’)에서 차용하여 코퍼스로 구축하였다 . 차용한 텍스트를 어린 왕자 프랑스어-한국어 병렬 코퍼스로 구축하였다 . 이 과정에서 저작권 문제가 발생할 수도 있으나 , 공개된 사이트이고 , 교육적 목적으 로 코퍼스를 활용하기 때문에 , 큰 문제는 없을 것으로 생각한다 . 특히, 텍스트 코퍼스를 가공할 때 , html 코드화와 유니코드 , 표제어와 내용 검 , 품사표기 , 출처표기 등에 대한 기준을 정하여 , 코퍼스 표준화를 시도 하였다 . 1. 검색 프로그램 활용

Transcript of 제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다....

Page 1: 제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다. 이렇게 데이터 구조와 내용은 검색 프로그램의 구축 방 법에

제6장 코퍼스 활용 | 1

제6장 코퍼스 활용

본 연구에서는 ‘어린 왕자’ 프랑스어-한국어 대역 텍스트를 문장단위로 병치시켜, 프랑스어-한국어 병렬 코퍼스를 구축하였다. 병렬 코퍼스를 구축할 때, 보통 웹을 통해 코퍼스를 구축하는 방법, OCR 프로그램을 활용하는 방법 그리고 직접 입력하는 방법 등을 선택할 수 있는데, 본 연구에서는 ‘어린 왕자’ 텍스트를 웹(‘http://my.dreamwiz.com/fored/

prince_fr.htm’)에서 차용하여 코퍼스로 구축하였다. 차용한 텍스트를 ‘어린 왕자 프랑스어-한국어 병렬 코퍼스’로 구축하였다. 이 과정에서 저작권 문제가 발생할 수도 있으나, 공개된 사이트이고, 교육적 목적으로 코퍼스를 활용하기 때문에, 큰 문제는 없을 것으로 생각한다. 특히,

텍스트 코퍼스를 가공할 때, html 코드화와 유니코드, 표제어와 내용 검색, 품사표기, 출처표기 등에 대한 기준을 정하여, 코퍼스 표준화를 시도하였다.

1. 검색 프로그램 활용

Page 2: 제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다. 이렇게 데이터 구조와 내용은 검색 프로그램의 구축 방 법에

2 | 프랑스어와 컴퓨터

다양한 형태의 텍스트 코퍼스를 표준화된 형태로 바꾸어 주는 것이 입력기이다. 반대로 구축된 데이터베이스에서 필요한 텍스트 코퍼스를 추출할 때는, 워드프로세서나 기타 응용프로그램에서 읽을 수 있게, 표준화시킨 특수문자 코드를 원래대로 적절하게 변환시켜줘야 한다. 따라서 텍스트 코퍼스를 검색기에서 활용하기 위해서는, 먼저 검색에 필요한 자료가 데이터베이스에 저장되어 있어야 한다. 워드프로세서는 html 코드를 직접 지원하지 않기 때문에, html 변환프로그램이나 태크 변환 프로그램을 활용해서, [표 1]과 같이 원래의 텍스트로 바꿔줘야 워드프로세서에서 자료를 읽을 수 있다.

html 코드화 된 자료 워드프로세서에 입력된 자료abandonner v.t. 1) Et comme il se sentait un peu triste

à cause du souvenir de sa petite planète abandonn ée, il s'enhardità solliciter une grâce du roi.(p.10.) 그래서 버리고 온 그의 작은 별에 대한 추억 때문에 조금 슬퍼진 어린 왕자는 용기를 내어 왕에게 청을 드려 보았다.

2) C'est ainsi que j'ai abandonné, à l'âge de six ans, une magnifique carri ère de peinture. (p.1.) 그래서 나는 여섯 살 적에 화가라는 멋진 직업을 포기해 버렸다.

abandonner v.t. 1) Et comme il se sentait un peu triste

à cause du souvenir de sa petite planète abandonnée, il s'enhardit à solliciter une grâce du roi.(p.10.) 그래서 버리고 온 그의 작은 별에 대한 추억 때문에 조금 슬퍼진 어린 왕자는 용기를 내어 왕에게 청을 드려 보았다.

2) C'est ainsi que j'ai abandonné, à l'âge de six ans, une magnifique carrière de peinture. (p.1.) 그래서 나는 여섯 살 적에 화가라는 멋진 직업을 포기해 버렸다.

[표 1] html 코드와 프랑스어 특수문자 변환 관계

입력기에서 프랑스어 특수문자를 합성하거나 직접 입력할 수 있으나,

데이터베이스 프로그램에서는 오직 html 코드만을 지원하기 때문에, 몇

Page 3: 제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다. 이렇게 데이터 구조와 내용은 검색 프로그램의 구축 방 법에

제6장 코퍼스 활용 | 3

가지 형태의 표준화된 원칙을 세워야 한다. 특히 html 코드에서 지원하지 않는 특수문자는 피해야 하며, 표제어와 내용의 경계를 표시할 때,

데이터베이스 프로그램이 허용하는 코드를 사용해야 한다.1) 텍스트 코퍼스를 html 표준 형식으로 변형시켜주면, 검색기에 입력한 내용을 바로 확인할 수 있다. 또, 프랑스어 특수문자 html 코드를 쉽게 변환시켜주는 편리한 입력기가 개발되면, 공동 작업이 더 원활해질 것이다. 본 연구에서는 [그림 1]과 같이 코드 변환이 쉬운 입력기를 구축하여 보았다.

[그림 1] 표준 입력기

텍스트 코퍼스를 구축할 때, 관리자가 모든 데이터베이스에 접근하여,

1) 병렬 코퍼스를 구축할 때, 자료의 가공을 원활하게 하기 위해, 표제어와 내용을 ‘::’로 분리 표기하였고, 항목 간 구분은 ‘엔터키’로 하였다. 이렇게 하면, 워드프로세서에서 코퍼스를 전체적으로 불러들여 수정 보완하는 데 편리하다. 또 검색을 쉽게 하려고, 표제어에는 프랑스어 특수문자를 생략하고, 내용 항목에 다시 한 번 표제어와 품사표기를 하였다. 특히 코퍼스의 일관성을 유지하기 위해, 문장의 출처는 ‘페이지’가 아니라 ‘장’으로 표기하였다. 페이지는 어떤 원문을 선택하느냐에 따라 유동적이기 때문에, 출처표기 기준으로 적합하지 않다.

Page 4: 제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다. 이렇게 데이터 구조와 내용은 검색 프로그램의 구축 방 법에

4 | 프랑스어와 컴퓨터

한꺼번에 모든 자료를 입력할 수도 있고, 입력자가 각 항목별로 선택적으로 자료를 입력할 수도 있다. 실제 각 항목 구조는 html 특수 문자 코드 입력이 가능한 형식을 취하고 있다. 그러나 입력과정은 일반적인 워드프로세서의 입력 형태와 유사하다. 본 연구에서는, 텍스트 코퍼스를 구축할 때, 여러 사람이 공동으로 입력할 수 있도록, [그림 2]와 같이 입력기를 웹 게시판 구조로 만들었다. 공동으로 구축할 정보량을 분담하여, 서버 데이터베이스에 각자 자료를 입력한 다음, 각 작업자가 클라이언트에 입력한 내용을 필요에 따라 수정할 수 있게 하였다. 또 작업자에게 수정할 수 있는 권한을 다르게 주어, 입력된 자료의 보안을 유지하였다.

[그림 2] 입력자가 각 항목을 개별적으로 수정할 수 있는 입력기

구축된 텍스트 코퍼스는 필요에 따라, 자유롭게 바꿀 수 있다. 크게 내용변경과 구조변경으로 나누어 텍스트 코퍼스를 변경할 수 있다. 내용을 변경하는 경우 구조의 변화가 없으므로 각 필드의 데이터만 수정하거나, 이미 정의된 구조 내에서 필요한 필드를 추가하거나 삭제하기만 하면 된다. 그러나 구조 자체를 변경하는 경우 편집기의 기본 형태가 바뀌

Page 5: 제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다. 이렇게 데이터 구조와 내용은 검색 프로그램의 구축 방 법에

제6장 코퍼스 활용 | 5

게 되므로, 그에 관련된 데이터를 적절한 필드에 이동시키거나 제거하는 방법을 선택할 수 있다. 이때, 검색기에서 필요한 부분의 정보만을 뽑아내어 다른 구조의 텍스트 코퍼스로 만들 수 있다.

[그림 3] mySQL에서 필요한 필드를 선택적으로 추출한 예

[그림 3]과 같이, 이미 만들어진 데이터베이스에서 필요한 내용을 추출하여 복사함으로써, 새로운 텍스트 코퍼스를 쉽게 만들 수 있으므로,

표준화되지 않은 태그 문제를 적절하게 해결할 수 있다면, 데이터베이스 간의 상호 정보교환이 가능하다. 이뿐만 아니라, 전자사전이나 번역기에서 활용하기 위해, SGML이나 XML과 같은 표준화된 텍스트 형식으로 변형시켜 연구를 진행할 수 있다.2)

검색기는 주로 입력된 데이터에서 필요한 문장을 추출할 목적으로 설계된다. 검색기에서, 자료는 html 코드 형태로 저장된다. 따라서 검색되는 내용과 데이터베이스에 저장된 텍스트 형태는 다르다. 프랑스어 텍스트를 html 형식으로 태깅할 때, 프랑스어 특수문자의 표기가 달라진다.

2) G. Deville, L. Dumortier & H. Paulussen(2004:8)는 PDF나 HTML 형식으로 제시되는 웹 문서에서 대역 텍스트를 어떻게 추출하는 것이 효과적인지, 통계수치를 비교하면서, 그 효율성에 대해 검증하였다.

Page 6: 제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다. 이렇게 데이터 구조와 내용은 검색 프로그램의 구축 방 법에

6 | 프랑스어와 컴퓨터

검색의 편리를 위해, 입력기에 표제어와 입력 내용을 특수기호로 분리해 표기하였다. 또 [표 2]와 같이 검색기에서 각 표제어가 굵은 글자체로 드러나게 했다. 입력된 내용에 프랑스어 특수문자가 표기된 표제어를 다시 한 번 제시하고, 품사 정보, 프랑스어-한국어 대역 코퍼스, 출처 등을 입력하였다. 이렇게 데이터 구조와 내용은 검색 프로그램의 구축 방법에 따라 달라질 수 있다. 태그를 표기할 때, 표준화된 기준을 따르기만 한다면, 특별한 문제는 없다.

워드프로세서에 입력한 내용 검색기에 출력된 내용apparaitre :: apparaître v.i. 1) Elles

apparaissaient un matin dans l'herbe, et puis elles s'éteignaient le soir.(p.8) 그들은 어느 날 아침 풀 속에 나타났다가는 저녁이면 사라져 버리곤 했다. 2) C'est ici que le petit prince a apparu sur terre, puis disparu. (p.27.) 어린 왕자가 지상에 나타났다가 다시 사라진 곳이 여기다. 3) C'est alors qu'apparut le renard.(p.21.) 여우가 나타난 것은 바로 그때였다.

apparaitre apparaître v.i. 1) Elles apparaissaient un

matin dans l'herbe, et puis elles s'éteignaient le soir.(p.8) 그들은 어느 날 아침 풀 속에 나타났다가는 저녁이면 사라져 버리곤 했다. 2) C'est ici que le petit prince a apparu sur terre, puis disparu. (p.27.) 어린 왕자가 지상에 나타났다가 다시 사라진 곳이 여기다. 3) C'est alors qu'apparut le renard.(p.21.) 여우가 나타난 것은 바로 그때였다.

[표 2] 워드프로세서에 입력한 내용 출력

입력기에서 태그를 표시하는 방법은 표현형식에 따라 달라질 수 있다.

태그를 표기하는 정보가 어느 곳에 포함되느냐에 따라, 분류하는 내용이 달라질 수 있기 때문이다. 이미 정의된 태그가 있으면, 그 태그를 가능하면 그대로 사용하여, 호환성을 유지하도록 노력해야 한다.3)

3) 장현주(2000:134)와 M. Noras(2006:5)에 따르면, 코퍼스에 주석(태그)을 다는 것은 코퍼스가 구축되는 언어의 단위에 대한 해석이 전제되는 것이므로, 그 해석하려는

Page 7: 제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다. 이렇게 데이터 구조와 내용은 검색 프로그램의 구축 방 법에

제6장 코퍼스 활용 | 7

지금까지 텍스트 코퍼스를 검색기에서 원활하게 사용하기 위해, 텍스트 코드 표준화에 대해 생각해 보았다. 본 연구에서는 표준화된 형식으로 텍스트를 가공하기 위해, html 코드화를 제안하였다. 그러나 텍스트 입력과 검색의 효율성을 높이는 방법에 대해 좀 더 숙고해야 한다. 특히,

입력기와 검색기 제작과정에서 태그 표준화 문제와 코드 변환 문제에 대해 다각적인 연구를 계속해 나가야 한다.4)

2. 병렬 코퍼스 활용

최근에는 텍스트뿐만 아니라 음성 언어까지도 데이터베이스화되고 있다. 이렇게 되면 코퍼스의 생산과정에서 시간과 노력을 절약할 수 있고, 수업 현장에서 학습에 필요한 자료를 쉽게 접할 수 있다. 특히 프랑스어 학습 자료와 정보가 모여짐으로써, 외국어 교육에서 이것을 유용하게 활용할 수 있게 되었다. 교수자는 학습자가 특정 어휘나 숙어를 활용하여 문장을 만들 수 있게, 자료를 모아 텍스트 코퍼스로 제공할 수 있다.

이때, 텍스트 코퍼스를 검색 프로그램과 연계시켜, 학습자 스스로 자신이 틀린 표현을 인지하게 할 수 있다. 이런 코퍼스 기반 교수-학습방법은 목적에 따라, 소규모 코퍼스를 만들어, 필요에 맞게 활용할 수 있다는

용도에 따라 주석의 방법과 내용이 달라질 수 있다고 주장한다. 이러한 측면에서 코퍼스의 주석은 코퍼스의 가치를 결정하는 가장 핵심적인 사안이라고 말할 수 있다.

4) 검색기를 활용하여 표제어와 내용 항목에서 필요한 예문을 추출할 때, 그 예문을 대변할 수 있는 단어를 입력해야 한다. 프랑스어나 한국어 단어를 입력하여 필요한 예문을 검색할 때, 명사의 경우는 별문제가 없지만, 동사와 형용사의 경우, 기준이 되는 어휘, 즉 어간을 어떻게 입력하느냐에 따라 검색되는 내용도 달라진다. 검색프로그램을 반복적으로 사용하면서, 학습자 스스로 경험을 쌓을 수밖에 없다. 본 연구에서는 편리한 검색을 위해, 앞으로 검색프로그램을 좀 더 보완해 나갈 것이다.

Page 8: 제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다. 이렇게 데이터 구조와 내용은 검색 프로그램의 구축 방 법에

8 | 프랑스어와 컴퓨터

장점이 있다.

프랑스어 학습 과정에서 가장 어려운 것 중의 하나가 연어나 숙어 표현을 익히는 것이다. 숙어는 통사적인 면에서 볼 때, 2개 이상의 어휘로 결합되어 있어, 이를 한 어휘처럼 외어야 한다는 부담감이 있다. 또, 숙어에는 외국인이 이해할 수 없는 화용적 정보가 담겨 있기 때문에, 숙어의 전체적인 뜻이 어휘 구성요소의 개별 뜻에서 잘 유추되지 않거나 일부만 유추될 수 있다.5) 개념구조 체계에 기반을 둔 사전을 구축할 수 있다면, 번역 작업에 유용하게 활용할 수 있을 것이다. 더 나아가 이런 정보를 자연언어처리에 응용할 수 있는 형태로 바꾸어 놓으면, 기계번역에도 활용할 수 있을 것이다. 이처럼 개념체계에 기반을 둔 사전은 프랑스어 교육에 매우 유용하게 사용될 수 있지만, 이런 사전을 구축하는데 막대한 시간적, 경제적 비용이 요구된다. 이런 점 때문에, 아직도 이에 대한 충분한 연구가 이루어지지 못하고 있다.

자연 언어 처리 과정의 토대가 된다고 단정할 수는 없지만, 본 연구에서는 프랑스어 교수-학습에 활용할 수 있는 기초적인 텍스트 코퍼스를 제시하였다. 프랑스어-한국어 병렬 코퍼스는 화용적 정보를 담은 사전편찬 제작과정에 특정 정보를 제공할 수 있고, 다의어나 연어정보 등, 사전편찬을 위한 실증적인 자료를 제공할 수도 있다. 또 프랑스어-한국어 병렬코퍼스의 대조 분석을 통해, 프랑스어 교수-학습 방법에 대해 다각적인 연구를 수행할 수 있다. 그러나 이런 연구 결과가 자동번역시스템에 실질적으로 활용되기에는 아직은 너무나 미약하다. 컴퓨터를 이용하여

5) I. Audras & J.-G. Ganascia(2006:76)는 외국어 교육 과정에서 학습자에게 문장의 통사구조를 이해시키는 것이 무엇보다 중요하다고 생각한다. 이와 같은 맥락에서 T. Selva, S. Verlinde & J. Binon(2004:518)는 학습자가 특정 문장에 숙어나 연어를 넣어가면서 학습할 수 있는 프로그램을 제시하고 있다.

Page 9: 제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다. 이렇게 데이터 구조와 내용은 검색 프로그램의 구축 방 법에

제6장 코퍼스 활용 | 9

프랑스어-한국어 자동 번역에 활용하기 위해서는, 언어학적인 지식과 전산학적인 방법론 외에도, 인지적인 개념구조 체계에 기반을 둔 방대한 지식이 필요하다. 이러한 과정은 실제로 인간이 외국어를 번역하는 과정에서 종종 직면하게 된다.6)

언어 교육용 기본어휘 선정 과정은 크게 관련 전문가의 경험이나 직관을 반영하는 방식과 해당 언어의 어휘별 빈도를 기반으로 하는 방식 두 가지로 나눌 수 있다. 이 중에서, 빈도에 근거한 선정 방식은 객관성의 확보라는 차원에서는 분명히 바람직하지만, 빈도만을 선정 기준으로 택할 경우 그 결과가 믿을만한 것인가, 그리고 해당 전문가의 경험이나 직관을 무시해도 되는 것인가라는 근본적인 의문이 제기된다. 이러한 문제를 해결하는 방법으로 단순한 어휘 빈도가 아닌 보다 다층적인 빈도 및 통계 정보를 활용하는 방법이 있다.

이영훈(2010:169)은 어휘 빈도를 활용한 프랑스어-한국어 번역 연구에서, 프랑스어-한국어 문학 텍스트 역시 영한 문학 텍스트와 유사한 어휘밀도 수치를 보이며 비번역문의 어휘밀도보다 빈도수가 낮다는 점을 통계수치로 제시하였다. [표 3]에 제시한 것처럼 프랑스어-한국어 번역문 역시 영한 번역문과 마찬가지로 비번역문보다 기능어 대비 의미어의 비율이 낮게 나타나고, 정보량의 단순화는 프랑스어-한국어 번역 문학 텍스트의 유효한 특징이라는 점을 강조하였다.

6) B. Pincemin(1999:15)는 텍스트 코퍼스를 자동번역과정에 접목하기 전에, 먼저 코퍼스의 다양한 의미 해석 가능성에 대해, 세세하게 검토해야 한다고 생각한다.

Page 10: 제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다. 이렇게 데이터 구조와 내용은 검색 프로그램의 구축 방 법에

10 | 프랑스어와 컴퓨터

범주 비번역문 영한 번역문 불한 번역문체언 171,877 173,931 172,553용언 101,843 94,338 92,558수식언 31,722 32,510 33,763감탄사 1,140 864 1,373합계 306,222 301,643 300,247접속부사 3,022 3,922 4,058조사 130,955 134,067 132,314어미 161,262 153,651 152,959접사 25,304 30,222 32,353합계 320,543 321,862 321,684

합계 626,765 623,505 621,931어휘 밀도 (%) 48.858 48.379 48.277

[표 3] 의미어와 기능어의 비율 비교

연구 과정에서 구축된 텍스트 코퍼스의 정보량이 적기는 하지만, 프랑스어 교수-학습 과정에서 코퍼스를 잘만 활용한다면, 학습효과를 극대화할 수 있을 것이다. 프랑스어 학습자 대부분은 수동적인 입장에서 교수자가 제시하는 문법이나 어휘 정보를 단순히 받아들이는 경우가 많다.

만약 검색 프로그램을 사용할 수 있다면, 학습자 스스로 어휘 정보를 인지하고 학습할 수 있을 것이다. 학습자가 검색기를 활용하여, 막연하게 생각했던 어떤 문장의 의미를 검증해보거나, 통사 규칙을 발견함으로써, 스스로 언어 학습자이면서 동시에 언어 연구자의 입장에 서게 된다.

특정 어휘가 문장 속에서 어떤 의미를 갖는지 고민하면서, 예문을 통해 학습자가 필요한 정보를 얻을 수 있다. 예를 들어, 학습자가 검색기에 ‘발견’ 또는 ‘발견하다’라고 입력하면, [그림 4]와 같이 문장이 나열된다.

Page 11: 제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다. 이렇게 데이터 구조와 내용은 검색 프로그램의 구축 방 법에

제6장 코퍼스 활용 | 11

[그림 4] 검색기에서 추출된 문장

이들 중에서 필요한 예문만 추출해 보면, 'trouver', 'découvrir', 'découverte' 등이 ‘발견하다’라는 뜻으로 번역된다는 것을 유추할 수 있다.

* Quand tu trouves un diament qui n'est à personne, il est à

toi.(p.13.) 임자 없는 다이아몬드는 그걸 발견한 사람의 소유가 되는 거지.

* Mais il arriva que le petit prince, ayant longtemps marché à

travers les sables, les rocs et les neiges, découvrit enfin une

route. (p.20.) 그리하여 어린 왕자는 모래와 바위와 눈 가운데를 오랫동안 걷고 난 끝에 드디어 길을 하나 발견했다.

* S’il s'agit par exemple de la découverte d’une gross

montagne, on exige qu’il en rapporte de grosses pierres.(p.15.)

예를 들면 큰 산을 발견했다고 하면 우리는 그에게 그 산의 큰 돌을 가져오라고 하지.

Page 12: 제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다. 이렇게 데이터 구조와 내용은 검색 프로그램의 구축 방 법에

12 | 프랑스어와 컴퓨터

이런 과정을 거쳐, 학습자가 'trouver', 'découvrir', 'découverte'의 용법을 습득할 수 있다. 특히 프랑스어 명사가 한국어 서술어로 번역될 수 있다는 사실을 받아들이면서, 번역 과정에서 나타나는 전위와 변조에 대해 이해할 수 있을 것이다.

프랑스어 학습의 초급 단계에서는 학습자에게 기본적인 문법교육도 중요하지만, 실제 언어활동에서 많이 쓰이고 활용 빈도도 높은 어휘를 제시하여, 최소의 시간과 노력을 투자하여 최대의 성과를 맛보게 해야 한다. 학습자 스스로 학습한다는 취지에 부합하려면, 텍스트 코퍼스에 잘 정선된 예문이나 모범적인 문형뿐만 아니라 학습자 스스로 차이점을 발견할 수 있는 예문이 포함되어 있어야 한다. 검색기에 ‘알다’ 또는 ‘알게’라고 입력하면, 다음과 같은 예문이 추출된다. 여기서 'apprendre',

'connaitre', 'croire', 'découvrir', 'savoir', 'révéler' 등이 ‘알다’라는 어휘로 번역된다는 사실을 유추할 수 있고, 이들을 비교하면서, 학습자는 우리말 표현으로는 비슷해서 이해하기 힘든 어휘의 다양한 의미를 쉽게 파악할 수 있을 것이다.

* J'appris bien vite à mieux connaître cette fleur.(p.8.)나는 곧 그 꽃에 대해 더 많은 것을 알게 되었다.

* Je connaîtrai un bruit de pas qui sera différent de tous les

autres. (p.21.) 다른 모든 발걸음 소리와 구별되는 발걸음 소리를 나는 알게 되겠지.

* Hem! Hem! dit le roi, je crois bien que sur ma planète il

y a quelque part un vieux rat.(p.10.) 에헴! 에헴! 왕이 대답했다, 내 별 어딘가에 늙은 쥐 한 마리가 있는 줄로 알고 있다.

* Je découvrira le prix du bonheur! (p.21.) 그래서 행복이 얼마

Page 13: 제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다. 이렇게 데이터 구조와 내용은 검색 프로그램의 구축 방 법에

제6장 코퍼스 활용 | 13

나 값진 것인가 알게 되겠지!

* Les enfants seuls savent ce qu'ils cherchent, fit le petit prince.

(p.22.) “어린 아이들만이 자신이 무엇을 찾고 있는지 알고 있어.” 어린 왕자가 말했다.

* Ce sont des mots prononcés par hasard qui, peu à peu, m'ont

tout révélé.(p.3.) 그가 우연히 한 말들이 차츰차츰 모든 것을 알게 해 주었다. (의미확장)

프랑스어 학습의 중급단계에서는, 학습자에게 대용량의 텍스트 코퍼스를 이용하게 할 수 있다. 그러나 텍스트 코퍼스가 방대해지면, 학습자가 이를 활용하는 데 불편할 수도 있다. 검색되는 문장이나 사용법이 복잡하여, 학습자가 병렬 코퍼스의 사용법을 익히는 데 시간이 걸리지만, 조금만 익숙해지면, 사용하는 데 문제는 없다. 어휘의미 분석을 위해서는 대용량의 코퍼스가 필요하지만, 이들 자료 속에는 매우 희귀한 예문이나 잘 사용되지 않거나, 드물게 사용되는 언어자료도 있을 수 있다.

이 때, 교수자가 학습 자료를 확인하여, 부연설명을 해주어야 한다. 학습자가 확장된 어휘 의미를 파악하기 위해서는, 다양한 의미를 지닌 텍스트 코퍼스가 필요하다. 특정 어휘 의미를 비교 분석하기 위해, 학습자가 검색기에 ‘찾다’를 입력하면, 아래와 같은 예문이 나열된다.

* J'ai des amis à découvrir et beaucoup de choses à connaître.

(p.21.) 친구들을 찾아내야 하고 알아볼 일도 많아.

* Il faut chercher avec le coeur. (p.25.) 마음으로 찾아야 해.

* Le businessman ouvrit la bouche mais ne trouva rien à

répondre, et le petit prince s'en fut.(p.13.) 상인은 입을 열어

Page 14: 제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다. 이렇게 데이터 구조와 내용은 검색 프로그램의 구축 방 법에

14 | 프랑스어와 컴퓨터

말을 하려 했으나 할 말을 찾아내지 못했다. 그래서 어린 왕자는 그 별을 떠나 버렸다.

* Je me demande, dit-il, si les étoiles sont éclairées afin que

chacun puisse un jour retrouver la sienne.(p.17.) “하늘에서 별들이 빛나는 건 언젠가는 저마다 자기 별을 다시 찾을 수 있게 하려는 때문이야”라고 어린 왕자가 말했다.

* Il commença donc par les visiter pour y chercher une

occupation et pour s'instruire.(p.1.) 그래서 일자리도 구하고 견문도 넓힐 생각으로 그 별들부터 찾아보기로 했다. (의미확장)

* Ils perdent du temps pour une poupée de chiffons, et elle

devient très importante, et si on la leur enlève, ils pleurent.

(p.22.) 그들은 누더기 같은 인형을 찾느라 시간을 허비하지.

그래서 그것은 그들에겐 아주 중요한 게 되거든. 그러니까 사람들이 그것을 빼앗아 가면 어린 아이들은 우는 거야. (등가 번역)

* Il avait déjà peur de s'être trompé de planète, quand un

anneau couleur de lune remua dans le sable.(p.17.) 그가 잘못해서 다른 별로 찾아 온 게 아닌가 겁이 나 있을 때, 달 같은 빛깔의 고리가 모래 속에서 움직이는 것이 보였다. (동음이의)

위에 열거된 문장에서 'découvrir', 'chercher', 'trouver', 'retrouver', 'visiter' 또는 전혀 다른 어휘가 ‘찾다’라는 말로 번역되고 있다는 것을 확인할 수 있다. 이들 동사의 의미를 비교하면서, 학습자 스스로 어휘 번역 능력을 키울 수 있을 것이다. 특히, 특정 프랑스어 동사가 우리말로 번역될 때, 여러 뜻으로 분화되는 경우, 열거된 예문을 비교 분석하면서,

Page 15: 제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다. 이렇게 데이터 구조와 내용은 검색 프로그램의 구축 방 법에

제6장 코퍼스 활용 | 15

이들의 서로 다른 뜻을 파악할 수 있을 것이다. 아래 열거된 문장에서 학습자는 'apprendre'가 ‘배우다’, ‘연습하다’, ‘가르치다’, ‘알다’ 등, 다양한 의미와 통사구조를 지니고 있다는 사실을 알 수 있다.

* J'ai donc dû choisir un autre métier et j'ai appris à piloter

des avions.(p.1.) 그래서 다른 직업을 선택하지 않을 수 없게 된 나는 비행기 조종하는 법을 배웠다.

* J'avais été découragé dans ma carrière de peintre par les

grandes personnes, à l'age de six ans, et je n'avais rien appris

à dessiner, sauf les boas fermés et les boas ouverts.(p.2.) 여섯 살 적에 어른들은 화가로 출세할 수 없다고 나를 낙심시켰기 때문에 나는 속이 보이지 않거나 보이거나 하는 보아 구렁이 이외에는 아무것도 그리는 연습을 하지 않았으니까 말이다.

* Et j'étais fier de lui apprendre que je volais. (p.3.) 내가 날아다닌다는 것을 그에게 가르쳐 주면서 나는 자랑스러워졌다.

* J'avais ainsi appris une seconde chose très importante.(p.4.)

나는 이렇게 해서 아주 중요한 두 번째 사실을 알게 되었다.

이렇게 프랑스어-한국어 병렬 코퍼스를 활용하면, 어휘의 의미 파악이 쉽고, 어휘의 연어 관계를 쉽게 파악할 수 있다. 또, 용법이나 특별한 어휘의미도 파악할 수 있다는 장점이 있다. 반면에, 검색 프로그램을 활용하여 필요한 정보를 얻어내는데, 많은 노력과 시간이 소요될 수 있다.

그러므로 검색 프로그램을 이용하여 정보를 획득하는 것보다, 이 시간에 다른 매체를 활용하여, 더 많은 언어지식을 얻을 수도 있다. 더구나 텍스트 코퍼스의 특성 때문에, 프랑스어와 한국어가 문장 대 문장으로 대등하게 연계되지 않는 경우도 많다. 또, 제시되는 예문이 너무 많으면, 학

Page 16: 제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다. 이렇게 데이터 구조와 내용은 검색 프로그램의 구축 방 법에

16 | 프랑스어와 컴퓨터

습자가 자신에게 알맞은 예문을 선별할 수 없으므로, 학습자의 관심과 흥미를 이끌어 낼 수도 없다. 특히 문학작품의 경우, 예문 어휘 간의 일관성이 잘 드러나지 않을 수도 있기 때문에, 텍스트를 병렬 코퍼스로 구축하는 데 어려움이 많다. 이 외에도, 웹상에서 제공되는 검색 프로그램의 사용법이 학습자에게는 복잡하게 느껴질 수도 있다. 앞으로 이런 단점을 보완하면서, 프랑스어-한국어 병렬 코퍼스 검색기의 기능을 개선해 나가야 할 것이다.

본 절에서는 이런 점을 고려하여, 프랑스어 학습 과정에서 널린 읽히고 있는 ‘어린 왕자’를 병렬 코퍼스로 구축하여 검색 프로그램과 연계시켰다. 이외에도 도데의 ‘별’, ‘아를르 여인’ 등도 병렬 코퍼스로 구축하였으나, 표제어와 예문 추출 문제를 좀 더 보완하기 위해, 다음 연구에서 코퍼스를 통합하기로 하였다. 잘 알려진 문학작품을 프랑스어 교육에 활용한다고 해도, 위에 제시한 문제에서 완전히 벗어날 수는 없다. 프랑스어 교육에 유용한 텍스트 자료를 병렬 코퍼스로 구축하기 위해서, 교수자는 수업 목표에 부합하는 자료를 임의로 선택할 수 있는 능력을 지녀야 한다. 텍스트의 유형이나 샘플링 방법에 따라서는 예문을 찾을 수 없는 경우도 있기 때문에, 교수자나 학습자 모두 프랑스어 교수-학습 과정에서 코퍼스에 너무 의존해서는 안 된다.

병렬 코퍼스의 활용분야는 자동번역, 사전과 대역목록 추출, 컴퓨터보조 언어학습이나 대조언어학 분야의 다국어 정보와 예문 구성에 필요한 정보 추출 등, 아주 다양하다. 정보화 시장의 대형화 추세에 따라, 언어 산업분야에서 다국어 정보의 중요성이 증대되어, 병렬 코퍼스 개발 분야가 미래를 보장하는 기술이 되고 있다.

병렬 코퍼스에 다국어 자료가 풍부하게 제공되면서, 웹을 기반으로

Page 17: 제6장 코퍼스 활용 - Chonbukmyungwan.chonbuk.ac.kr/frcom/frcom_06.pdf · 을 입력하였다. 이렇게 데이터 구조와 내용은 검색 프로그램의 구축 방 법에

병렬 코퍼스가 점점 늘어나는 추세다. 특히 한국에서 프랑스어 교수-학습을 하는 데 있어, 병렬 코퍼스는 매우 중요한 역할을 한다. 그러나 관심분야에 대한 용례가 너무 적어, 웹 기반 코퍼스 추출 과정에서 여러 문제가 나타난다. 또 추출된 자료를 프랑스어-한국어 병렬 코퍼스로 구축하는 것도 그렇게 쉬운 일이 아니다.

지금까지 ‘어린 왕자’에서 추출한 프랑스어-한국어 병렬 텍스트를 대조 분석해 보았다. 대조분석을 통해 얻은 결과와 이들을 활용할 수 있는 대역어휘 활용 시스템도 제시하였다. 연구 결과를 텍스트 코퍼스로 제시하고, 검색 프로그램 개발 과정에서 드러나는 문제에 대해서도 언급하였다. 끝으로 이 분야에 대한 관심이 높아져, 본 연구가 프랑스어 교육에 널리 활용되고, 자동번역 프로그램의 소스로 쓰일 수 있기를 기대한다.