1장 소개

19
최최최최최최최 Chapter 1 1 1 장 장장 장 장 1.1 장장 1.2 장장 장장 1.3 장장 , 장장장 장장 1.4 장장 장장 1.5 장장장 장장 1.6 장장장 장장 1.7 장장 장장 장장

description

목 차 1.1 동기 1.2 기본 개념 1.3 과거, 현재와 미래 1.4 검색 과정 1.5 교재의 구성 1.6 교재의 사용 1.7 참고 문헌 고찰. 1장 소개. 1.1 동기. 정보검색 ( Information Retrieval: IR) 정보 항목들에 대한 표현, 저장, 조직, 접근 사용자가 관심 있는 정보에 대해 쉬운 접근을 제공 가상 사용자 정보 요구 예 다음과 같은 대학 테니스 팀에 대한 정보를 지니고 있는 모든 페이지(문헌)를 찾아라 미국 내 대학에서 운영되고 NCAA 테니스 토너먼트에 참가 - PowerPoint PPT Presentation

Transcript of 1장 소개

최신정보검색론 Chapter 1 1

1 장 소개

목 차

1.1 동기

1.2 기본 개념

1.3 과거 , 현재와 미래

1.4 검색 과정

1.5 교재의 구성

1.6 교재의 사용

1.7 참고 문헌 고찰

최신정보검색론 Chapter 1 2

1.1 동기

• 정보검색 (Information Retrieval: IR)– 정보 항목들에 대한 표현 , 저장 , 조직 , 접근– 사용자가 관심 있는 정보에 대해 쉬운 접근을 제공– 가상 사용자 정보 요구 예

• 다음과 같은 대학 테니스 팀에 대한 정보를 지니고 있는 모든 페이지 ( 문헌 ) 를 찾아라

– 미국 내 대학에서 운영되고 NCAA 테니스 토너먼트에 참가

– 단 , 지난 3 년간의 미국 내 순위와 – 팀 코치의 전자메일 또는 전화번호 포함

• IR 시스템의 중요 목표– 해당 IR 시스템의 질의 (query) 형태로 변환– 사용자에게 유용하거나 연관될 지도 모르는 정보를 검색

최신정보검색론 Chapter 1 3

1.1.1 정보와 데이터 검색• 데이터 검색 (Data Retrieval: DR)

– 명확히 정의된 조건에서 모든 객체들을 검색• 정규식이나 관계 대수 표현

– 잘 정의된 구조와 의미를 가진 데이터• 관계형 데이터베이스

• 정보 검색– 질의를 만족하는 데이터보다는 그 주제에 연관된 정보를 검색– 자연언어 텍스트를 취급

• 잘 구조화되어 있지도 않으며 , 의미적으로도 모호함– 문헌 내용의 해석

• 문헌 텍스트로부터 구문 / 의미 정보를 추출하고 , • 이 정보를 이용해 사용자 정보 요구와 정합

– 사용자 질의와의 연관도에 따라 순위를 매김 • 연관성 (relevance) 인식이 정보 검색의 핵심

– IR 시스템의 주요 목표• 사용자 질의와 연관된 모든 문헌을 검색• 가능한 한 비연관 문헌을 줄임

최신정보검색론 Chapter 1 4

1.1.2 시대 중심에 위치한 정보 검색• 정보 검색의 역사

– ’60-’70 년대 : 텍스트 색인과 유용한 문헌 탐색 도구– ‘80 년대

• 모델링 , 문헌 분류 및 범주화 , 시스템 구조 , 사용자 인터페이스 , 데이터 가시화, 여과 , 언어 등을 포함

• 도서관 사서나 정보 전문가들만의 협소한 관심영역

– ‘90 년대• 월드 와이드 웹의 등장

– 전례없는 규모로 생각과 정보의 공유를 가능– 인류 지식과 문화의 보편적인 저장소– 모든 사람이 접할 수 있는 새로운 출판 매체

• 주요 장애물– 웹을 위해 잘 정의된 데이터 모델의 부재– 정보의 정의와 구조가 저수준

• 유망한 해결책으로 웹 검색 부각

최신정보검색론 Chapter 1 5

1.1.3 교재의 초점

• 정보 검색에 관한 전반적인 연구 성과 – 컴퓨터 과학 입장

• IR 시스템에서 사용되는 컴퓨터 알고리즘과 기술에 초점

– 인간중심으로 해석• 도서관 사서나 정보과학 연구자의 관점 소개

– 정보검색과 관련된 다른 분야와 통합• 기술 : 텍스트 / 멀티미디어 검색 , 사용자

인터페이스 , 시각화• 응용 : 웹 , 도서관 시스템 , 디지털 도서관

최신정보검색론 Chapter 1 6

1.2 기본 개념

• 연관 정보의 효과적인 검색 요소– 사용자 작업– 검색시스템이 채택한 논리적 문헌

• 작업에 따른 사용자와 검색 시스템간의 상호작용

최신정보검색론 Chapter 1 7

1.2.1 사용자 작업• 가져오기 (pulling) 작업

– 정보와 데이터 검색• 해당 시스템이 제공하는 질의언어로 변환

– IR : 정보 요구의 의미를 담고 있는 단어 집합– DR : 정규식

• 전통적인 정보 검색 시스템

– 브라우징• 시작시 목적이 명확하게 정의되어 있지 않고 사용 중에 목적이 바뀜• 하이퍼텍스트 시스템

– 정보와 데이터 검색에 브라우징을 통합• 아직 일반적이지 못하고 미래에나 가능

• 밀어넣기 (push) 작업

– 사용자에게 유용한 정보를 주기적으로 추출하여 보내줌– 정보 여과 (filtering)

최신정보검색론 Chapter 1 8

1.2.2 논리적 문헌

• 전문 (full text)– 문헌에 포함된 모든 단어의 집합– 가장 완벽한 형태의 논리적 문헌– 높은 계산 비용을 수반

• 색인어나 키워드의 집합– 문헌 텍스트로부터 직접 추출

• 대규모의 문헌 집합에서 대표 키워드 집합으로 축소• 텍스트 작업 ( 또는 변형 )

– 불용어 (stopword ; 관사나 접속사와 같은 ) 제거– 스테밍 (stemming ; 문법적으로 공통인 어원으로 변환 ) – 명사 그룹 ( 형용사 , 부사 , 동사 제거 ) 확인 – 압축

– 주제 색인자 ( 정보과학 영역 전문가 ) 에 의해 명기• 작은 규모의 카테고리 : 가장 간결한 형태의 논리적 문헌• 낮은 수준의 검색 결과

최신정보검색론 Chapter 1 9

문헌의 논리적 상 전문에서 색인어 집합까지

최신정보검색론 Chapter 1 10

1.3 과거 , 현재와 미래1.3.1 초기 연구

• 검색하고 사용할 목적으로 정보를 조직화– 책의 목차– 색인

• 연관 정보에 대한 지시자 역할을 해주는 선택된 단어나 개념 목록– 분류체계

• 도서관학 ( 또는 문헌정보학 ) 분야의 전문가들에 의해 대부분이 고안

– 대규모 색인을 자동으로 구축하는 것이 가능해짐• 정보 검색의 두 관점

– 컴퓨터 중심• 효율적인 색인 , 고성능의 사용자 질의 처리 , 순위결정 알고리즘이

중요– 인간 중심

• 사용자 행태 연구 , 사용자 주요 요구의 이해와 함께 어떻게 이런 것들이 검색 시스템의 조직과 동작에 영향을 미치는가가 중요

최신정보검색론 Chapter 1 11

1.3.2 도서관에서의 정보 검색

• 1 세대 시스템– 카드 목록과 같은 이전의 기술들을 자동화하는 차원– 저자나 제목으로 검색 가능

• 2 세대 시스템– 주제어나 키워드 , 좀 더 복잡한 질의 처리 등의 향상된

탐색 기능들이 추가

• 3 세대 시스템– 향상된 그래픽 인터페이스 , 전자 형태 , 하이퍼텍스트

기능 및 개방형 시스템 구조 등에 초점

최신정보검색론 Chapter 1 12

1.3.3 웹과 디지털 도서관

• 컴퓨터 기술 발전과 웹에 의한 변화– 저비용 : 매우 저렴하게 다양한 정보원의 접근이 가능– 접근의 용이 : 수많은 네트워크에로의 신속한 접근이

가능– 출판의 자유 : 대규모 출판 매체에 자유로운 접근이 가능

• 웹 (디지털 도서관 ) – 고수준의 상호작용 (interactivity) 이 가능한 매체– 서비스 편의성 향상

• 해결해야 할 세 가지 중요 문제– 동적 환경에서 양질의 검색을 제공– 색인과 질의 응답 시간을 빠르게 제공– 사용자 행태의 이해

• 새로운 정보 검색 전략의 설계와 전개에 영향

최신정보검색론 Chapter 1 13

1.3.4 실용적인 문제

• 보안과 사생활보호

– 전자상거래 보안상의 이유로 암호화나 자동 인증 형식을 제공

– 제 3 자에 의해 개인정보가 오용되는 것을 방어

• 저작권과 특허

– 웹상의 광범위한 데이터 유포와 저작권법이나 특허법과의 관계

– 대규모 디지털 도서관 설립과 전개 사업에 중요

• 기타

– 스캐닝

– 광학문자인식 (OCR)

– 교차 언어 검색 ( 질의언어와 검색된 문헌의 언어가 상이한 경우 )

최신정보검색론 Chapter 1 14

1.4 검색 과정

최신정보검색론 Chapter 1 15

1.4 검색 과정 (계속 )

• 텍스트 데이터베이스 정의(데이터베이스 관리자)

– 사용될 문헌

– 텍스트에 수행될 명령어

– 텍스트 모델 ( 검색 대상 요소로서의 텍스트 구조 )

• 텍스트 색인 생성

– 가장 결정적인 자료구조

• 대량의 데이터를 빠르게 검색

– 역파일 (inverted file) 구조

최신정보검색론 Chapter 1 16

1.4 검색 과정 (계속 )

• 검색

1. 사용자의 요구를 명기

2. 텍스트 명령어와 동일하게 분석되고 변형

3. 질의 연산 (query operation) 적용

4. 색인구조에 의해 검색

5. 연관 가능성 (likelyhood) 에 따라 순위화

6. 사용자 피드백 (user feedback)

1. 사용자의 관심에 정확히 부합되는 문헌들을 선택

7. Go to 3

최신정보검색론 Chapter 1 17

1.5 교재의 구성

최신정보검색론 Chapter 1 18

1.5.2 교재의 구조

최신정보검색론 Chapter 1 19

1.7 참고– 웹 페이지

• Brazil: http://www.dcc.ufmg.br/irbook• Chile: http://sunsite.dcc.uchile.cl/irbook

– 정보 검색에 대한 주요 논문지• Journal of the American Society of Information Sciences(JASIS) • ACM Transactions on Information Systems• Information Processing & Management(IP&M, Elsevier)• Information Systems(Elsevier)• Information Retrieval(Kluwer)• Knowledge and Information Systems(Springer)

– 학술회의• ACM SIGIR International Conference on Information Retrieval • ACM International Conference on Digital Libraries(ACM DL) • ACM Conference on Information Knowledge and Management(CIKM)• Text REtrieval Conference(TREC)• IRAL (International Workshop on Information Retrieval with Asian

Languages)• 한글 및 한국어 정보처리 학술대회