정보검색 개요

25
1 정정정정 정정 정정정

description

정보검색 개요. 권혁철. 과거 정보검색. 도서관을 중심으로 문헌정보를 검색하는 과정에서 연구 정제된 문서 또는 전문가가 제공한 keywords 활용 고도 질의어 사용 일부 문헌정보 요약 정보를 검색하고 원문을 판매하는 형태로 상품화했으나 , 대부분은 도서관에서 사용함으로써 시장에서 가치가 크지 않음 자료의 양이 많지 않음 코넬대학 중심 Cosine measure 등 수학적 모형 사용 Slaton 이 중심으로 연구 언어분석의 중요성이 크지 않음. 현재 정보검색. 인터넷 정보과부하 - PowerPoint PPT Presentation

Transcript of 정보검색 개요

Page 1: 정보검색 개요

1

정보검색

개요

권혁철

Page 2: 정보검색 개요

2

과거 정보검색• 도서관을 중심으로 문헌정보를 검색하는 과정에서

연구– 정제된 문서 또는 전문가가 제공한 keywords 활용– 고도 질의어 사용

• 일부 문헌정보 요약 정보를 검색하고 원문을 판매하는 형태로 상품화했으나 , 대부분은 도서관에서 사용함으로써 시장에서 가치가 크지 않음

• 자료의 양이 많지 않음– 코넬대학 중심– Cosine measure 등 수학적 모형 사용– Slaton 이 중심으로 연구– 언어분석의 중요성이 크지 않음

Page 3: 정보검색 개요

3

현재 정보검색• 인터넷 정보과부하

– 홈페이지 , Blog, …– 텍스트 , 멀티미디어 , …

• 일반인이 사용– 짧은 질의– 고도검색기법에 대한 인식부족

• Relevance feedback, Boolean query … • 사용자 history 이용 등

• 정보화 사회의 길잡이로 상업적으로 성공• 대용량 정보처리가 중심이므로 고도의 기법을

사용하지 않지만 서서히 정보과부하로 서서히 고도처리기법의 필요성이 대두함

Page 4: 정보검색 개요

4

일반 사용자• 스스로 무엇을 어떻게 찾는지 모를 수 있음• 사용자마다 다른 검색유형을 보임• 꼭 필요한 정보만 몇 개 찾음• 찾는 정보가 없으면 어떻게 다른 방법으로 찾을지

모름• 감각적으로 느낌에 따라 찾음• 주로 대중적으로 인기가 있는 내용을 찾지만 ,

때에 따라서는 전문적 분야를 찾는 등 검색 유형을 찾기 어려움

Page 5: 정보검색 개요

5

인터넷에서 일반영역 검색• 현 언어처리 기술로는 인터넷에 있는 모든 문서를

분석하기는 불가능– 언어처리 기술의 한계– 분석속도– 문서의 질 ( 철자오류 , 다국어 , 다양한 용어 … ) 심지어 n-gram 이 효과적이기도 함

• 더구나 사용자의 질의에 중의성이 많음– ‘ 부산대학교’ , ‘ 김민정’ , …

• 텍스트 문서뿐 아니라 멀티미디어 문서도 찾아야 함– 멀티미디어문서 검색은 더욱 어려움

Page 6: 정보검색 개요

6

인터넷 문서특징 활용• 링크 , 사용자선호도 등 추가 정보를 활용하여

검색효율을 높일 수 있음– 허브사이트 ( 포털 ) 와 영향력 있는 사이트– 사용자가 검색 후 어느 문서를 선택하는지 ? – 어떤 질의가 요즘 많이 이루어지는지 ?– 각 문서에 대한 내용을 기계가 읽을 수 있는 형태로 요약한

파일 사용 시맨틱웹• 실제 검색사이트에서 사용자에게 분류나 요약정보를 제공하는

방법 활용

• 태그 등 정보 활용– HTML, XML

• 분류정보 , Trend 등 활용

Page 7: 정보검색 개요

7

검색이 상업적으로 성공• Yahoo

– 분류 정보를 활용한 검색• Google

– 효율적 검색만으로 성공 가능함을 보여줌– 현재는 시장을 넓히고 , MS 에 도전– Google earth

• 오버추어– Yahoo 가 16.3 억 달러로 인수– 국내에서 영업 : keyword 에 따라 월 수천 만원

Page 8: 정보검색 개요

8

구글신화• ‘ 닷컴의 제왕’ 구글 , 6 년 만에 “시가총액 29 조원” 작년 순익 1

억 560 만달러 (2004 년 5 월 )• 얼마 전에는 구글이 주가 상승으로 인해 타임워너 (790 억 $) 를

누르고 세계에서 가장 시가총액 높은 미디어 회사로 등극했다는 뉴스가 나왔었다 . 구글의 시가총액은 야후 ($490 억 ) 와 이베이를 합한 것보다도 높다 .(2005 년 7 월 , 845 억 $) 삼성전자 650 억 $

• 인터넷 검색엔진 구글이 최근 주가 상승으로 세계 100 대 기업에 포함됐다고 영국 파이낸셜타임스 (FT) 가 3 일 보도했다 . FT 는 2 분기말 현재 FT 글로벌 500 지수에서 구글의 순위가 95위로 상승했다고 밝혔다 . (2005 년 7 월 12 일 )

• 이 요리사가 구글에서 받은 스톡옵션이 수백만불 이상이 되는 모양인데 ( 많은 실리콘밸리 벤처회사들은 비서나 요리사에게까지 스톡옵션을 준다고 한다 ), 이 돈으로 그는 부자로 은퇴하거나 아니면 구글을 나와서 커다란 식당을 차릴 계획이라고 한다

Page 9: 정보검색 개요

9

국내• NHN은 2 분기에 매출액 830 억원 , 영업이익 308

억원을 기록했다고 3 일 발표했다 .• 페이지뷰의 기준으로는 시장점유율이 68%(4 월

코리안클릭 집계 ) 에 이르렀다 . 검색광고 시장의 호황과 성공적인 해외 진출로 올 1 분기에만 709억원의 매출과 244 억의 당기순이익을 기록한 NHN은 시가총액 1 조 5000 억원을 기록하고 있다

• 검색광고시장은 NHN의 앞길을 밝게 해주고 있다 . 2002 년 500 억원 규모에 그쳤던 국내 검색광고 시장은 올해 3500 억원으로 늘어나고 2007 년에는 8000 억원대로 커질 것으로 전망되고 있다 .

Page 10: 정보검색 개요

10

미래는 ?

• 누군가 검색분야에서는 새로운 아이디어를 낼 것이다 . 그러나 방법론 자체가 아주 새롭지는 않을 것이다 .

• 인터넷에 기반한 틈새시장 확장으로 계속하여 포털의 가치는 높아질 것이다 .

• 아마 네이버를 비롯한 국내 포털이 지속하여 힘을 가지기는 쉽지 않을 것이다 .

• 인터넷에서 결국 MS 와 Google 이 경쟁할 것이다 .• 운영체제 중심에서 인터넷 중심의 시스템이 될 것이다 .

• 검색은 점점 더 의미기반으로 바뀔 것이다 .

Page 11: 정보검색 개요

11

Managing Gigabytes

• 벌써 오래된 기술 ???• 그리나 아주 기본적인 기술• 어떤 검색시스템도 이 책과 Finding out about

을 넘어가지는 않음• 그러나 데이터 양은 terabytes, petabytes 로 커지고 있다 .

• 문서도 이제 10 억 건 ( 이를 넘으면 의미가 없다고도 함 ) 을 넘음

따라서 기본 교재로는 충분

Page 12: 정보검색 개요

12

내용• 문서압축 현재는 검색에서는 큰

의미는 없으나 다른 쪽에서는 중요• 멀티미디어 정보압축 등은 표준화• 검색모형은 그대로 이용•역파일 압축 : 기술적으로 의미는

있으나 최근에는 압축을 잘 안 함• Indexing, querying 은 중요 Finding out about 로 보완

Page 13: 정보검색 개요

13

Concordance

• Locating words of Wordsworth’s poetry– 1136 pages 211,000 nontrivial

words– Time consuming

• Hand-made concordance• British National Corpus• Full-text retrieval

Page 14: 정보검색 개요

14

Full-text retrieval

• TREC • Routing <-> filtering <-> clustering

– Trend …• WWW• 구조화 정보 검색

– 무엇을– 어떻게 – 왜

Page 15: 정보검색 개요

15

개념적인 배경• 대용량 정보 처리의 목적

– 적은 비용으로 최대한 빨리 검색– Full-text retrieval

• 과거 : 수작업– 많은 비용 ( 인력 , 시간 )– 많은 오류 발생

• 현재 : 컴퓨터의 도입– 적은 비용 ( 인력 , 시간 )– 적은 오류 발생

• 언제나 문제점은 존재한다 !

Page 16: 정보검색 개요

16

• 저장공간– Text data + Multimedia data– 엄청난 양의 저장 공간이 필요

• 검색속도– 원하는 데이터의 빠른 검색– 검색 결과의 정확성

• 이를 효율적으로 지원해주는 시스템의 요구

왜 MG 가 필요한가 ?

Page 17: 정보검색 개요

17

• Compression 과 Indexing 의 조합– Time 과 Space 의 문제– 두 마리 토끼를 한꺼번에 잡자 !

• Image 등의 Multimedia data 처리– Document DB = text + image– Image data 의 처리가 더 어려움

• 더 많은 저장 공간의 요구• 효율적인 색인 방법을 찾기가 어려움

MG 의 논점

Page 18: 정보검색 개요

18

•목적– 저장공간의 절약– 네트워크 상에서의 통신비용 절감

• 고려할 점– Encoding, Decoding 비용– Search 와의 관계– 보조 저장 장치에서의 I/O

Compression

Page 19: 정보검색 개요

19

Page 20: 정보검색 개요

20

• 목적– 빠른 검색

• 고려할 점– Search 방법 (Data Structure)– Sorting– 저장 방법 (compression, Storage)

Indexes

Page 21: 정보검색 개요

21

무엇을 indexing 하나 ?

• How the information should be organized so that queries can be resolved and relevant portions of data located and extracted

• Book, journals, catalogs for libraries, telephone directories, address, references, musical themes, genome sequences, …

Page 22: 정보검색 개요

22

어떻게 • Stop words ( 불용어 )

– ‘the’, ‘a’, ‘and’ <= 수십 개가 30% 차지

– 조사 , 어미 , 동사 ??? ‘ 조사의 용례 ???’

• Indexer could not predict what the researcher would want to find

Page 23: 정보검색 개요

23

• 고려해야 할 문제들– Textual image– Mixed text & image– 범용적인 표준 > 출력된 문서 (종이 , screen)– 다양한 문서의 저장 및 압축 방법 (lossy or lossles

s)• Text 와 image data 가 복합된 문서 처리

– 서로 다른 compression 기법 사용– Data 의 크기가 틀림

Text & Image

Page 24: 정보검색 개요

24

Scanned Image

Page 25: 정보검색 개요

25

• Text & Image Compression• Indexing & Querying• Textual Images• Mixed text and image• Implementation• MG system

이후 논의될 내용들