정보검색 개요

1

정보검색

개요

권혁철

2

과거 정보검색• 도서관을 중심으로 문헌정보를 검색하는 과정에서

연구– 정제된 문서 또는 전문가가 제공한 keywords 활용– 고도 질의어 사용

• 일부 문헌정보 요약 정보를 검색하고 원문을 판매하는 형태로 상품화했으나 , 대부분은 도서관에서 사용함으로써 시장에서 가치가 크지 않음

• 자료의 양이 많지 않음– 코넬대학 중심– Cosine measure 등 수학적 모형 사용– Slaton 이 중심으로 연구– 언어분석의 중요성이 크지 않음

3

현재 정보검색• 인터넷 정보과부하

– 홈페이지 , Blog, …– 텍스트 , 멀티미디어 , …

• 일반인이 사용– 짧은 질의– 고도검색기법에 대한 인식부족

• Relevance feedback, Boolean query … • 사용자 history 이용 등

• 정보화 사회의 길잡이로 상업적으로 성공• 대용량 정보처리가 중심이므로 고도의 기법을

사용하지 않지만 서서히 정보과부하로 서서히 고도처리기법의 필요성이 대두함

4

일반 사용자• 스스로 무엇을 어떻게 찾는지 모를 수 있음• 사용자마다 다른 검색유형을 보임• 꼭 필요한 정보만 몇 개 찾음• 찾는 정보가 없으면 어떻게 다른 방법으로 찾을지

모름• 감각적으로 느낌에 따라 찾음• 주로 대중적으로 인기가 있는 내용을 찾지만 ,

때에 따라서는 전문적 분야를 찾는 등 검색 유형을 찾기 어려움

5

인터넷에서 일반영역 검색• 현 언어처리 기술로는 인터넷에 있는 모든 문서를

분석하기는 불가능– 언어처리 기술의 한계– 분석속도– 문서의 질 ( 철자오류 , 다국어 , 다양한 용어 … ) 심지어 n-gram 이 효과적이기도 함

• 더구나 사용자의 질의에 중의성이 많음– ‘ 부산대학교’ , ‘ 김민정’ , …

• 텍스트 문서뿐 아니라 멀티미디어 문서도 찾아야 함– 멀티미디어문서 검색은 더욱 어려움

6

인터넷 문서특징 활용• 링크 , 사용자선호도 등 추가 정보를 활용하여

검색효율을 높일 수 있음– 허브사이트 ( 포털 ) 와 영향력 있는 사이트– 사용자가 검색 후 어느 문서를 선택하는지 ? – 어떤 질의가 요즘 많이 이루어지는지 ?– 각 문서에 대한 내용을 기계가 읽을 수 있는 형태로 요약한

파일 사용 시맨틱웹• 실제 검색사이트에서 사용자에게 분류나 요약정보를 제공하는

방법 활용

• 태그 등 정보 활용– HTML, XML

• 분류정보 , Trend 등 활용

7

검색이 상업적으로 성공• Yahoo

– 분류 정보를 활용한 검색• Google

– 효율적 검색만으로 성공 가능함을 보여줌– 현재는 시장을 넓히고 , MS 에 도전– Google earth

• 오버추어– Yahoo 가 16.3 억 달러로 인수– 국내에서 영업 : keyword 에 따라 월 수천 만원

8

구글신화• ‘ 닷컴의 제왕’ 구글 , 6 년 만에 “시가총액 29 조원” 작년 순익 1

억 560 만달러 (2004 년 5 월 )• 얼마 전에는 구글이 주가 상승으로 인해 타임워너 (790 억 $) 를

누르고 세계에서 가장 시가총액 높은 미디어 회사로 등극했다는 뉴스가 나왔었다 . 구글의 시가총액은 야후 ($490 억 ) 와 이베이를 합한 것보다도 높다 .(2005 년 7 월 , 845 억 $) 삼성전자 650 억 $

• 인터넷 검색엔진 구글이 최근 주가 상승으로 세계 100 대 기업에 포함됐다고 영국 파이낸셜타임스 (FT) 가 3 일 보도했다 . FT 는 2 분기말 현재 FT 글로벌 500 지수에서 구글의 순위가 95위로 상승했다고 밝혔다 . (2005 년 7 월 12 일 )

• 이 요리사가 구글에서 받은 스톡옵션이 수백만불 이상이 되는 모양인데 ( 많은 실리콘밸리 벤처회사들은 비서나 요리사에게까지 스톡옵션을 준다고 한다 ), 이 돈으로 그는 부자로 은퇴하거나 아니면 구글을 나와서 커다란 식당을 차릴 계획이라고 한다

9

국내• NHN은 2 분기에 매출액 830 억원 , 영업이익 308

억원을 기록했다고 3 일 발표했다 .• 페이지뷰의 기준으로는 시장점유율이 68%(4 월

코리안클릭 집계 ) 에 이르렀다 . 검색광고 시장의 호황과 성공적인 해외 진출로 올 1 분기에만 709억원의 매출과 244 억의 당기순이익을 기록한 NHN은 시가총액 1 조 5000 억원을 기록하고 있다

• 검색광고시장은 NHN의 앞길을 밝게 해주고 있다 . 2002 년 500 억원 규모에 그쳤던 국내 검색광고 시장은 올해 3500 억원으로 늘어나고 2007 년에는 8000 억원대로 커질 것으로 전망되고 있다 .

10

미래는 ?

• 누군가 검색분야에서는 새로운 아이디어를 낼 것이다 . 그러나 방법론 자체가 아주 새롭지는 않을 것이다 .

• 인터넷에 기반한 틈새시장 확장으로 계속하여 포털의 가치는 높아질 것이다 .

• 아마 네이버를 비롯한 국내 포털이 지속하여 힘을 가지기는 쉽지 않을 것이다 .

• 인터넷에서 결국 MS 와 Google 이 경쟁할 것이다 .• 운영체제 중심에서 인터넷 중심의 시스템이 될 것이다 .

• 검색은 점점 더 의미기반으로 바뀔 것이다 .

11

Managing Gigabytes

• 벌써 오래된 기술 ???• 그리나 아주 기본적인 기술• 어떤 검색시스템도 이 책과 Finding out about

을 넘어가지는 않음• 그러나 데이터 양은 terabytes, petabytes 로 커지고 있다 .

• 문서도 이제 10 억 건 ( 이를 넘으면 의미가 없다고도 함 ) 을 넘음

따라서 기본 교재로는 충분

12

내용• 문서압축 현재는 검색에서는 큰

의미는 없으나 다른 쪽에서는 중요• 멀티미디어 정보압축 등은 표준화• 검색모형은 그대로 이용•역파일 압축 : 기술적으로 의미는

있으나 최근에는 압축을 잘 안 함• Indexing, querying 은 중요 Finding out about 로 보완

13

Concordance

• Locating words of Wordsworth’s poetry– 1136 pages 211,000 nontrivial

words– Time consuming

• Hand-made concordance• British National Corpus• Full-text retrieval

14

Full-text retrieval

• TREC • Routing <-> filtering <-> clustering

– Trend …• WWW• 구조화 정보 검색

– 무엇을– 어떻게 – 왜

15

개념적인 배경• 대용량 정보 처리의 목적

– 적은 비용으로 최대한 빨리 검색– Full-text retrieval

• 과거 : 수작업– 많은 비용 ( 인력 , 시간 )– 많은 오류 발생

• 현재 : 컴퓨터의 도입– 적은 비용 ( 인력 , 시간 )– 적은 오류 발생

• 언제나 문제점은 존재한다 !

16

• 저장공간– Text data + Multimedia data– 엄청난 양의 저장 공간이 필요

• 검색속도– 원하는 데이터의 빠른 검색– 검색 결과의 정확성

• 이를 효율적으로 지원해주는 시스템의 요구

왜 MG 가 필요한가 ?

17

• Compression 과 Indexing 의 조합– Time 과 Space 의 문제– 두 마리 토끼를 한꺼번에 잡자 !

• Image 등의 Multimedia data 처리– Document DB = text + image– Image data 의 처리가 더 어려움

• 더 많은 저장 공간의 요구• 효율적인 색인 방법을 찾기가 어려움

MG 의 논점

18

•목적– 저장공간의 절약– 네트워크 상에서의 통신비용 절감

• 고려할 점– Encoding, Decoding 비용– Search 와의 관계– 보조 저장 장치에서의 I/O

Compression

19

예

20

• 목적– 빠른 검색

• 고려할 점– Search 방법 (Data Structure)– Sorting– 저장 방법 (compression, Storage)

Indexes

21

무엇을 indexing 하나 ?

• How the information should be organized so that queries can be resolved and relevant portions of data located and extracted

• Book, journals, catalogs for libraries, telephone directories, address, references, musical themes, genome sequences, …

22

어떻게 • Stop words ( 불용어 )

– ‘the’, ‘a’, ‘and’ <= 수십 개가 30% 차지

– 조사 , 어미 , 동사 ??? ‘ 조사의 용례 ???’

• Indexer could not predict what the researcher would want to find

23

• 고려해야 할 문제들– Textual image– Mixed text & image– 범용적인 표준 > 출력된 문서 (종이 , screen)– 다양한 문서의 저장 및 압축 방법 (lossy or lossles

s)• Text 와 image data 가 복합된 문서 처리

– 서로 다른 compression 기법 사용– Data 의 크기가 틀림

Text & Image

24

Scanned Image

25

• Text & Image Compression• Indexing & Querying• Textual Images• Mixed text and image• Implementation• MG system

이후 논의될 내용들

정보검색 개요

Documents

Transcript of 정보검색 개요