웹의 진화와 지식 구조화 Ver 1 1

32
1 웹의 진화와 지식 구조화 Youngwhan Lee, Ph. D. 전화: 010-7997-0345 이메일: [email protected] Facebook: Youngwhan Nick Lee Twitter: nicklee002

description

웹의 진화, 빅데이터, 강남스타일, 웹에서의 트렌드 분석

Transcript of 웹의 진화와 지식 구조화 Ver 1 1

Page 1: 웹의 진화와 지식 구조화 Ver 1 1

1

웹의 진화와 지식 구조화

Youngwhan Lee, Ph. D.

전화: 010-7997-0345

이메일: [email protected]

Facebook: Youngwhan Nick Lee

Twitter: nicklee002

Page 2: 웹의 진화와 지식 구조화 Ver 1 1

1-2

Internet Today

2010:• Estimated 1011 Web pages in the World

2012:

• Social Media: Facebook (1 Billion Monthly Active Users)

• 문자 발명후 2003년까지 5 엑사 바이트 2012년 현재 매일 7 엑사바이트 데이터 생성 중

• Is “big data” a big pile of garbage?

Page 3: 웹의 진화와 지식 구조화 Ver 1 1
Page 4: 웹의 진화와 지식 구조화 Ver 1 1

목차

1. 웹의 진화

– 지식/정보 추출 기술

2. 롱테일 현상과 산업

3. 데이터의 웹: Linked Open Data (LOD)

4. 큐레이션

5. 소셜미디어 분석

– 예: 강남스타일과 시사점

Page 5: 웹의 진화와 지식 구조화 Ver 1 1

웹의 진화

Page 6: 웹의 진화와 지식 구조화 Ver 1 1

Modified, based on Gene Bellinger, Durval Castro, Anthony Mills http://www.systems-thinking.org/dikw/dikw.htm , http://yjhyjh.egloos.com/39721

NoSQL 데이터 마이닝

MapReduce

큐레이션

Aggregation

Understanding

Cloud Computing

R-DBMS

빅데이터 처리와 정보/지식 추출 기술

SPARQ

L

RDF

지식구조화

OWL

RIF

XML

LOD

Page 7: 웹의 진화와 지식 구조화 Ver 1 1

Linked Open Data (LOD) 프로젝트

Page 8: 웹의 진화와 지식 구조화 Ver 1 1

What are the Problems with the Web?

• Not easy to find information– “Data Mining” gives an answer of 30 Million Pages

• No way to find the information that I want– How can you find the pianist name of a song that is

being played in the radio?

• Search results cannot be connected– Companies that got venture capital investment more

than $1 Billions that is related Pyramidal Neurons

– Landlocked countries the population more than 10 Millions

• Vocabulary sensitive– River that flows into Atlantic ocean?

• Data, information or knowledge that I am interested does not find me real-time

Page 9: 웹의 진화와 지식 구조화 Ver 1 1

Linking Open Data (LOD) is to connect and to open data to public

1. Use URIs as names for things

2. Use HTTP URIs

3. When someone looks up a URI, provide useful information

4. Include links to other URIs

4 Principles

of LOD

Linked Open Data (LOD) Principles

A little history of LOD Project

Tim Berners-Lee proposed LOD(Linking Open Data) project (2006)

Since the proposal, numerous countries and organizations participated, caused LOD to

explode in terms of the number of data

Wikipedia DBpedia (www.dbpedia.org)

Bio2RDF project opened in 27 fields of Biology, Genetics, Medical-related, of which the

data sets are about 2.3 billions (Bio2RDF.org) (2008.10)

BBC announced to participate LOD project (www.bbc.org), now one of the institutes

actively utilizing the data

US Data.gov released 5 billion data triples

US Library of Congress announced to join LOD project.

(http://id.loc.gov/authorities/sh85042531#concept)

NY Times ( data.nytimes.com) release their data of 150 years of publication (2009.10)

US Whitehouse release a plan to open data in RDF (2009.11)

Page 10: 웹의 진화와 지식 구조화 Ver 1 1

Linked Open Data (LOD) Principles

Page 11: 웹의 진화와 지식 구조화 Ver 1 1

Change of Web Structure

11

인간을 위한

웹 페이지 연결 웹페이지 연결 버스

유저 인터페이스

웹데이터 연결 버스

매쉬업매쉬업

인간을 위한

웹 페이지 연결

컴퓨터를 위한

웹 데이터 연결

웹페이지 연결 버스

유저 인터페이스

Page 12: 웹의 진화와 지식 구조화 Ver 1 1

May, 2007

Mar., 2008

Sep., 2008

July, 2009

Page 13: 웹의 진화와 지식 구조화 Ver 1 1
Page 14: 웹의 진화와 지식 구조화 Ver 1 1

SPARQL Example: To Query Wikipedia

DBPedia SPARQL Endpoint

Page 15: 웹의 진화와 지식 구조화 Ver 1 1

SPARQL Example: To Query Neuro Commons

Page 16: 웹의 진화와 지식 구조화 Ver 1 1

Technical Proposal Phase

Practical Use Phase

Web 3.0: Merging the two

Perspectives

Market

Behavior

Perspective

Technology

Innovation

Perspective

WWW Propoal

(1989)

Semantic

Web LOD Proposal (2006)

WEB 1.0 WEB 2.0

Data-based

Semantic Web

Knowledge-based

Semantics Web

“GGG” Proposal (2007)

Next Generation Web

“WEB2” Proposal (2009)

Web 3.0

Page 17: 웹의 진화와 지식 구조화 Ver 1 1

큐레이션

Page 18: 웹의 진화와 지식 구조화 Ver 1 1

Curation Services

Page 19: 웹의 진화와 지식 구조화 Ver 1 1

Social Data Curation

Sead-data.net

Page 20: 웹의 진화와 지식 구조화 Ver 1 1

Video Curation

VideoCooki.com

Page 21: 웹의 진화와 지식 구조화 Ver 1 1

빅데이터 분석

Page 22: 웹의 진화와 지식 구조화 Ver 1 1

Gloor’s Coolhunting

Page 23: 웹의 진화와 지식 구조화 Ver 1 1

Gloor’s Coolhunting

소셜네트워크 분석을 통하여 트렌드 분석(Coolhunting)뿐만이

아니고 트렌드 창출(Coolfarming)도 가능하다

Page 24: 웹의 진화와 지식 구조화 Ver 1 1

24

전희주: 텔레콤 이탈고객 분석

■ 양방향 해지자 네트워크 분석

<그림 1> 102명 해지자들 간의 네트워

• Color: 해지일자 별 표현

(빨간색->보라색: 해지일자 선->

후)

• Shape: 십자가 모양 (이탈유발자)

- Connector 및 Broker 역할 점수가 평

균점수보다 모두 높은 고객

• Size: 연령 (20대 ~ 50대 분포)

• Label: 해지일자

출처: 2012 하계 통계학회 2012-11

소셜 네트워크 분석을 통하여 해지유발자를 찾아낼 수 있다

Page 25: 웹의 진화와 지식 구조화 Ver 1 1

예: 강남스타일과 시사점

Page 26: 웹의 진화와 지식 구조화 Ver 1 1

오빤 강남 스타일

• 8억 클릭 육박 중.•2012년 7월 15일 뮤직비디오 공개

• 2012년 8월 24일, 40(+40)일 경과: 5000만 뷰

• 2012년 9월 4일, 52 (+11)일 경과: 1억 뷰

• 2012년 9월 12일, 60 (+8)일 경과: 1.5억 뷰

• 2012년 9월 18일, 66(+6)일 경과: 2억 뷰

• 2012년 9월 26일, 74일 경과: 3억 뷰

• 2012년 10월 20일, 98일 경과: 5억 284만 뷰

• 2012년 11월 20일, 128일 경과: 7억 704만 뷰

• 참고) 역대 유투브 조회수

– 1위: 저스틴 비버의 ‘Baby’ 7억 9105만 건

– 2위: 제니퍼 로페즈의 ‘On the floor’ 6억 1072만 건

Page 27: 웹의 진화와 지식 구조화 Ver 1 1

SM Town 트위팅 3/3 ~ 3/9트위터 id Betweenness

allkpop 0.14915

icontaec 0.05684

mama_risaa 0.04227

yeolbong 0.03491

mikcat39 0.03056

ponponn91 0.01750

bigbangupdates 0.02072

dunia_kpopers 0.01920

ariearien 0.01875

2ne1global 0.01850

instiz_ichart 0.01446

taeccool 0.01137

soompi_bigbang 0.01060

yuuuukaap 0.00903

su_sunshine 0.00947

soompi 0.00948

koreanchingu 0.01063

lovelytaec 0.01034

younggirls97 0.00753

Page 28: 웹의 진화와 지식 구조화 Ver 1 1

소녀시대 트위팅 3/3 ~ 3/9트위터 id Betweenness

smtown_snsd 0.18733

soshified 0.08696

soal_kpop 0.08263

yurui912 0.06552

dunia_kpopers 0.03794

ggkwonyuri_ 0.03667

we_lovekorea 0.03364

ccpacilli 0.02858

oniontaker 0.02562

allkpop 0.02676

abckpop_ 0.02306

egghead0 0.02190

diiahottest 0.01963

youtube 0.01661

mikifujisaki 0.01597

processic 0.01546

kpopers_family 0.01478

snsd_news 0.01222

niakanyaa 0.01280

Page 29: 웹의 진화와 지식 구조화 Ver 1 1

강남스타일 트위팅 11/3 ~ 11/5트위터 id Betweenness

psy 0.40147

ellemca 0.15645

only5guysonly1d 0.10259

duckbelieber97 0.08064

davtinmodel 0.06590

laura_stubbsx 0.06070

laraheleno 0.05797

fernandoponcejr 0.04981

delylachen_ii 0.04234

kayliesimmons 0.03671

geekstoremx 0.03172

timeswagbiebs 0.02865

itsmaylinsofia_ 0.02664

youtube 0.02585

ultrakpop 0.02335

justinbieber 0.02329

conqueruniverse 0.02321

taylorswift13 0.02292

staystronghope 0.02130

Page 30: 웹의 진화와 지식 구조화 Ver 1 1

“강남 스타일” Twitters

Page 31: 웹의 진화와 지식 구조화 Ver 1 1

기술 수용 주기와 캐즘 이론

VISIONARIES

“Follow their

own dictates”

PRAGMATISTS

“Stay with the

herd”

소녀시대 / SM Town

Twitters강남 스타일 Twitters

Page 32: 웹의 진화와 지식 구조화 Ver 1 1

향후 연구

• 소셜네트워크 분석과 LOD의 접목

– 사용 단어 분석에 온톨로지를 사용하여 분석의정밀성 제고

– Foaf 등을 이용한 소셜 네트워크 관계성 정밀 분석

• 강남스타일 및 한류스타 트윗 정밀 분석

– 트윗 패턴 및 트위터 성향 분석

감사합니다