실과 체육 음악 미술1권 국어 각 지도서 론 뽀 위재권 개기 편저 초등ㆍ초등특수 교사임용시험 대비 국어 지도서 각론 구조화 이 책의 특징
웹의 진화와 지식 구조화 Ver 1 1
description
Transcript of 웹의 진화와 지식 구조화 Ver 1 1
1
웹의 진화와 지식 구조화
Youngwhan Lee, Ph. D.
전화: 010-7997-0345
이메일: [email protected]
Facebook: Youngwhan Nick Lee
Twitter: nicklee002
1-2
Internet Today
2010:• Estimated 1011 Web pages in the World
2012:
• Social Media: Facebook (1 Billion Monthly Active Users)
• 문자 발명후 2003년까지 5 엑사 바이트 2012년 현재 매일 7 엑사바이트 데이터 생성 중
• Is “big data” a big pile of garbage?
목차
1. 웹의 진화
– 지식/정보 추출 기술
2. 롱테일 현상과 산업
3. 데이터의 웹: Linked Open Data (LOD)
4. 큐레이션
5. 소셜미디어 분석
– 예: 강남스타일과 시사점
웹의 진화
Modified, based on Gene Bellinger, Durval Castro, Anthony Mills http://www.systems-thinking.org/dikw/dikw.htm , http://yjhyjh.egloos.com/39721
NoSQL 데이터 마이닝
MapReduce
큐레이션
Aggregation
Understanding
Cloud Computing
R-DBMS
빅데이터 처리와 정보/지식 추출 기술
SPARQ
L
RDF
지식구조화
OWL
RIF
XML
LOD
Linked Open Data (LOD) 프로젝트
What are the Problems with the Web?
• Not easy to find information– “Data Mining” gives an answer of 30 Million Pages
• No way to find the information that I want– How can you find the pianist name of a song that is
being played in the radio?
• Search results cannot be connected– Companies that got venture capital investment more
than $1 Billions that is related Pyramidal Neurons
– Landlocked countries the population more than 10 Millions
• Vocabulary sensitive– River that flows into Atlantic ocean?
• Data, information or knowledge that I am interested does not find me real-time
Linking Open Data (LOD) is to connect and to open data to public
1. Use URIs as names for things
2. Use HTTP URIs
3. When someone looks up a URI, provide useful information
4. Include links to other URIs
4 Principles
of LOD
Linked Open Data (LOD) Principles
A little history of LOD Project
Tim Berners-Lee proposed LOD(Linking Open Data) project (2006)
Since the proposal, numerous countries and organizations participated, caused LOD to
explode in terms of the number of data
Wikipedia DBpedia (www.dbpedia.org)
Bio2RDF project opened in 27 fields of Biology, Genetics, Medical-related, of which the
data sets are about 2.3 billions (Bio2RDF.org) (2008.10)
BBC announced to participate LOD project (www.bbc.org), now one of the institutes
actively utilizing the data
US Data.gov released 5 billion data triples
US Library of Congress announced to join LOD project.
(http://id.loc.gov/authorities/sh85042531#concept)
NY Times ( data.nytimes.com) release their data of 150 years of publication (2009.10)
US Whitehouse release a plan to open data in RDF (2009.11)
Linked Open Data (LOD) Principles
Change of Web Structure
11
인간을 위한
웹 페이지 연결 웹페이지 연결 버스
유저 인터페이스
웹데이터 연결 버스
매쉬업매쉬업
인간을 위한
웹 페이지 연결
컴퓨터를 위한
웹 데이터 연결
웹페이지 연결 버스
유저 인터페이스
May, 2007
Mar., 2008
Sep., 2008
July, 2009
SPARQL Example: To Query Wikipedia
DBPedia SPARQL Endpoint
SPARQL Example: To Query Neuro Commons
Technical Proposal Phase
Practical Use Phase
Web 3.0: Merging the two
Perspectives
Market
Behavior
Perspective
Technology
Innovation
Perspective
WWW Propoal
(1989)
Semantic
Web LOD Proposal (2006)
WEB 1.0 WEB 2.0
Data-based
Semantic Web
Knowledge-based
Semantics Web
“GGG” Proposal (2007)
Next Generation Web
“WEB2” Proposal (2009)
Web 3.0
큐레이션
Curation Services
Social Data Curation
Sead-data.net
Video Curation
VideoCooki.com
빅데이터 분석
Gloor’s Coolhunting
Gloor’s Coolhunting
소셜네트워크 분석을 통하여 트렌드 분석(Coolhunting)뿐만이
아니고 트렌드 창출(Coolfarming)도 가능하다
24
전희주: 텔레콤 이탈고객 분석
■ 양방향 해지자 네트워크 분석
<그림 1> 102명 해지자들 간의 네트워
크
• Color: 해지일자 별 표현
(빨간색->보라색: 해지일자 선->
후)
• Shape: 십자가 모양 (이탈유발자)
- Connector 및 Broker 역할 점수가 평
균점수보다 모두 높은 고객
• Size: 연령 (20대 ~ 50대 분포)
• Label: 해지일자
출처: 2012 하계 통계학회 2012-11
소셜 네트워크 분석을 통하여 해지유발자를 찾아낼 수 있다
예: 강남스타일과 시사점
오빤 강남 스타일
• 8억 클릭 육박 중.•2012년 7월 15일 뮤직비디오 공개
• 2012년 8월 24일, 40(+40)일 경과: 5000만 뷰
• 2012년 9월 4일, 52 (+11)일 경과: 1억 뷰
• 2012년 9월 12일, 60 (+8)일 경과: 1.5억 뷰
• 2012년 9월 18일, 66(+6)일 경과: 2억 뷰
• 2012년 9월 26일, 74일 경과: 3억 뷰
• 2012년 10월 20일, 98일 경과: 5억 284만 뷰
• 2012년 11월 20일, 128일 경과: 7억 704만 뷰
• 참고) 역대 유투브 조회수
– 1위: 저스틴 비버의 ‘Baby’ 7억 9105만 건
– 2위: 제니퍼 로페즈의 ‘On the floor’ 6억 1072만 건
SM Town 트위팅 3/3 ~ 3/9트위터 id Betweenness
allkpop 0.14915
icontaec 0.05684
mama_risaa 0.04227
yeolbong 0.03491
mikcat39 0.03056
ponponn91 0.01750
bigbangupdates 0.02072
dunia_kpopers 0.01920
ariearien 0.01875
2ne1global 0.01850
instiz_ichart 0.01446
taeccool 0.01137
soompi_bigbang 0.01060
yuuuukaap 0.00903
su_sunshine 0.00947
soompi 0.00948
koreanchingu 0.01063
lovelytaec 0.01034
younggirls97 0.00753
소녀시대 트위팅 3/3 ~ 3/9트위터 id Betweenness
smtown_snsd 0.18733
soshified 0.08696
soal_kpop 0.08263
yurui912 0.06552
dunia_kpopers 0.03794
ggkwonyuri_ 0.03667
we_lovekorea 0.03364
ccpacilli 0.02858
oniontaker 0.02562
allkpop 0.02676
abckpop_ 0.02306
egghead0 0.02190
diiahottest 0.01963
youtube 0.01661
mikifujisaki 0.01597
processic 0.01546
kpopers_family 0.01478
snsd_news 0.01222
niakanyaa 0.01280
강남스타일 트위팅 11/3 ~ 11/5트위터 id Betweenness
psy 0.40147
ellemca 0.15645
only5guysonly1d 0.10259
duckbelieber97 0.08064
davtinmodel 0.06590
laura_stubbsx 0.06070
laraheleno 0.05797
fernandoponcejr 0.04981
delylachen_ii 0.04234
kayliesimmons 0.03671
geekstoremx 0.03172
timeswagbiebs 0.02865
itsmaylinsofia_ 0.02664
youtube 0.02585
ultrakpop 0.02335
justinbieber 0.02329
conqueruniverse 0.02321
taylorswift13 0.02292
staystronghope 0.02130
“강남 스타일” Twitters
기술 수용 주기와 캐즘 이론
VISIONARIES
“Follow their
own dictates”
PRAGMATISTS
“Stay with the
herd”
소녀시대 / SM Town
Twitters강남 스타일 Twitters
향후 연구
• 소셜네트워크 분석과 LOD의 접목
– 사용 단어 분석에 온톨로지를 사용하여 분석의정밀성 제고
– Foaf 등을 이용한 소셜 네트워크 관계성 정밀 분석
• 강남스타일 및 한류스타 트윗 정밀 분석
– 트윗 패턴 및 트위터 성향 분석
감사합니다