실험 계획서

초성으로 타이핑을 할 때 사용자가 원하는 단어를

얼마나 정확하게 추천해줄 수 있는가 ?

초성 검색을 하기 위한 기초 실험

1. 실험 주제

무엇을 위한 실험인가 ?

1. 데이터 베이스의 크기가 클 수록 추천해주는 정확도가 높아지는가 ?

2. 사용 빈도수가 높은 순서대로 추천을 할 때 , 몇 번째 단어까지 추천을 해 주어야 사용자가 원하는 단어를 정확하게 추천해줄 수 있는가 ?

1. 어떤 데이터를 수집해야 하는가 ?

2. 데이터 베이스 크기와 추천의 정확도 의 관계

3. 몇 개의 단어를 추천해 주어야 사용자가 원하는 단어를 제대로 추천해 줄 수 있는가 .

2. 실험 내용

무엇을 실험할 것인가 ?

추천을 잘 해줄 수 있는가 ?데이터를 얼마나 모아야 하는가 ?

단어 몇 개를 추천해야 하는가 ?

실험 1. 데이터 베이스의 크기가 클 수록

추천해주는 정확도가 높아지는가 ?

웹에서 더 많은 단어를 크롤링 해올수록 평소 많이 사용하지 않는 단어들도 더 많이 가지고 오게 된다 .

▼이런 방해요소가 얼마나 큰 영향을 미치는지 알아보기 위해 이 실험을 한다 .

더 많은 데이터를 모아올수록 방해요소 (노이즈 ) 가 많아짐 .

실험 목적

노이즈 발생 !

DB 크기에 따라 카톡 DB와 리플 DB 가 같은 레코드의 개수가 얼마인지를 체크함

실험 방법

어떻게 실험 할 것인가 ?

웹에서 리플크롤링

( 리플 .txt)

리플 .txt 특수문자

제거

각기 다른 크기로

무작위하게 나눔

리플 DB 에서 중복된 값 제거(distinct 리플

DB)

카톡 .txt특수문자 제거

3 에서 만든 파일을 각각 DB 로 만듦( 리플 DB)

특수문자 제거한 카톡 .txt 파일을

DB 로 만듦( 카톡 DB)

카톡 DB 에서 중복된 값 제거(distinct 카톡

DB)

distinct 카톡 DB 의 레코드와 distinct 리플

DB 의 레코드가 같은 레코드가 몇

개인지 카운팅

1 2 3

456

7 8 9

3 만개 데이터 수집 1 만개 단위씩

얼마나 추천을 잘 해주는지 알 수 있음

1 천개 데이터 수집

** 리플 크롤링 **

제발 댓글진짜 안쓰는데 흡연구역을 좀만들어 . 제발 .솔직히 흡연자들도 다른사람 연기는 진짜 싫어 .흡연자들의 말처럼 흡연구역이라는 수용시설을 만들어 모든 생활을 거기서 할수 있도록 하자 .[ 리플 .txt]

웹에서 리플 크롤링

실험 방법 1

1 단계

** 리플 특수문자 제거 **

제발 댓글진짜 안쓰는데 흡연구역을 좀만들어 제발솔직히 흡연자들도 다른사람 연기는 진짜 싫어흡연자들의 말처럼 흡연구역이라는 수용시설을 만들어 모든 생활을 거기서 할수 있도록 하자[ 리플 .txt]

리플 .txt 특수문자 제거

실험 방법 2

2 단계

** 리플 무작위하게 나누기 **

제발 댓글진짜 안쓰는데 흡연구역을 좀만들어 제발[ 리플 1.txt]

제발 댓글진짜 안쓰는데 흡연구역을 좀만들어 제발솔직히 흡연자들도 다른사람 연기는 진짜 싫어[ 리플 2.txt]

제발 댓글진짜 안쓰는데 흡연구역을 좀만들어 제발솔직히 흡연자들도 다른사람 연기는 진짜 싫어흡연자들의 말처럼 흡연구역이라는 수용시설을 만들어 모든 생활을 거기서 할수 있도록 하자[ 리플 3.txt]

각기 다른 크기로 무작위하게 나눔

실험 방법 3

3 단계

** 리플 DB 만들기 **

[ 리플 1 DB] // 리플 2, 3 도 마찬가지로 만듦

DB 생성

실험 방법 4

4 단계

key value

ㅈ ㅂ 제발ㄷ ㄱ ㅈ ㅉ 댓글진짜ㅇ ㅆ ㄴ ㄷ 안쓰는데

ㅎ ㅇ ㄱ ㅇ ㅇ 흡연구역을ㅈ ㅁ ㄷ ㅇ 좀만들어

ㅈ ㅂ 제발

** 리플 DB 중복 값 제거 **

[distinct 리플 1.DB]

리플 DB 중복 레코드 제거

실험 방법 5

5 단계

key value

ㅈ ㅂ 제발ㄷ ㄱ ㅈ ㅉ 댓글진짜ㅇ ㅆ ㄴ ㄷ 안쓰는데

ㅎ ㅇ ㄱ ㅇ ㅇ 흡연구역을ㅈ ㅁ ㄷ ㅇ 좀만들어

** 카톡 특수문자 제거 **

흡연구역을 만들어줘야 맞는거 아니냐흡연자들의 권리도 있음

[ 카특 .txt]

카톡 .txt 특수문자 제거

실험 방법 6

6 단계

6 에서 만든 파일 DB 로 만듦 ( 카톡 DB)

실험 방법 7

7 단계

** 카톡 DB 만들기 **

[ 카톡 DB]

key value

ㅎ ㅇ ㄱ ㅇ ㅇ 흡연구역을ㅁ ㄷ ㅇ ㅈ ㅇ 만들어줘야

ㅁ ㄴ ㄱ 맞는거ㅇ ㄴ ㄴ 아니냐

ㅎ ㅇ ㅈ ㄷ ㅇ 흡연자들의ㄱ ㄹ ㄷ 권리도

ㅇ ㅇ 있음

카톡 DB 중복 레코드 제거

실험 방법 8

8 단계

** 카톡 DB 중복 값 제거 **

[distinct 카톡 DB]

key value

ㅎ ㅇ ㄱ ㅇ ㅇ 흡연구역을ㅁ ㄷ ㅇ ㅈ ㅇ 만들어줘야

ㅁ ㄴ ㄱ 맞는거ㅇ ㄴ ㄴ 아니냐

ㅎ ㅇ ㅈ ㄷ ㅇ 흡연자들의ㄱ ㄹ ㄷ 권리도

ㅇ ㅇ 있음

카톡 DB 에서 리플 DB와 같은 레코드가 몇 개 인지 체크

※ 카톡 1,2,3 DB 는 distinct 카톡 DB 의 key, value 를 그대로 복사해온 DB 임 .

실험 방법 9

9 단계

** 일치하는 레코드 개수 체크 **

[ 카톡 1 DB] // 리플 1,2,3 모든 DB 로 체크

key value baseCount

ㅎ ㅇ ㄱ ㅇ ㅇ 흡연구역을 1

ㅁ ㄷ ㅇ ㅈ ㅇ 만들어줘야 0

ㅁ ㄴ ㄱ 맞는거 0

ㅇ ㄴ ㄴ 아니냐 0

ㅎ ㅇ ㅈ ㄷ ㅇ 흡연자들의 0

ㄱ ㄹ ㄷ 권리도 0

ㅇ ㅇ 있음 0

리플 1 DB 와 key, value 가같은 레코드가 있으면 1’ 없으면 ‘ 0’

카톡 1,2,3 DB 의 baseCount 컬럼에 ‘ 1’ 이 많은 DB 가 어떤 DB인지를 찾는다 .

∵그만큼 추천해주는 단어가 많다는 이야기이기 때문이다 .

baseCount 컬럼에‘1’ 이 많은 DB 를 찾음

결과 도출

결론은 ?

실험 2. 사용 빈도수가 높은 순서대로 추천을 할 때 , 몇 번째까지 추천을 해 주어야

사용자가 원하는 단어를 정확하게 추천해줄 수 있는가 ?

실험 1 의 결과를 바탕으로 하는 실험 .

한 key 에 대해서 많은 value 를 가질 수 있다 . 모든 value 들을 모두 추천해줄 수 없기 때문에 이 실험을 한다 .

사용자가 원하는 단어를 잘 추천하기 위해서는 선택 된 많은 value 중에서 몇 개의 단어를 추천해야 하는가 ?

실험 목적

몇 개 단어 추천 ?

실험 방법

어떻게 실험 할 것인가 ?

1 2 3

456

7 8 9

실험 계획서

Documents

Transcript of 실험 계획서