실험 계획서
-
Upload
lev-beasley -
Category
Documents
-
view
90 -
download
1
description
Transcript of 실험 계획서
실험 계획서
초성으로 타이핑을 할 때 사용자가 원하는 단어를
얼마나 정확하게 추천해줄 수 있는가 ?
초성 검색을 하기 위한 기초 실험
1. 실험 주제
무엇을 위한 실험인가 ?
1. 데이터 베이스의 크기가 클 수록 추천해주는 정확도가 높아지는가 ?
2. 사용 빈도수가 높은 순서대로 추천을 할 때 , 몇 번째 단어까지 추천을 해 주어야 사용자가 원하는 단어를 정확하게 추천해줄 수 있는가 ?
1. 어떤 데이터를 수집해야 하는가 ?
2. 데이터 베이스 크기와 추천의 정확도 의 관계
3. 몇 개의 단어를 추천해 주어야 사용자가 원하는 단어를 제대로 추천해 줄 수 있는가 .
2. 실험 내용
무엇을 실험할 것인가 ?
추천을 잘 해줄 수 있는가 ?데이터를 얼마나 모아야 하는가 ?
단어 몇 개를 추천해야 하는가 ?
실험 1. 데이터 베이스의 크기가 클 수록
추천해주는 정확도가 높아지는가 ?
웹에서 더 많은 단어를 크롤링 해올수록 평소 많이 사용하지 않는 단어들도 더 많이 가지고 오게 된다 .
▼이런 방해요소가 얼마나 큰 영향을 미치는지 알아보기 위해 이 실험을 한다 .
더 많은 데이터를 모아올수록 방해요소 (노이즈 ) 가 많아짐 .
실험 목적
노이즈 발생 !
DB 크기에 따라 카톡 DB와 리플 DB 가 같은 레코드의 개수가 얼마인지를 체크함
실험 방법
어떻게 실험 할 것인가 ?
웹에서 리플크롤링
( 리플 .txt)
리플 .txt 특수문자
제거
각기 다른 크기로
무작위하게 나눔
리플 DB 에서 중복된 값 제거(distinct 리플
DB)
카톡 .txt특수문자 제거
3 에서 만든 파일을 각각 DB 로 만듦( 리플 DB)
특수문자 제거한 카톡 .txt 파일을
DB 로 만듦( 카톡 DB)
카톡 DB 에서 중복된 값 제거(distinct 카톡
DB)
distinct 카톡 DB 의 레코드와 distinct 리플
DB 의 레코드가 같은 레코드가 몇
개인지 카운팅
1 2 3
456
7 8 9
3 만개 데이터 수집 1 만개 단위씩
얼마나 추천을 잘 해주는지 알 수 있음
1 천개 데이터 수집
** 리플 크롤링 **
제발 댓글진짜 안쓰는데 흡연구역을 좀만들어 . 제발 .솔직히 흡연자들도 다른사람 연기는 진짜 싫어 .흡연자들의 말처럼 흡연구역이라는 수용시설을 만들어 모든 생활을 거기서 할수 있도록 하자 .[ 리플 .txt]
웹에서 리플 크롤링
실험 방법 1
1 단계
** 리플 특수문자 제거 **
제발 댓글진짜 안쓰는데 흡연구역을 좀만들어 제발솔직히 흡연자들도 다른사람 연기는 진짜 싫어흡연자들의 말처럼 흡연구역이라는 수용시설을 만들어 모든 생활을 거기서 할수 있도록 하자[ 리플 .txt]
리플 .txt 특수문자 제거
실험 방법 2
2 단계
** 리플 무작위하게 나누기 **
제발 댓글진짜 안쓰는데 흡연구역을 좀만들어 제발[ 리플 1.txt]
제발 댓글진짜 안쓰는데 흡연구역을 좀만들어 제발솔직히 흡연자들도 다른사람 연기는 진짜 싫어[ 리플 2.txt]
제발 댓글진짜 안쓰는데 흡연구역을 좀만들어 제발솔직히 흡연자들도 다른사람 연기는 진짜 싫어흡연자들의 말처럼 흡연구역이라는 수용시설을 만들어 모든 생활을 거기서 할수 있도록 하자[ 리플 3.txt]
각기 다른 크기로 무작위하게 나눔
실험 방법 3
3 단계
** 리플 DB 만들기 **
[ 리플 1 DB] // 리플 2, 3 도 마찬가지로 만듦
DB 생성
실험 방법 4
4 단계
key value
ㅈ ㅂ 제발ㄷ ㄱ ㅈ ㅉ 댓글진짜ㅇ ㅆ ㄴ ㄷ 안쓰는데
ㅎ ㅇ ㄱ ㅇ ㅇ 흡연구역을ㅈ ㅁ ㄷ ㅇ 좀만들어
ㅈ ㅂ 제발
** 리플 DB 중복 값 제거 **
[distinct 리플 1.DB]
리플 DB 중복 레코드 제거
실험 방법 5
5 단계
key value
ㅈ ㅂ 제발ㄷ ㄱ ㅈ ㅉ 댓글진짜ㅇ ㅆ ㄴ ㄷ 안쓰는데
ㅎ ㅇ ㄱ ㅇ ㅇ 흡연구역을ㅈ ㅁ ㄷ ㅇ 좀만들어
** 카톡 특수문자 제거 **
흡연구역을 만들어줘야 맞는거 아니냐흡연자들의 권리도 있음
[ 카특 .txt]
카톡 .txt 특수문자 제거
실험 방법 6
6 단계
6 에서 만든 파일 DB 로 만듦 ( 카톡 DB)
실험 방법 7
7 단계
** 카톡 DB 만들기 **
[ 카톡 DB]
key value
ㅎ ㅇ ㄱ ㅇ ㅇ 흡연구역을ㅁ ㄷ ㅇ ㅈ ㅇ 만들어줘야
ㅁ ㄴ ㄱ 맞는거ㅇ ㄴ ㄴ 아니냐
ㅎ ㅇ ㅈ ㄷ ㅇ 흡연자들의ㄱ ㄹ ㄷ 권리도
ㅇ ㅇ 있음
카톡 DB 중복 레코드 제거
실험 방법 8
8 단계
** 카톡 DB 중복 값 제거 **
[distinct 카톡 DB]
key value
ㅎ ㅇ ㄱ ㅇ ㅇ 흡연구역을ㅁ ㄷ ㅇ ㅈ ㅇ 만들어줘야
ㅁ ㄴ ㄱ 맞는거ㅇ ㄴ ㄴ 아니냐
ㅎ ㅇ ㅈ ㄷ ㅇ 흡연자들의ㄱ ㄹ ㄷ 권리도
ㅇ ㅇ 있음
카톡 DB 에서 리플 DB와 같은 레코드가 몇 개 인지 체크
※ 카톡 1,2,3 DB 는 distinct 카톡 DB 의 key, value 를 그대로 복사해온 DB 임 .
실험 방법 9
9 단계
** 일치하는 레코드 개수 체크 **
[ 카톡 1 DB] // 리플 1,2,3 모든 DB 로 체크
key value baseCount
ㅎ ㅇ ㄱ ㅇ ㅇ 흡연구역을 1
ㅁ ㄷ ㅇ ㅈ ㅇ 만들어줘야 0
ㅁ ㄴ ㄱ 맞는거 0
ㅇ ㄴ ㄴ 아니냐 0
ㅎ ㅇ ㅈ ㄷ ㅇ 흡연자들의 0
ㄱ ㄹ ㄷ 권리도 0
ㅇ ㅇ 있음 0
리플 1 DB 와 key, value 가같은 레코드가 있으면 1’ 없으면 ‘ 0’
카톡 1,2,3 DB 의 baseCount 컬럼에 ‘ 1’ 이 많은 DB 가 어떤 DB인지를 찾는다 .
∵그만큼 추천해주는 단어가 많다는 이야기이기 때문이다 .
baseCount 컬럼에‘1’ 이 많은 DB 를 찾음
결과 도출
결론은 ?
실험 2. 사용 빈도수가 높은 순서대로 추천을 할 때 , 몇 번째까지 추천을 해 주어야
사용자가 원하는 단어를 정확하게 추천해줄 수 있는가 ?
실험 1 의 결과를 바탕으로 하는 실험 .
한 key 에 대해서 많은 value 를 가질 수 있다 . 모든 value 들을 모두 추천해줄 수 없기 때문에 이 실험을 한다 .
사용자가 원하는 단어를 잘 추천하기 위해서는 선택 된 많은 value 중에서 몇 개의 단어를 추천해야 하는가 ?
실험 목적
몇 개 단어 추천 ?
실험 방법
어떻게 실험 할 것인가 ?
1 2 3
456
7 8 9