1
Version Space using DNA Computing
2001.10.12임희웅
2
Version Space Version Space?
Concept Learning Classifying given instance x Maintain a set of hypothesis that is consistent with the
training examples Instance X
described by the tuple of attributes Attributes
Dept, {ee, cs} Status,{faculty, staff} Floor,{four, five}
3
Version Space Hypotheses H
Each hypothesis is described by a conjunction of constraints on the attributes
Ex) <cs, faculty> or <cs> Target concept
X {0, 1} Training example D
<cs, faculty, four> + <cs, faculty, five> + <ee, faculty, four> - <cs, staff, five> -
4
Version Space
ee faculty staff four five
cs ∧ faculty ee ∧ facultycs ∧ staff ee ∧ staff faculty ∧ fourfaculty ∧ five
cs ∧ staff ∧ five ee ∧ faculty ∧ four cs ∧ faculty ∧ five cs ∧ faculty ∧ four
∧
cs
5
ee faculty staff four five
cs ∧ faculty ee ∧ facultycs ∧ staff ee ∧ staff faculty ∧ fourfaculty ∧ five
cs ∧ staff ∧ five ee ∧ faculty ∧ four cs ∧ faculty ∧ five cs ∧ faculty ∧ four
∧
cs
+
6
ee faculty staff four five
cs ∧ faculty ee ∧ facultycs ∧ staff ee ∧ staff faculty ∧ fourfaculty ∧ five
cs ∧ staff ∧ five ee ∧ faculty ∧ four cs ∧ faculty ∧ five cs ∧ faculty ∧ four
∧
cs
+ –
7
ee faculty staff four five
cs ∧ faculty ee ∧ facultycs ∧ staff ee ∧ staff faculty ∧ fourfaculty ∧ five
cs ∧ staff ∧ five ee ∧ faculty ∧ four cs ∧ faculty ∧ five cs ∧ faculty ∧ four
∧
cs
+ + –
8
ee faculty staff four five
cs ∧ faculty ee ∧ facultycs ∧ staff ee ∧ staff faculty ∧ fourfaculty ∧ five
cs ∧ staff ∧ five ee ∧ faculty ∧ four cs ∧ faculty ∧ five cs ∧ faculty ∧ four
∧
cs
+ + – –
9
Version Space using DNA Computing
Problem Definition Attributes
Dept,{ee, cs} Status,{faculty, staff} Floor,{four, five}
Training example D <cs, faculty, four> + <cs, faculty, five> + <ee, faculty, four> - <cs, staff, five> -
10
Encoding(1) Attribute 사이에 순서를 고려할 경우
각각의 attribute 의 값들을 하나의 기본 DNA sequence 로 표현하고 이러한 기본 DNA sequence 들을 서로 다른 attribute 에 속하는 sequence 들 끼리 ligation 될 수 있도록 sticky end 조건을 준다 .
이 경우 <cs, faculty> 나 <faculty, four> 와 같은 것은 생성되지만 <cs, four> 는 생성되지 않는다 .
Hypothesis 들간의 분포는 ?
StatusTACGT
FloorTTAAC
DeptATGCA AATTG
11
Encoding(2)
Attribute 들 간의 순서를 고려하지 않을 경우
Adleman 실험의 encoding 을 이용 Attribute value : vertex Ligation of Attribute value : edge Complete graph, Overhead
12
Encoding(3) Bead 의 이용
앞의 Adleman 의 encoding 방법을 사용하는 것보다 훨씬 적은 수의 sequence 가 필요함
또한 가능한 모든 hypothesis 를 한꺼번에 생성할 수도 있고 특정한 example 에 대해서 consistent 한 모든 hypothesis 를 모두 생성할 수도 있음
BeadDept
Status
Floor + 각각의 attribute 에 해당하는 dummy sequence
13
Detection(1) Training example 의 구성
Attribute value 에 대한 complementary strand 를 이용해서 구성
Positive example 의 경우 용액에 위와 같이 구성된 positive example 을 넣어 example
strand 와 완전히 붙으면 consistent, 그렇지 않으면 inconsistent
Negative example 의 경우 용액에 위와 같이 구성된 negative example 을 넣어
example strand 와 완전히 붙으면 inconsistent, 그렇지 않으면 consistent
고려해야 할 사항 inconsistent strand 가 example strand 와 붙지는 않음 (
평형상수 )
14
Detection(2) Encoding(2) 의 경우
1. 먼저 초기 example(positive 라고 가정 ) 에 대해서 그와 consistent 한 모든 hypothesis 를 생성한다 . Tube1(0)
2. 다음 example 들이 차례로 들어오면 그 example 과 consistent 한 모든 hypothesis 를 생성하여 ( Tube2) 다음과 같은 작업을 반복한다 .
Positive 일 경우 Tube1(n+1) = Tube1(n) ∩ Tube2
Negative 일 경우 Tube1(n+1) = Tube1(n) - Tube2
15
Detection(3) Primitive operation
∩, - 위의 두 연산을 어떻게 구현할 것인가 ?
16
Detection(4) Bead 를 이용한 encoding 의 경우
가능한 전체 hypothesis 를 한꺼번에 생성할 수도 있고 특정 example 에 대해 consistent 한 모든 hypothesis 를 생성할 수도 있음
17
Application 실제 Classification 을 어떻게 할 것인가 ?
Voting?
18
Reference on Version Space Machine Learning, T.M. Mitchell, McGraw
Hill Artificial Intelligence-Theory and Practice,
Dean, Addison-Wesley
Top Related