Αξιολόγηση μετρικών απόστασης λέξεων και η εφαρμογή τους στην ταύτιση όμοιων
εγγραφών
Ραπανάκης Σταμάτης Ιούνιος 2007
2
Δομή παρουσίασης
Εισαγωγή
Μέθοδοι Σύγκρισης
Υλοποίηση
Πειράματα
Συμπεράσματα
Μελλοντικές επεκτάσεις
3
Εύρεση όμοιων εγγραφών σε βάσεις δεδομένων“Philippe The Original 1001 N. Alameda St. Chinatown 213-
628-3781 Cafeterias”“Philippe's The Original 1001 N. Alameda St. Los Angeles
213/628-3781 American”
Ενοποίηση βάσεων δεδομένωνΑντιμετώπιση προβλημάτων δομικής και λεξικής ετερογένειας
Διασύνδεση εγγραφών (Record Linkage): Διαδικασία του εντοπισμού εγγραφών από μια ή περισσότερες πηγές δεδομένων.
Κίνητρο
4
Πειραματική αξιολόγηση μετρικών απόστασης λέξεων για σκοπούς διασύνδεσης εγγραφών
Ανάπτυξη και παροχή μίας προγραμματιστικής
βιβλιοθήκης για τον εντοπισμό διπλότυπων εγγραφών και την αξιολόγηση των μετρικών απόστασης
Σκοπός της εργασίας
5
Δομή παρουσίασης
Εισαγωγή
Μέθοδοι Σύγκρισης
Υλοποίηση
Πειράματα
Συμπεράσματα
Μελλοντικές επεκτάσεις
6
Σύγκριση εγγραφών σε επίπεδοΕπιμέρους πεδίωνΟλόκληρης εγγραφής
Σύγκριση ωςΣυμβολοσειράΦωνητική αναπαράσταση
Θεωρητικό υπόβαθρο (1/2)
7
Σύγκριση ως συμβολοσειρέςΑπόσταση Επεξεργασίας (edit distance)
Levenshtein Smith – Waterman
Απόσταση βασισμένη σε λεκτικές μονάδες (tokens) Jaccard Monge – Elkan
Απόσταση βασισμένη σε υβριδική προσέγγιση SoftTFIDF
Άλλες αποστάσεις COCLU
Θεωρητικό υπόβαθρο (2/2)
8
Μετρική LevenshteinΥπολογίζει τον ελάχιστο αριθμό λειτουργιών σύνταξης για να
μετατραπεί η συμβολοσειρά στην συμβολοσειρά Υπάρχουν 3 τύποι λειτουργιών σύνταξης
Εισαγωγή ενός χαρακτήρα σε μια συμβολοσειρά Διαγραφή ενός χαρακτήρα από μια συμβολοσειρά Αντικατάσταση ενός χαρακτήρα με έναν άλλο
Παράδειγμα: “stamatios” “Stamatis”Αντικατάσταση χαρακτήρα “s” με “S” Διαγραφή χαρακτήρα “o”Απόσταση 2
1s 2s
Μετρικές απόστασης επεξεργασίας (1/2)
9
Η μετρική LevenshteinΑναθέτει σε κάθε λειτουργία το ίδιο κόστος σύνταξηςΔεν λειτουργεί καλά σε συντομευμένες συμβολοσειρές
“Jonathan R. Smith” έναντι “Jonathan Richard Smith”
Μετρική Smith-WatermanΠαρέχει επιπλέον λειτουργίες
Εισαγωγή κενού σε μια συμβολοσειρά (υψηλότερο κόστος) Επέκταση κενού σε μια συμβολοσειρά (χαμηλότερο κόστος)
Παίρνει ως παράμετρο έναν πίνακα με κόστη χαρακτήρωνΣυγκρίνει υποακολουθίες όλων των πιθανών μηκών και
εντοπίζει τις όμοιες υποακολουθίες Παράδειγμα: “Prof. John R. Smith, University of Calgary” και
“John R. Smith, Prof.”
Μετρικές απόστασης επεξεργασίας (2/2)
10
Χωρίζουν την συμβολοσειρά στις λεκτικές μονάδες στις οποίες συνίσταταιΣυγκρίνονται οι επιμέρους λεκτικές μονάδες Εντοπίζουν μεταθέσεις λέξεων αντί για μεταθέσεις
χαρακτήρων, π.χ. “John Smith” έναντι “Smith John”
Μετρικές αυτής της κατηγορίαςJaccardMonge-Elkan
Μετρικές βασισμένες σε λεκτικές μονάδες (1/3)
11
Μετρική JaccardΟρίζονται δύο σύνολα A και B που περιέχουν τις λέξεις που
αποτελούν τις υπό σύγκριση συμβολοσειρές, π.χ. A = {“Ventura”, “Blvd.”, “Studio”, “City”} B = {“Ventura”, “Boulevard.”, “Studio”, “City”}
Η απόσταση Jaccard ορίζεται ως
Στο παραπάνω παράδειγμα είναι 2/5
Μετρικές βασισμένες σε λεκτικές μονάδες (2/3)
| | | |1 ( , )
| |dist sim
A B A BJ J A B
A B
12
Μετρική Monge-ElkanΔύο συμβολοσειρές Α και Β ταιριάζουν είτε αν είναι ακριβώς
ίδιες είτε αν οι λέξεις της μίας είναι συντομεύσεις των αντίστοιχων λέξεων (tokens) της άλλης
Συγκρατούμε το καλύτερο αποτέλεσμα σύγκρισης για κάθε token
Α, Β οι συμβολοσειρές, match η απόσταση Smith – Waterman – Gotoh
Παράδειγμα: “Souliou, 11 A, Marousi, 15124” και η συμβολοσειρά “Marousi, 15 124, Souliou, 11 A, Athens”
Μετρικές βασισμένες σε λεκτικές μονάδες (3/3)
13
Μετρικές βασισμένες σε υβριδική προσέγγιση απόστασης επεξεργασίας και λεκτικών
μονάδων (1/3)Ορισμός συναρτήσεων ομοιότητας του τύπου
Οι συμβολοσειρές s και t χωρίζονται στις συνιστώσες τους λεκτικές μονάδες και
είναι η εκάστοτε μετρική ομοιότητας που χρησιμοποιείται
1... Lt b b
11
1( , ) max ( , ),
K L
i jj
i
sim s t sim A BK
1... Ks a asim
14
Μετρικές βασισμένες σε υβριδική προσέγγιση απόστασης επεξεργασίας και λεκτικών
μονάδων (2/3)
Μετρική TFIDFΓια κάθε εγγραφή ορίζουμε ένα διάνυσμα της μορφής
, όπου η τιμή της συνιστώσας είναι: 0, αν η λέξη t δεν υπάρχει στο αντίστοιχο πεδίο της εγγραφής που
μελετάμε , διαφορετικά
είναι ο αριθμός των φορών όπου η λέξη t εμφανίζεται στο πεδίο και
, όπου ο αριθμός των εγγραφών στην βάση που περιέχουν την λέξη t στο αντίστοιχο πεδίο
1 2, ,..., ktt tv v v v ˆtv
,log( 1) log( )V t tTF IDF
,V tTF
| |
| |tt
CIDF
C | |tC
15
Μετρικές βασισμένες σε υβριδική προσέγγιση απόστασης επεξεργασίας και λεκτικών
μονάδων (3/3)
Η ομοιότητα δίνεται από την σχέση
Μετρική SoftTFIDFΥπολογίζει και ζεύγη από λέξεις που είναι «όμοια» με κάποια
άλλη μετρικήΑποδίδει καλά στις περιπτώσεις των τυπογραφικών λαθών,
π.χ. “Compter Science Department” και “Deprtment of Computer
Science”
( , ) t t
t Tsim v w v w
16
Αλγόριθμος COCLU (Compression based Clustering)Αναθέτει τις συμβολοσειρές σε συστάδες (cluster)Κάθε συστάδα χαρακτηρίζεται από ένα δένδρο HuffmanΗ μετρική CCDiff (Cluster Code Difference) αναπαριστά την
διαφορά: |Length(Cluster_tokens) – Length (Cluster_tokens+candidate)|
Ανάλογα με το κατώφλι που ορίζουμε, αποφασίζουμε αν μια υποψήφια συμβολοσειρά θα ανήκει σε ένα cluster
Στην υλοποίηση μας δύο συμβολοσειρές είναι όμοιες εάν ανήκουν στην ίδια συστάδα.Η πρώτη συμβολοσειρά σχηματίζει μια συστάδα και ελέγχεται
αν η δεύτερη μπορεί να εκχωρηθεί σε αυτή
Άλλες μετρικές
17
Δομή παρουσίασης
Εισαγωγή
Μέθοδοι Σύγκρισης
Υλοποίηση
Πειράματα
Συμπεράσματα
Μελλοντικές επεκτάσεις
18
Επίπεδα του συστήματος(Αρχ/κή Taylor)
Επίπεδο γραφικής διεπαφής
Εργαλεία Μετρήσεων
Μοντέλα Απόφασης
Επίπεδο Σύγκρισης
Επίπεδο Blocking
Προτυποποίηση
Σύστημα Διαχείρισης ΒΔ
19
Λειτουργικό επίπεδο Ονομασία διεπαφής
6. Εργαλεία Μετρήσεων Measurement
5. Μοντέλα απόφασης Decision
4. Επίπεδο Σύγκρισης Comparison
3. Επίπεδο Blocking Blocking
2. Προτυποποίηση Standardisation
1. ΣΔΒΔ DataSource
Επίπεδα διεπαφής
20
Οι τυπικές πηγές των δεδομένων είναι είτε βάσεις δεδομένων είτε αρχεία. Χαρακτηριστικές υλοποιήσεις της διεπαφής DataSource:FileHandleJDBCHandle
Παρέχονται οι μέθοδοι:void openConnection()void closeConnection()Record[] getRecords()
Σύστημα Διαχείρισης Β.Δ.
21
Συγκρίνει συμβολοσειρές με βάση τις υλοποιήσεις της διεπαφής Comparison:JaccardComparisonLevenshteinComparison
Παρέχονται οι μέθοδοι:boolean Match(String s1, String s2)double MatchConfidence(String s1, String s2)boolean Match(String s1, String s2, Object[] oParam)double MatchConfidence(String s1, String s2, Object[]
oParam)
Επίπεδο Σύγκρισης
22
Λαμβάνεται η απόφαση αν δύο εγγραφές ταιριάζουν ή όχι. Χαρακτηριστικές υλοποιήσεις της διεπαφής Decision:LinearDecision
Παρέχονται οι μέθοδοι:public int DecideMatch(Record r1, Record r2)public int DecideMatch(Record r1, Record r2, Object[]
oParams)
Μοντέλα απόφασης
23
Υλοποίηση της κανονικοποιημένης απόστασης Levenshtein:
public double MatchConfidence(String s1, String s2)
{
double dLevenshtein = DistanceMetrics.Levenshtein.computeLevenshteinDistance(s1, s2);
int max_string_length = Math.max(s1.length(), s2.length());
double match_conf = dLevenshtein/max_string_length;
return 1.0 - match_conf;
}
Παράδειγμα
24
Μπορεί να χρησιμοποιηθεί είτε σαν ανεξάρτητο πρόγραμμα εντοπισμού πολλαπλών εγγραφών είτε να ενσωματωθεί σε κάποιο άλλο πρόγραμμα ως λειτουργική υπομονάδα.
Σε αντίθεση με τα υπάρχοντα προγράμματα μπορεί να επεκταθεί/ τροποποιηθεί εύκολα.Παρέχει στο χρήστη ευελιξία που δεν παρέχουν άλλες
πλατφόρμεςΣτηρίζεται σε ευρέως γνωστές βιβλιοθήκεςΜπορεί να λειτουργήσει σαν πειραματική πλατφόρμα
Πλεονεκτήματα της Βιβλιοθήκης
25
Δομή παρουσίασης
Εισαγωγή
Βιβλιογραφικό Υπόβαθρο
Υλοποιήσεις μας
Πειράματα
Συμπεράσματα
Μελλοντικές επεκτάσεις
26
ΣκοπόςΠροσδιορισμός της αποτελεσματικότητας της κάθε μετρικής
απόστασης.Ποιες από τις μετρικές αποδίδουν καλύτερα ανεξάρτητα από
τον τύπο του πεδίου
Αρχικό σύνολο δεδομένωνFodors και Zagats (W. Cohen)864 εγγραφές, 112 όμοιες εγγραφές.Με το πεδίο τηλέφωνο/ χωρίς το πεδίο τηλέφωνο (που είναι
πιο δύσκολο).
Πειράματα
27
Philippe's 34 E. 61st St. New York 212/ 319-1660 American
Yujean Kang's 67 N. Raymond Ave. Pasadena 818-585-0855 Chinese
Για κάθε ζεύγος εγγραφών παράγουμε ένα διάνυσμα της μορφής , όπου π.χ. Sim(“Philippe”, “Philippe’s”) Sim(“34 E. 61st St.”, “34 E. 61st St.”) Sim(“New York City”, “New York”), κλπ.R = TRUE αν οι δύο εγγραφές ταιριάζουν, FALSE διαφορετικά
Chinois on Main 2709 Main St. Santa Monica 310-392-9025 Pacific New Wave
Philippe 34 E. 61st St. New York City 212-319-1660 American (New)Fodors:
Zagats:
1 2 3 4 5, , , , ,x x x x x R 1x
1x2x 3x 3x 3x
Μεθοδολογία πειραμάτων (1/2)
2x
3x
ix
28
Προσδιορισμός μιας σχέσης
Χρησιμοποιούμε την πλατφόρμα μηχανικής μάθησης Weka για την εκπαίδευση ενός ταξινομητή
Θα κατατάσσει τα διανύσματα της παραπάνω μορφής ως TRUE/FALSE
ii
Mx
a
Μεθοδολογία πειραμάτων (2/2)
29
Δεδομένα εκπαίδευσης: 10 τυχαία ζευγάρια εγγραφών που ταιριάζουν και 10 τυχαία ζευγάρια εγγραφών που δεν ταιριάζουν από την συλλογή Fodors και Zagats.
Σύνολο αξιολόγησης: Το σύνολο των εγγραφών
Επιλογή του ταξινομητή DecisionStump για την εύρεση ενός κανόνα της μορφής If Phone_similarity <= 0.8333, FALSE else TRUE
H αναλογία ζευγών εγγραφών που ταιριάζουν /δεν ταιριάζουν είναι 1:1 στα δεδομένα εκπαίδευσης αλλά διαφορετική στα δεδομένα αξιολόγησης.
Εκπαίδευση ταξινομητή
30
Ποσοστό επιτυχημένης ταξινόμησης εγγραφώνΜε το πεδίο τηλέφωνο
0 20 40 60 80 100
Monge - Elkan
Jaccard
Levenshtein
Smith - Waterman
Jaro - Winkler
Jaro
TokenFellegiSunter
Qgrams
COCLU
SoftTF-IDF
TF-IDF
Αποτελέσματα (1/6)
31
CO
CLU
Monge -
Elk
an
Jaccard
Levenshte
in
Sm
ith -
Wate
rman
Jaro
- W
inkle
r
Jaro
TokenF
elle
giS
unte
r
Qgra
ms
SoftT
F-I
DF
TF
-ID
F Ακρίβεια
00,10,20,30,40,50,6
0,7
Ακρίβεια
Ακρίβεια - Με το πεδίο τηλέφωνο
Αποτελέσματα (2/6)
32
CO
CLU
Mon
ge -
Elk
an
Jacc
ard
Leve
nsht
ein
Sm
ith -
Wat
erm
an
Jaro
- W
inkl
er
Jaro
Tok
enF
elle
giS
unte
r
Qgr
ams
Sof
tTF
-ID
F
TF
-ID
F
Ανάκληση
0,930,940,950,960,970,98
0,991
Ανάκληση
Ανάκληση - Με το πεδίο τηλέφωνο
Αποτελέσματα (3/6)
33
0 20 40 60 80 100
Monge - Elkan
COCLU
Levenshtein
Jaro
Smith - Waterman
Jaro - Winkler
Jaccard
TokenFellegiSunter
Qgrams
SoftTF-IDF
TF-IDF
Αποτελέσματα (4/6)
Ποσοστό επιτυχημένης ταξινόμησης εγγραφώνΧωρίς το πεδίο τηλέφωνο
34
Ακρίβεια - Χωρίς το πεδίο τηλέφωνο
Αποτελέσματα (5/6)
CO
CLU
Mon
ge -
Elk
an
Leve
nsht
ein
Jaro
Sm
ith -
Wat
erm
an
Jaro
- W
inkl
er
Jacc
ard
Tok
enF
elle
giS
unte
r
Qgr
ams
Sof
tTF
-ID
F
TF
-ID
F
Ακρίβεια
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
Ακρίβεια
35
CO
CLU
Levenshte
in
TokenF
elle
giS
unte
r
Jaro
Qgra
ms
Sm
ith -
Wate
rman
Jaccard
Jaro
- W
inkle
r
Monge -
Elk
an
SoftT
F-I
DF
TF
-ID
F Ανάκληση
0,75
0,8
0,85
0,9
0,95
1
Ανάκληση
Αποτελέσματα (6/6)
Ανάκληση - Χωρίς το πεδίο τηλέφωνο
36
Δομή παρουσίασης
Εισαγωγή
Μέθοδοι Σύγκρισης
Υλοποίηση
Πειράματα
Συμπεράσματα
Μελλοντικές επεκτάσεις
37
Τα αποτελέσματα οφείλονται στο ότιΠεδία όπως Τηλέφωνο ή Πόλη προσδιορίζουν επαρκώς τις
όμοιες εγγραφέςΜικρός βαθμός ανομοιογένειας των πινάκων
Οι υβριδικές μετρικές επιτυγχάνουν καλύτερα αποτελέσματαΣυνδυάζουν τα πλεονεκτήματα των μετρικών σύγκρισης
χαρακτήρων και λεκτικών μονάδωνΠερισσότερο χρονοβόρες
Ο αλγόριθμος του COCLU είναι ασταθήςΑνάγκη αξιόπιστου μηχανισμού για τον προσδιορισμό του
κατωφλίου
Συμπεράσματα (1/2)
38
Οι μετρικές που στοχεύουν σε συγκεκριμένη εφαρμογή δεν αποδίδουν πάντα.Monge – ElkanCOCLU
Περισσότερα πειράματα είναι απαραίτητα.Τα πεδία να περιέχουν λάθη (ορθογραφικά)Περισσότερους τύπους πεδίωνΠειράματα με πιο ανομοιογενείς συλλογές εγγραφών
Η μέθοδος δεν είναι χρήσιμη ως αυτόματη, αλλά ως ημιαυτόματη.
Συμπεράσματα (2/2)
39
Δομή παρουσίασης
Εισαγωγή
Μέθοδοι Σύγκρισης
Υλοποίηση
Πειράματα
Συμπεράσματα
Μελλοντικές επεκτάσεις
40
Χρήση σύνθετων μοντέλων απόφασηςΕκμετάλλευση του συσχετισμού των πεδίωνΧρησιμοποίηση άλλων ταξινομητών
Υλοποίηση ευριστικών μηχανισμών για την επιλογή της καταλληλότερης μετρικής ανάλογα με τον τύπο του πεδίουΔυσκολία αναγνώρισης του τύπου του πεδίου
Αξιολόγηση των μετρικών με βάση θέματα αλγοριθμικής πολυπλοκότητας
Μελλοντικές επεκτάσεις
Top Related