Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH...
Transcript of Produktbeschreibung exorbyte MatchMaker · Produktbeschreibung exorbyte MatchMaker exorbyte GmbH...
Produktbeschreibung exorbyte MatchMaker exorbyte GmbH
MatchMaker Version 5.2
Stand Oktober 2012
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 2 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Produktbeschreibung exorbyte MatchMaker ............................................................. 1
MatchMaker ......................................................................................................................... 6
MatchMaker - Herausforderung 6
Was ist MatchMaker? 6
Wer verwendet MatchMaker? 6
Die vier Grundprinzipien von MatchMaker................................................................ 7
Effizienz 7
Transparenz 7
Flexibilität 7
Universalität 8
Zusammenfassung der Neuheiten seit MM 5.1 .......................................................... 9
Instant Update 9
FlexForm 9
Multi-Level-Search 9
XML Extraktion 9
Konfigurations-Wizard 9
Parallelisierung & Verteilung des Index 10
Farbabgleich mittels Farbmethode 10
Monitoring Erweiterung (exLog) 10
Algorithmen-Analyse (exPlain) 10
Zusammenfassung der Neuheiten in MM 5.0 ........................................................... 11
Zeichensätze im MatchMaker ....................................................................................... 12
Zeichenkodierungen 12
Umlaute, Groß- und Kleinschrift, Sonderzeichnen 12
Wortbearbeitung in MatchMaker ................................................................................ 12
Extraktionsbibliothek 12
Linguistische Verfahren und Clusterbildung 12
Phrasenextraktion 12
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 3 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Transliteration 13
Morphologie 13
Fehlererkennung, Wortähnlichkeit ............................................................................. 13
Damerau-Levenshtein und verwandte Algorithmen 13
Longest-Common-Subsequence 14
Wildcards, Globstyle-Anfragen und reguläre Ausdrücke 14
Finite Automaten (DFA) 14
Treffer-Qualitäten 14
Mehrwortabgleich ............................................................................................................ 15
Freie Vertauschung von Wörtern 15
Berücksichtigung von Wortrelevanzen 15
Mehrwort-Scanner 15
Verschiebung von Wortteilen, Block-Edit-Berechnung 15
Volltextsuche 15
Phonetik, Klangähnlichkeit ............................................................................................ 16
Soundex, Metaphone, Kölner Phonetik 16
exorbyte Phonetik 16
Frei programmierbare Phonetik 16
Gestaltähnlichkeiten 16
Weitere Indexierungsalgorithmen .............................................................................. 17
Approximativer Datumsabgleich 17
Zahlenrelationen und Zahlenbereiche 17
Flags- und Optionsattribute 17
Geometrische Entfernungen 17
Sichten- und Berechtigungskonzept 17
OCR 17
Komplexe Indexierung.................................................................................................... 18
Strategien - Kombination von Algorithmen auf Feldern 18
Feldübergreifender Index zur schnellen Zerlegung der Anfrage 18
Alternative Indexierung 18
Mehrfeldabgleiche 18
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 4 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Gewichtung und Konfidenz einzelner Felder 18
Approximative Schnittmengenbildung 19
Nachbewertungslogik bei geringer Ähnlichkeit 19
Boole‘sche Logik 19
Freie Einfeld-Suche (FreeSearch) 20
Freie Mehrfeld-Suche (FlexForm) 20
Bearbeitung großer Treffermengen 20
Schnelles Zählen, Navigatorbildung 21
Sortierungen (sprachabhängige Collations) 21
Vereinigung, Schnitt, Dedublizierung 21
Biasing von Begriffen und Feldern ............................................................................. 21
Erhöhung der Fehlertoleranz einzelner Begriffe 21
Relevanz-Boosting von Einträgen 21
Generelle Bevorzugung von Feldern 21
Taxonomien und Aliasse ................................................................................................ 22
Lokale Aliasse 22
Globale Aliasse 22
Systematische Aliasse 22
Schnittstellen ..................................................................................................................... 22
Datenimport aus ODBC, CSV und anderen Quellen. 22
Programmierschnittstelle MMI in mehreren Sprachen 22
Server-Side-Scripting in Java und Tcl 23
Konsolensteuerung für Fernwartung und OEM-Einbindung 23
Java-Administrations-Interface (JMMI) 23
Analysierbares Reporting-Format 23
Plattform ............................................................................................................................. 23
Analyse-Tools 23
Konfigurations-Tool 23
Überwachungs-Tool 23
Statistik-Daten 24
Zentrales Logging 24
Error Reporting 24
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 5 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Ausfallsicherheit 24
Zentrale Verwaltung von verteilten Systemen 24
Skalierbarkeit ....................................................................................................................24
Datenparallelisierung 24
Automatische Anpassung an Serverbelastung 24
Parallelisierung der Anfragen 25
Aktualisierung der Daten 25
Inkrementelle Datenaktualisierung 25
Alternative Suchprofile 25
Unterstützung von 32- und 64-Bit-Architekturen 25
Unterstützung von Windows, Linux, Solaris 25
Lizenzierung....................................................................................................................... 26
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 6 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
MatchMaker
MatchMaker - Herausforderung Nutzen Sie den Wert Ihrer Daten voll aus?
Erhalten Anwender und andere Applikationen unmittelbar die gewünschten
Informationen? Trotz Fehlschreibweisen?
Lassen sich Treffermengen schnell eingrenzen und auswerten?
Was ist MatchMaker? exorbyte’s Suchmaschine MatchMaker wurde speziell für die Suche in
strukturierten Daten entwickelt: Tabellenstrukturen werden in der
Suchmaschine abgebildet und lassen sich schnell und flexibel anpassen und
für das Ranking berücksichtigen. Hardware-Ressourcen werden effizient
ausgenutzt. Die unscharfe Suche ist weltweit einmalig: Auch bei Millionen
von Daten werden Ergebnisse in Sekundenbruchteilen zurückgegeben.
Wer verwendet MatchMaker? Unsere Kunden haben alle Eines gemeinsam: viele, viele Daten. MatchMaker
hilft Ihnen dabei, leichter fündig zu werden und weniger Zeit mit
Datenbanksuchen zu verbringen. Das Einsatzgebiet umfasst u. a.
Posteingangsbearbeitung (OCR), Stammdatenmanagement, Data Cleansing,
Site Search/Intranet Search, In-Shop-Suche und Fraud Protection. Kunden
aus den Bereichen eGovernment, Versicherungen, eCommerce, Online-
Verzeichnisse und Portalen vertrauen auf uns.
Ihre Vorteile
• Schnell und fehlertolerant, auch bei Millionen von Daten
• Einfach integrierbar durch Datenbankunabhängigkeit
• Sprachunabhängig
• Einfach konfigurierbar, individuell anpassbar
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 7 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Die vier Grundprinzipien von MatchMaker
MatchMaker ist auf den vier Säulen Flexibilität, Effizienz, Transparenz und
Universalität aufgebaut:
Effizienz Trotz der leistungsfähigsten Ähnlichkeitsalgorithmen, die MatchMaker
beherrscht, beträgt die Abfragezeit wenige Millisekunden. Selbst bei großen
Datenmengen wie 30 Mio. Adressen mit 5-6 Feldern in der Abfrage. Alle für
die Suchauswertung notwendigen Daten werden hierbei äußerst effizient im
Speicher gehalten und benötigen weniger Platz als die originalen
Ausgangsdaten. MatchMaker ist leicht skalier- und parallelisierbar. Durch
die konsequente Nutzung der 64-Bit-Architektur gibt es keine Restriktion
hinsichtlich der Indexgröße. Ebenso selbstverständlich ist die Nutzung von
Multi-Core und Multi-Threading. So beantwortet ein Dual-CPU-Server bis zu
600 Anfragen pro Sekunde. Fehlertolerant. Die Technologie skaliert sowohl
horizontal als auch vertikal und bleibt dabei auch bei Cloud-Applikationen
gewohnt effizient.
Transparenz MatchMaker‘s Ranking von Suchergebnissen ist stets im Detail
nachvollziehbar, da alle angewandten Algorithmen bekannt sind und keine
"Geheimnisse" zu unerklärlichen Ergebnissen führen. Durch diesen „White-
Box“-Ansatz kann jedes Suchergebnis nachvollzogen werden und
zusätzliche Ranking-Kriterien können individuell hinzugefügt werden.
Transparenz ist eine wichtige Voraussetzung für die hohe Anpassbarkeit
von MatchMaker an individuelle Anforderungen. Diese
Schlüsselqualifikationen machen die MatchMaker Lösung zu einer
Anwendung für höchste Anforderungen.
Flexibilität Leicht und individuell kann MatchMaker an Ihre individuellen Bedürfnisse
angepasst werden. Die Anwendungsgebiete sind vielfältig: Suche und
Datenmanagement von Online-Verzeichnissen, Site-Search, Suche in
Produktkatalogen, Volltextsuche, Optimierung von Posteingangslösungen,
Fraud-Protection und mehr. Alle profitieren von der Intelligenz und der
Anpassungsfähigkeit des MatchMaker Systems. Besonders: im Gegensatz zu
klassischen Volltext-Suchlösungen lassen sich in MatchMaker
Tabellenstrukturen schnell abbilden und flexibel für das Ranking nutzen. Die
Technologie kann unverändert eingesetzt werden für extrem große
Datenmengen in einer monolithischen Backendlösung und genauso gut für
extrem viele Kunden in einem verteilten System (Multi-Tenancy). Damit ist
MatchMaker perfekt geeignet zum Aufbau von Cloud-Lösungen.
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 8 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Universalität Je nach Anforderungen an die Suche stehen eine Vielzahl von Algorithmen
und Abfragearten zur Auswahl. MatchMaker speichert die Daten optimiert,
je nach geplanter Verwendung, lässt aber dennoch dynamisch viele
mögliche Evaluationsschemata zu. Durch die Möglichkeit der freien
Kombination von verschiedensten Funktionen, Algorithmen und
phonetischen Codes ist es möglich, leistungsstarke Applikationen
aufzubauen, die innerhalb weniger Millisekunden aus Millionen von
Datensätzen die relevanten Treffer finden. Und das alles auch in der Cloud.
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 9 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Zusammenfassung der Neuheiten seit MM 5.1
Instant Update Das Instant Update stellt eine signifikante Verbesserung des inkrementellen
Updates dar. Während mit dem inkrementellen Update Datenupdatezyklen
von nur wenigen Minuten realisierbar sind, erlaubt Instant Update, die
Hauptelemente der geänderten Daten sofort in die Suche einzuspeisen und
somit auffindbar zu machen.
FlexForm Neben der extrem fehlertoleranten Mehrfeld-Suche und der Einfeld-Suche in
strukturierten Daten bietet exorbyte in der neuesten Version eine flexible
Formularsuche (FlexForm) an, die das Beste aus beiden Varianten
kombiniert: Der Benutzer kann in mehrere Felder Anfragen eintragen, die
korrekte Zuordnung zu den Daten leistet MatchMaker aber erst dynamisch
und abhängig von der besten "Interpretation" der Anfrage. Es können Vor-
und Nachnamensanteile in das jeweils falsche Feld eingetragen worden sein.
Ebenso kann ein Adressfeld automatisch zerlegt werden in Ort, Straße und
PLZ. Das alles ohne aufwändige Programmierung durch einfache
Konfiguration und in bekannt schneller Bearbeitungszeit.
Multi-Level-Search Multi-Level-Search ist ein mächtiges Suchwerkzeug, welches Suchanfragen
deutlich flexibler gestaltet. Mit Multi-Level-Search ist es möglich, innerhalb
definierter Hierarchie-Ebenen zu suchen. Wird in einer Personendatenbank
bspw. nach bestimmten Städten gesucht, werden auf der Hierarchie-Ebene
Städte entsprechend alle zur Suchanfrage passenden Städte oder
Straßennamen herausgefiltert, unabhängig von den hinterlegten Personen.
Aber auch Abfragen vom Typ „Liefere mir alle Straßen, in denen sowohl ein
Hr. Schmitz als auch Hr. Maier wohnt“ sind möglich.
XML Extraktion MatchMaker unterstützt nun auch die Datenextraktion aus XML-Dateien. Der
Konfigurationsprozess ist grafisch dargestellt und daher einfach zu
bedienen. Dieses Feature ist besonders hilfreich im Einsatz mit Multi-Level-
Search.
Konfigurations-Wizard Der Konfigurations-Wizard analysiert die in MatchMaker zu integrierenden
Daten statistisch hinsichtlich ihrer Struktur. Basierend auf dieser Analyse
unterbreitet der Wizard Vorschläge für eine sinnvolle MatchMaker-
Konfiguration und erleichtert so das Konfigurieren eines Projekts.
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 10 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Parallelisierung & Verteilung des Index Dieses Features wirkt sich besonders vorteilhaft bei sehr großen
Datenmengen und kurzen Updatezyklen aus. Neben dem normalen
inkrementellen Update bietet der „Distributed Build“ die Möglichkeit, die
Indexierung auf mehrere Prozessoren und/oder Maschinen zu verteilen und
zusätzlich zum Teil zu parallelisieren. Durch die parallele Verarbeitung wird
der Indexierungsprozess erheblich beschleunigt.
Farbabgleich mittels Farbmethode Dieses neue Feature extrahiert automatisch Farbwerte aus Bildern, wie
z. B. Produktbildern und gestattet die Suche danach über Farbnamen
(„blau“), Farbbereiche („rötlich“) und RGB- oder HSV-Werte. Hierdurch ist es
möglich, nach farblich ähnlichen Bildern zu suchen, wie z. B. nach allen
„roten“ bzw. „rötlichen“ Produkten.
Monitoring Erweiterung (exLog) Mit dieser Erweiterung kann MatchMaker‘s Log-Server exLog nun auch
direkt an externe Monitoring-Systeme wie z. B. Nagios angebunden werden.
So lassen sich Logfiles zentral in einem Monitoring-System überwachen.
Algorithmen-Analyse (exPlain) Das neue Tool exPlain analysiert die Funktionsweise schwer
nachvollziehbarer Algorithmen, wie z. B. Levenshtein und stellt die
Zusammenhänge in grafischer Form dar. Das maßgeblich als Testumgebung
und Lerntool konzipierte exPlain dient dazu, die Strukturen von
MatchMaker und die Auswirkungen bestimmter Suchkonfigurationen besser
zu verstehen.
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 11 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Zusammenfassung der Neuheiten in MM 5.0
Mit der Version 5.0 hat exorbyte die Suchmaschine MatchMaker zu einer
umfangreichen Suchplattform ausgebaut. Zu den wesentlichen Weiterent-
wicklungen zählen:
Strategien für die Kombination verschiedener Algorithmen Oftmals gibt es für einen Datenfeld nicht die eine optimale Methode, die zu
allen Daten in der Datenbank passt. Bei MatchMaker 5.0 muss sich der
Anwender nicht für eine einzige Methode entscheiden, den Index zu bilden.
Dafür stehen vier Strategien in MatchMaker zur Verfügung. Diese
vereinfachen es, auch komplexere Indexstrukturen aufzubauen. Ferner
sparen Strategien Zeit während der Suchanfrage, da nur solche Abgleiche
durchgeführt werden, die erfolgversprechend sind.
Freie Definition von komplexen Abhängigkeiten von Feldern MatchMaker 5.0 ermöglicht es, Zusammenhänge und Abhängigkeiten von
einzelnen Feldern bei den Suchergebnissen zu berücksichtigen. Jeder
beliebige Ausdruck der Boole’schen Logik kann über die Oberfläche einfach
eingegeben werden. Somit können auch komplexe Anfragen effizient
verarbeitet werden.
Linguistische Unterstützung für Phrasenextraktion und Cluster-Bildung Flexiblere Mechanismen beim Datenimport ermöglichen die automatische
Generierung von Schlagwortverzeichnissen für Freitexte in Deutsch und
Englisch, die als Datenbasis für eine erfolgreiche Navigationsunterstützung
geeignet sind, entweder als „Did-you-mean“ oder als SearchNavigator – den
interaktiven Suggest-Boxen von exorbyte.
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 12 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Zeichensätze im MatchMaker
Zeichenkodierungen Für Anfragen und Daten unterstützt MatchMaker mehrere Einbyte-
kodierungen wie ISO-8859-1 (ISO Latin), aber auch Mehrbytekodierung
in UTF-8. Zeichenmappings zwischen Unicode-Code-Points sind für alle
Abgleichalgorithmen konfigurierbar, um die konsistente Behandlung von
Daten aus verschiedenen Quellen zu gewährleisten.
Umlaute, Groß- und Kleinschrift, Sonderzeichnen MatchMaker unterstützt auch das Mapping von einzelnen Zeichen auf mehrere Zeichen lange Zeichenketten, was besonders für die Unterstützung von Umlauten von Bedeutung ist. Automatische Deakzentuierung oder wahlweise separate Berücksichtigung von Akzenten ist möglich. Beispiel Transliterationen diakritischer Zeichen wie beispielsweise „Schäfer – Schaefer – Schafer“ werden in MatchMaker entsprechend der Konfiguration berücksichtigt. Oder die Akzente werden als einzelne Zeichen bearbeitet.
Wortbearbeitung in MatchMaker
Extraktionsbibliothek Das Aufbereiten der Daten für den Index ist dank der Extraktions-bibliothek
sehr bequem. Die indexierbaren Daten werden durch einfaches, interaktives
Auswählen der bereitgestellten Standardumwandlungsfunktionen und deren
Parameter generiert. Die Funktionen umfassen Standardnormalisierungen,
aber auch die Generierung von Aliasbegriffen u. ä.
Linguistische Verfahren und Clusterbildung MatchMaker erlaubt das Zusammenfassen ähnlicher Strings zu Clustern.
Dies wird benötigt, um qualitativ gute Suchvorschläge zu generieren und
damit die Benutzerfreundlichkeit zu erhöhen, da der Suchende den
Überblick bewahrt.
Phrasenextraktion Die automatische Phrasenextraktion extrahiert aus unstrukturiertem Text
sinnvolle Mehrwortbegriffe und Phrasen. Dies bietet die Möglichkeit, auch
unstrukturierte Daten zu durchsuchen und darin zu navigieren. Durch die
interaktive Anzeige von Navigationshilfen zur Verfeinerung der Suche wird
der Anwender zu den richtigen Treffern geleitet.
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 13 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Transliteration Die Transliterationsfunktionen von MatchMaker beinhalten standardmäßig
die Übertragung von Koreanisch, Chinesisch (Mandarin und Cantonese),
Japanisch (Hiragana, Katakana), Devaganari u. a. in lateinische
Schreibweisen wie Romaji. Weitere Sprachen können kurzfristig bei Bedarf
aufgenommen werden. So ist sogar möglich, Indexe aufzubauen, auf die
sowohl mit Hiragana als auch mit Romaji zugegriffen werden kann und das
mit der gewohnten Fehlertoleranz von MatchMaker. Daher kann
MatchMaker für asiatische Anwendungen sofort eingesetzt werden.
Beispiel Ihre Datenbank hat internationale Kontaktdaten gespeichert. Angenommen,
ein Eintrag lautet „Sandra Donovan Khan“ - das sind Namenbestandteile aus
mehreren Sprachräumen. Was nun? Die Algorithmen von MatchMaker sind
sprachenunabhängig, Namen aus mehreren Sprachräumen werden über
Transliterationsregeln verglichen.
Morphologie MatchMaker bietet in vielen Sprachen die Abbildung von Wörtern auf ihren
Wortstamm an. Dafür wurde die Open-Source Stemming-Library Snowball
eingebunden und mit Regelwerken für ca. 30 Sprachen vorkonfiguriert.
Beispiel Bei Verwendung der Wortstammabbildung wird in einem Text auch „Haus“
gefunden, wenn nach „Häuser“ gesucht wird oder umgekehrt.
Fehlererkennung, Wortähnlichkeit
Damerau-Levenshtein und verwandte Algorithmen Ein wesentlicher Teil der hohen Fehlertoleranz von MatchMaker beruht auf der vielseitig nutzbaren Implementierung des Levenshtein-Algorithmus und dessen Abwandlungen, wie z. B. des Damerau-Levenshtein. Dabei berechnet MatchMaker alle möglichen Fehlersituationen zur Abfragezeit, ohne dass dafür spezielle Annahmen gemacht werden. Die nachfolgenden Editier-Operationen werden beim Wortvergleich direkt unterstützt: • Einsetzen von einzelnen Zeichen • Löschung von Zeichen • Substitution einzelner Zeichen • Vertauschung von benachbarten Zeichen (Damerau) • Vertauschungen von Worten und Zeichengruppen (Block-Edit-Distanz) • Gleichsetzen von Zeichen, Umlautexpansion • Deakzentuierung und Ignorieren von Sonderzeichen • Lokale Zeichenalternativen in der Abfrage (H[ao]mburg)
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 14 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Darauf aufbauend bietet MatchMaker ein breites Spektrum an stringbasierten Algorithmen, die je nach spezieller Abfragesituation gewählt werden können: • Die erweiterte Levenshtein Edit-Distanz für Präfix-, Suffix-,
Infix- Suche und zwar für beide Situationen: die Abfrage ist Teil des gesuchten Eintrags und umgekehrt.
• Die Block-Edit-Distanz-Berechnung, bei der ganze Buchstabengruppen verschoben werden können.
• Positionsgebundene Abgleiche zum Lesen von festen Formularfeldern
• Phonetischer Abgleich u.v.m. Longest-Common-Subsequence Der LCS-Algorithmus, das Verfahren der „longest-common-subsequence“, wird verwendet, um unzusammenhängende übereinstimmende Zeichenketten zu finden. Beispiel Der Algorithmus findet eine Übereinstimmung von „xAzyxBCzrsuerbD“ mit „ABoCpD“, da in beiden Wörtern die Folge „ABCD“ enthalten ist.
Wildcards, Globstyle-Anfragen und reguläre Ausdrücke Mit derselben Index-Struktur können auch andere grundlegende
Algorithmen berechnet werden. Unter anderem erlaubt MatchMaker die
Benutzung von Wildcards und Globstyle-Matching.
Finite Automaten (DFA) Viele dieser Algorithmen können bei Beschränkung auf begrenzte Fehlertoleranz mithilfe von Finiten Automaten sogar noch schneller und effizienter implementiert werden. Diese Struktur lässt bis zu drei Fehler zu, die dynamisch korrigiert werden können, also völlig sprachunabhängig. Treffer-Qualitäten Für das Tuning der Suchapplikation bietet MatchMaker einen Satz von
Bewertungsfunktionen, die abhängig von der Länge der beteiligten Wörtern
und deren Übereinstimmung ein Qualitätsmaß berechnen, das das
gewünschte Suchverhalten und Ranking der Ergebnisse sicherstellt.
Sprachenunabhängige Berechnung
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 15 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Mehrwortabgleich
Neben der reinen Editierähnlichkeit muss auch die Vertauschung von
Wörtern berücksichtigt werden.
Freie Vertauschung von Wörtern Ein Mehrwort-Index mit möglicher wortweiser Vertauschung für große Datenmengen steht als gesonderter Indextyp zur Verfügung. Dieser gewichtet einzelne Wörter über ihre Länge, lässt aber auch Einzelwort-Aliasse zu. Er beherrscht außerdem die automatische Stoppwort-Behandlung und das Verschmelzen benachbarter Anfragewörter.
Berücksichtigung von Wortrelevanzen Eine Fortentwicklung dieser erfolgreichen Mehrwort-Vergleichsstruktur
besitzt eine automatische Einzelwort-Relevanz-Berechnung. Sie erlaubt es,
Mehrwort-Datenmengen zu untersuchen, die auch größere Teile
irrelevanter Information enthalten, z. B. eine Liste mit Firmennamen, in
denen Anteile wie GmbH, Gesellschaft aber auch Spartennamen u. ä. sehr
häufig sind. Der Algorithmus passt sich dabei automatisch an die Daten an
und unterstützt Einzelwort-Aliasse, die gezielte Beeinflussung von
Einzelwort-Bewertungen und vieles mehr.
Mehrwort-Scanner Für die schnelle und fehlertolerante Extraktion von Schlüsselwörtern aus
langen Texten unterstützt MatchMaker eine schnelle Scannerfunktion, die
approximativ und besonders schnell auch über Worttrenner hinweg
Mehrwort-Treffer findet. Dies ermöglicht es, Texte mit passenden
Schlüsselwörtern zu markieren, die später die Arbeit des SuchNavigators
unterstützen.
Verschiebung von Wortteilen, Block-Edit-Berechnung Das Wortvertauschen ohne Berücksichtigung von Zeichentrennern kann
durch den Block-Edit-Algorithmus erledigt werden. Zum Beispiel erlaubt der
SUBSET und SUPERSET-Algorithmus das Erkennen von vertauschten
Wortteilen, wie z. B. in Tiefenschärfe->Schärfentiefe, ohne dabei Fehltreffer
zu generieren
Volltextsuche Schließlich verfügt MatchMaker über eine Volltext-Engine zur Indexierung
von einzelnen Dokumenten auf Dateibasis. Dabei werden die
Wortpositionen innerhalb eines Dokuments, die Häufigkeit des
Vorkommens der Wörter und andere Kriterien zur Bewertung herangezogen
(TFIDF). Auch die Generierung von „Teasern“ mit markierten
approximativen Treffern wird unterstützt. MatchMaker kann mit aus
MatchMaker gesteuerten Standardwebcrawlern Inhalte automatisch
auslesen und direkt übernehmen.
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 16 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Das Volltextmodul von MatchMaker unterstützt: • Phrasenerkennung (auch bei Fehlern in einzelnen Wörtern) • Ausschlussbegriffe • Wortergänzungen und optionale Wörter • Approximative oder exakte Anfragen auf Wortbasis • Kombination und Aufsplittung von Wörtern • Einzelwort-Aliasse und Bias-Gewichtungen • Individuelle und automatisierte Skip- bzw. Stoppworte • Wildcard-, Prefix-, Infix- und Suffix-Suche
Phonetik, Klangähnlichkeit
Als wichtiges Hilfsmittel bei der approximativen Suche sind phonetische Codes bekannt, die meistens als alternativer Suchschlüssel verwendet werden. MatchMaker nutzt phonetische Codes, um die Wortähnlichkeit graduell zu unterstützen. Dabei können bekannte, aber auch speziell von exorbyte entwickelte, Kodierungsverfahren verwendet werden. Soundex, Metaphone, Kölner Phonetik Die bekannten Standardcodes SOUNDEX und METHAPHONE sowie auch die seltener verwendete „Kölner Phonetik“ sind per Knopfdruck verfügbar.
exorbyte Phonetik Am häufigsten wird in MatchMaker die hauseigene Phonetik (EXOPHONE) verwendet, die an die Art und Weise, wie MatchMaker Phonetiken bearbeitet, angepasst ist. Diese Kombination macht die phonetische Suche robust und gewichtet Fehler, die sich phonetisch nicht auswirken, geringer als phonetisch relevante Fehler. Frei programmierbare Phonetik Über das Server-Side-Scripting lassen sich aber auch selbst programmierte Phonetiken anbinden, die der Anwender frei definieren kann. Die Art der Einbindung sichert auch dann noch schnelle Laufzeiten zu.
Gestaltähnlichkeiten Eine spezielle Transformation, die keine echte phonetische Kodierung
darstellt, sich aber sehr ähnlich verhält, ist die Kodierung der Wortgestalt
(SHAPE-Transformation). Was die Phonetik für das gesprochene Wort ist, ist
die Gestalt für das geschriebene Wort. Beispielsweise gibt in einer OCR-
Anwendung die Form der Zeichen eine grobe Beschreibung der Zeichen,
ohne die genaue Bedeutung zu kennen. Diese Kodierung verwendet wenige
Zeichen, die nur Ober-, Unterlängen, Striche oder Rundungen darstellen, um
die Gestalt eines Wortes ungefähr darzustellen.
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 17 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Weitere Indexierungsalgorithmen
Approximativer Datumsabgleich Felder mit Datumsangaben können in MatchMaker derart indexiert werden,
dass auch ähnliche Daten gefunden werden. Dabei sind verschiedenste
vordefinierte Formate zugelassen. Aber auch leicht fehlerhafte Eingaben
werden erkannt. Die Bestimmung der genäherten Vergleichswerte ist von
der zeitlichen Distanz abhängig, für die eine Skalierung individuell konfigu-
rierbar ist.
Zahlenrelationen und Zahlenbereiche Datenfelder mit numerischen Inhalten können mit Vergleichsfunktionen
abgefragt werden, wie “der Wert ist größer oder in der Nähe des
Abfragewertes”, wobei die Schärfe der Abfrage konfiguriert werden kann.
Ebenso sind Bereichsangaben zugelassen.
Flags- und Optionsattribute Strukturierte Daten enthalten häufig Ja/Nein-Attribute (Flags) oder
Optionsattribute, d. h. Attribute mit nur wenigen möglichen Werten. Diese
können von MatchMaker effizient in sogenannten Flagfeldern
zusammengefasst werden, so dass hunderte solcher Optionen in einem
Aufruf kombiniert und approximativ abgefragt werden können. Das
ermöglicht, mit nur einer einzigen Abfrage die Einträge in der Datenbasis zu
finden, welche die meisten Attribute korrekt gesetzt haben, ohne dass
verschiedene Attributmengen ausgetestet werden müssen. Dabei lassen
sich auch Wertemengen abfragen, z. B. in der Art: „Welche Personen
erfüllen die meisten der folgenden Eigenschaften? – Sie sind männlich,
besitzen einen Sportwagen oder SUV, sind vollkaskoversichert und hatten
in den letzten drei Jahren einen Unfall.“
Geometrische Entfernungen Koordinaten sind in MatchMaker als geometrische Nähe abfragbar. Die
örtliche Nähe wird dann approximativ berechnet und kann mit anderen
Kriterien kombiniert werden. Die Toleranz dieser Funktion lässt sich
konfigurieren. Gebietsabfragen sind ebenfalls möglich.
Sichten- und Berechtigungskonzept MatchMaker beherrscht den effizienten Abgleich von einzelnen Einträgen
gegen große Teilmengen von Kategoriebäumen, Taxonomien oder
Hierarchien. Auf diese Weise können Sichten- und Rollenkonzepte effizient
serverseitig umgesetzt werden.
OCR Für den Abgleich von Erkennungsergebnissen aus dem OCR-Umfeld stehen
in MatchMaker spezielle Indexierungsmethoden zur Verfügung. Der Abgleich
basiert auch auf dem Levenshtein-Algorithmus, bei dem die Qualitäten der
erkannten Zeichen graduell in das Bewertungsergebnis einfließen. An jeder
gelesenen Stelle können in der Abfrage mehrere alternative Zeichen
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 18 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
zugelassen werden, wenn sich der Klassifikator nicht entscheiden konnte.
Ein Zeichen, das erkannt, aber nicht klassifiziert werden konnte, kann als
Platzhalter eingefügt werden, so dass eine Ersetzung eines solchen Zeichens
weniger ins Gewicht fällt als eine Einfügung oder Löschung. Außerdem
können zusätzliche Tabellen von Ähnlichkeiten hinterlegt und eine
Gestaltähnlichkeit der ganzen Worte berücksichtigt werden.
Komplexe Indexierung
Strategien - Kombination von Algorithmen auf Feldern Reicht eine der Standardindexierungsmethoden nicht aus, lassen sich in
MatchMaker verschiedene Algorithmen kombinieren. So erlaubt
MatchMaker beispielsweise die Verarbeitung von Feldern mit gemischten
Inhalten. Hierbei kann ein Feld z. B. ein Datum enthalten oder normale
Wörter. Je nach Inhalt wendet MatchMaker anschließend den passenden
Algorithmus bzw. die passende Suchmethode an, d. h. für Datumsangaben
den Datumsabgleich, für alles andere den Levenshteinabgleich.
Es stehen vier Strategien zur Auswahl: die Vote-, Prune-, Support- und
Switch-Strategie, wobei die Switch-Strategie für jeden Eintrag auf die
passende Abgleichsmethode verzweigt.
Feldübergreifender Index zur schnellen Zerlegung der Anfrage Häufig können die Eingaben für die Anfrage nicht festen Feldern
zugewiesen werden. Dafür unterstützt MatchMaker die feldübergreifende
Suche durch einen speziellen Index, der es erlaubt, in kürzester Zeit, die
Anfrage oder Teile davon einzelnen Datenfeldern zuzuordnen. Dies wird
noch durch eine schnelle Scanfunktion verstärkt, die Worte oder
Wortgruppen als Ganzes detektieren kann. MatchMaker erlaubt es dann, die
Anfrage mittels dieser Treffer zu zerlegen, selbst wenn Fehler in den
einzelnen gefundenen Teilen aufgetreten sind.
Alternative Indexierung Für jedes Feld können in MatchMaker zusätzlich noch zwei unabhängige
Suchstrategien definiert werden, die dynamisch ausgewählt werden können.
Mehrfeldabgleiche Eine der größten Stärken von MatchMaker ist das effiziente Kombinieren
von Resultaten auf mehreren Feldern.
Gewichtung und Konfidenz einzelner Felder Dabei kann der Vorgang durch Einstellung der Gewichtung, der
Verknüpfung von Felder mittels logischem „ODER“ oder „UND“, Verneinung
und weiteren Charakteristika beeinflusst werden. Beispielsweise können
Felder als „Mandatory“ oder „Optional“ markiert werden.
Interessantes Feature
Strategien sparen viel Zeit bei der Suchabfrage, da diese den Index dafür optimal vorbe-reiten. Oftmals gibt es für einen Datensatz keine opti-male Methode, die zu allen Feldern passt. Bei Match-Maker ist es nicht nötig, sich für eine einzige Methode zu entscheiden.
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 19 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Approximative Schnittmengenbildung Das Schneiden von Trefferlisten ist normalerweise keine erwähnenswerte Aufgabe, wenn nur exakte Treffer auf jedem Feld generiert werden. Wenn aber auf jedem Feld viele Trefferlisten mit unterschiedlichen Bewertungen kombiniert werden müssen, explodiert die Anzahl der Möglichkeiten schnell und erschwert es erheblich, alle relevanten Ergebnisse in vernünftiger Suchzeit zu finden. Obwohl es möglich ist, durch Spezifikation von Index- und Nachbewer-tungskriterien die Laufzeit zu optimieren, findet MatchMaker auch automatisch heraus, wie die Einzelfeldergebnisse am besten und schnellsten zu kombinieren sind. Dies wird schon bei der Aufbereitung der Daten dadurch unterstützt, dass die Daten bzgl. der Felder mit wiederkehrenden Werten so optimiert werden, dass keine langen Trefferlisten entstehen, d. h. das Einschränken und Suchen auf Feldern wie dem Städtenamen nimmt nur sehr wenig Rechenzeit in Anspruch.
Nachbewertungslogik bei geringer Ähnlichkeit Das Besondere liegt in der Tatsache, dass fehlerbehaftete Ergebnisse auf einem Feld in Gänze mit allen anderen Ergebnissen auf anderen Feldern kombiniert und bewertet werden, bevor eines davon endgültig verworfen wird. Selbst wenn die Qualität auf einem Feld nicht ausreicht, über den internen Suchindex den richtigen Treffer zu finden, jedoch hoch genug ist, dass sie berücksichtigt werden sollte, sind die Einträge mit den entsprechenden Werten nicht verloren, sondern werden durch eine Nachbewertung auch auf niedrige Übereinstimmungswerte überprüft. Das ermöglicht eine sichere Erkennung selbst von stark fehlerhaften Anfragen auf ALLEN(!) abgefragten Feldern.
Boole‘sche Logik Mit MatchMaker können beliebige logische Zusammenhänge von Feldern in
der Suchfunktion definiert werden (Boole‘sche Logik). Hiermit können
Suchergebnisse auf einzelnen Felder durch Operationen wie UND, ODER und
NICHT und sogar als eine Mittelung von UND und ODER kombiniert werden.
Diese Operationen können durch einfache grafische Operationen innerhalb
des Konfigurationstools spezifiziert werden.
Interessantes Feature
Mit der Boole‘schen Logik
werden über die Oberfläche
komplexe Kombinationen
ausgewählt. Dies ermöglicht
Zusammenhänge und
Abhängigkeiten von Feldern
bei den Suchergebnissen zu
berücksichtigen.
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 20 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Beispiel Angenommen, in einem Suchformular werden Land, Ländercode, PLZ,
Straße und Name abgefragt. Um zum besten Treffer zu gelangen, ist es
notwendig, die Relationen der einzelnen Felder zueinander abzubilden. Die
Logik für das Suchformular ist der Abbildung oben zu entnehmen. Sollte
also das Feld „Stadt“ freigelassen oder falsch sein, aber bei PLZ ein voller
Treffer vorliegen, wird das Suchergebnisse trotz eines fehlenden Feldes als
bester Treffer gewertet. Der Ländercode kann wahlweise auch als
zusätzliche Identifikation für einen Namen dienen, wobei die Kombi-nation
von Land und Stadt oder PLZ dennoch höher zu bewerten ist.
Freie Einfeld-Suche (FreeSearch) MatchMaker bietet eine Suchfunktion, die es ermöglicht, automatisch eine
längere Anfrage auf mehrere Felder zu verteilen. Es ist nicht mehr nötig,
eine Zerlegung selbst zu programmieren, sondern es werden die besten
Treffer gefunden, auch wenn einige Felder gar nicht getroffen werden.
Zum Beispiel kann eine Anfrage „John Doe New York USA“ gegen die Felder
Nachname, Vorname, Staat, Land, Stadt und Straße abgeglichen werden. Die
Zuordnung auf die einzelnen Felder ist dabei nicht fest und wird nicht im
Vorfeld fixiert, sondern ist abhängig vom jeweiligen Treffer. Es werden also
alle John Does in der Stadt, aber auch im Land New York gefunden. Hierbei
lassen sich Treffer auf einzelne Felder sogar priorisieren.
Freie Mehrfeld-Suche (FlexForm) Neben der extrem fehlertoleranten Mehrfeld-Suche und der Einfeld-Suche
in strukturierten Daten bietet exorbyte eine flexible Formularsuche
(FlexForm) an, die das Beste aus beiden Varianten kombiniert: Der Benutzer
kann in mehrere Felder Anfragen eintragen, die korrekte Zuordnung zu den
Daten leistet MatchMaker aber erst dynamisch und abhängig von der
besten "Interpretation" der Anfrage.
Es können Vor-und Nachnamensanteile in das jeweils falsche Feld
eingetragen worden sein. Ebenso kann ein Adressfeld automatisch zerlegt
werden in Ort, Straße und PLZ. Das alles ohne aufwändige Programmierung
durch einfache Konfiguration und in bekannt schneller Bearbeitungszeit.
Bearbeitung großer Treffermengen MatchMaker ist nicht nur für das Finden von einzelnen Treffern geeignet,
sondern bietet auch die Möglichkeit, große Treffermengen (sogenannte
Kontexte) zu bearbeiten und zu speichern sowie On-The-Fly-Statistiken zu
erstellen.
Interessantes Feature
Die durchsuchten Felder sind
abhängig vom Treffer und
nicht vorab festgelegt. Dies
ermöglicht dem Anwender
maximale Flexibilität bei der
Eingabe und intelligente
Treffer.
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 21 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Schnelles Zählen, Navigatorbildung Felder können bzgl. eines Kontextes ausgezählt werden. Dabei können
alphabetische Trefferlisten, nach Häufigkeit sortierte Listen, aber auch nach
Stringähnlichkeit bewertete Frequenzlisten dynamisch erzeugt werden. Zur
effizienten Bereitstellung von Navigationshilfen können ebenso
Wertegruppen (Preiskategorien etc.) dynamisch erzeugt werden.
Vorschauzählungen für mehrere Felder gleichzeitig ermöglichen die Anzeige
von Trefferhäufigkeiten für den Fall, dass der Anwender diesen oder jenen
Wert anklickt.
Sortierungen (sprachabhängige Collations) Felder können in MatchMaker so eingestellt werden, dass sie eine sehr
schnelle Sortierung von Kontexten bezüglich beliebiger Sprachen
unterstützen. Dabei werden Standard-Collations für mehr als 30 Sprachen
zur Verfügung gestellt
Vereinigung, Schnitt, Dedublizierung Kontexte können in MatchMaker über verschiedene Mechanismen erzeugt
werden: Ähnlichkeitssuche, Bereichsauswahl, explizites Aufzählen der
Einträge. Diese Kontexte können gespeichert werden und in die weitere
Bearbeitung einfließen, indem sie mit anderen Kontexten oder Suchen
mittels „UND“ oder “ODER“ verknüpft werden. Wichtig ist auch die
Deduplizierung eines Kontexts bzgl. der Werte eines bestimmten Feldes.
Biasing von Begriffen und Feldern
In MatchMaker gibt es mehrere Vorgehensweisen, um Einträge oder nur
einzelne Feldinhalte zu bevorzugen.
Erhöhung der Fehlertoleranz einzelner Begriffe Feldinhalte können schon durch Benutzung einer Strategie durch Erhöhung
ihrer Fehlertoleranz hervorgehoben werden, d. h. eine Stadt, die sehr häufig
angefragt wird, soll trotz Tippfehler relativ gut gewertet werden.
Relevanz-Boosting von Einträgen Das Gleiche gilt für ganze Mehrfeldeinträge. Auch diese können bezüglich
ihrer Fehlertoleranz aufgewertet werden. Dies geschieht durch Hinzugabe
eines Feldes, das den Bias-Wert beisteuert. Möglich ist auch, dieses Feld
generell zum „Boosten“ von Einträgen zu nehmen, unabhängig von den
gefundenen Fehlern.
Generelle Bevorzugung von Feldern Felder können in MatchMaker nicht nur gewichtet, sondern auch mit Strafen
(Penalties) versehen werden. Dies führt zur Bevorzugung ganzer Felder.
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 22 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Taxonomien und Aliasse
Wortbeziehungen (Taxonomien) werden in MatchMaker durch Aliasse
abgebildet. Man unterscheidet zwischen verschiedenen Gültigkeits-
bereichen solcher Aliasse.
Lokale Aliasse Lokale Aliasse gelten nur für einen einzelnen Eintrag und können in die
Daten pro Feld eingefügt werden. So könnte beispielsweise eine Straße
umbenannt worden sein. Beide Bezeichnungen sind noch als Adresse
zugelassen.
Globale Aliasse Globale Aliasse sind immer gültig. Sie können über separate Dateien für
einzelne Indexstrukturen angegeben werden. Der Mehrwortalgorithmus
erlaubt auch Aliasse auf einzelnen Wörtern, z. B. sind Bob und Robert
immer gültige Aliasse. Die Richtung und die Kosten für die Ersetzung des
Alias kann mit angegeben werden, d. h. Bob trifft Robert mit Kosten 0, aber
Robert trifft Bob nur mit Kosten 10.
Systematische Aliasse Die generischste Art von Aliassen sind sogenannte systematische Aliasse,
wenn also jeder Eintrag in den Daten einen passenden Alias hat, z. B. ist in
einer Übersetzungstabelle jeder Eintrag in Deutsch und Englisch hinterlegt.
Anfragen können in Deutsch, Englisch oder undefiniert gestellt werden.
Diese Situation wird in MatchMaker durch Definition eines extra Feldes
behandelt, das mit dem Originalfeld mit einer ODER-Logik verknüpft wird.
Schnittstellen
Datenimport aus ODBC, CSV und anderen Quellen. Standardmäßig erlaubt MatchMaker den Import von Daten per ODBC, CSV
und Textdateien. Neue ODBC-Treiber außer den Standardtreibern können
leicht vom Anwender eingebunden werden.
Programmierschnittstelle MMI in mehreren Sprachen Anwendungen kommunizieren mit MatchMaker über ein API
(MatchMakerInterface, MMI), das intern über ein einfaches Socket-Protokoll
mit dem MatchMaker-Server verbunden ist. MMI gibt es in sechs Sprachen
(C++, Java, PHP, Python, COM, Tcl) und hat immer das gleiche einfache
Programmiermodell, so dass Code leicht von einem System auf ein anderes
transferiert werden kann.
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 23 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Server-Side-Scripting in Java und Tcl MatchMaker unterstützt Server-seitig die Programmierung über Skripte in
den Programmiersprachen Tcl und Java. Dadurch kann ein großer Teil der
projektspezifischen Programmierung innerhalb von Skripten bewältigt
werden. Man kann die Standardsuchfunktionalität durch eine
benutzerdefinierte Logik ersetzen oder ergänzen. Benutzerdefinierte
Scripting-Filter auf einzelnen Feldern ermöglichen, komplexe Anfragen zu
modellieren, Ergebnisse zu modifizieren, mehrere Anfrageergebnisse zu
mischen und Treffermengen nachzubearbeiten. Zusätzlich werden
Templates für das Schreiben verschiedener Funktionen im Skript interaktiv
bereitgestellt.
Konsolensteuerung für Fernwartung und OEM-Einbindung Alle Verwaltungs-Funktionen von MatchMaker können auch ohne
interaktive Komponenten über das Command-Line-Interface (CLI)
ausgeführt werden. Das ermöglicht eine einfache Einbindung in
Fremdsysteme, Fernwartung u. v. a.
Java-Administrations-Interface (JMMI) Alle Funktionen des CLI sind wiederum in entsprechenden Java-Klassen
verfügbar, so dass auch die Steuerung der Prozesse von externen Java-
Programmen möglich ist.
Analysierbares Reporting-Format Jeder Suchprozess von MatchMaker schreibt auf Wunsch alle
Informationen, die angefragt wurden, in zentrale Log-Dateien, welche
einfach zu konfigurieren und zu analysieren sind.
Plattform
Analyse-Tools Die integrierten Entwicklungstools von MatchMaker erlauben es,
Projekteinstellungen zu analysieren und zu optimieren. Der
Ressourcenverbrauch kann visualisiert und dadurch Suchanfragedauer und
Speicherbedarf des Indexes verbessert werden. Entwickler sehen
z. B. sofort, wo Suchzeit unnötig verbraucht wird. Außerdem hat
MatchMaker einen eingebauten Speicherleckdetektor für Anwenderskripte,
der Programmierfehler leichter aufdeckt.
Konfigurations-Tool Das interaktive Konfigurator-Tool in MatchMaker (exTractor) ist
benutzerfreundlich aufgrund von Wizards, graphischer Unterstützung vieler
Konfigurationselemente und intuitiver Darstellung aller Parameter auf
entsprechenden Konfigurationsseiten.
Überwachungs-Tool Der eingebaute Monitor für die Prozessüberwachung ermöglicht,
Informationen über alle Prozesse eines Projektes zu visualisieren.
Scripting in Java MatchMaker unterstützt auch Server Side Scripting und Extraction Scripting in Java.
Hilfreiches Feature Es müssen nicht alle Daten in einem File vorliegen. Das spart viel Zeit bei der Datenaufbereitung.
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 24 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Statistik-Daten Zusätzlich zum graphischen Monitor sind in MatchMaker Prozesse zum
Protokollieren und zur Analyse von Nutzungs-Statistiken vorhanden.
Administratoren sind somit informiert über die aktuelle Auslastung des
Systems und potentielle Hardware-Engpässe.
Zentrales Logging Alle Prozesse, ob sie remote oder lokal laufen, sind in MatchMaker an ein
zentrales Logging-System angeschlossen, das es erlaubt, die
Kommunikation zwischen den Prozessen zu überwachen und jede
Fehlerquelle schnell zu finden.
Error Reporting MatchMaker verfügt über eine zentrale Fehlerabhandlung. Durch allgemeine Fehlercodes kann MatchMaker leicht in externe Überwachungstools wie z. B. Nagios eingebunden werden.
Ausfallsicherheit Eine interne Prozessüberwachung detektiert fehlerhaft arbeitende Prozesse, stoppt und startet diese neu. Wird ein Abfrageprozess neu gestartet, liegt die Datenbasis bereits im Shared-Memory und der Prozess ist somit in wenigen Sekunden wieder voll einsatzfähig.
Zentrale Verwaltung von verteilten Systemen Mit MatchMaker besteht die Möglichkeit, auch größere Cluster mit vielen
Rechnern zu einem zentral verwalteten MatchMaker-System zusammen-
zubinden. Prozesse können remote gestartet, überwacht, installiert und
wieder gestoppt werden. Durch den zentralen Log-Server werden die
einzelnen Prozesse nur wenig belastet und können sich mit der
Verarbeitung der Anfragen beschäftigen.
Skalierbarkeit
Datenparallelisierung Sehr große Datenmengen kann MatchMaker auf mehrere Teilsysteme
verteilen. Diese werden dann durch einen Broadcast-Prozess angefragt und
die Ergebnisse gesammelt.
Automatische Anpassung an Serverbelastung MatchMaker erlaubt für komplexe Systeme eine automatische Anpassung
der Verarbeitungstiefe an die zur Verfügung stehende Laufzeit. Dies sorgt
für eine optimale Verteilung der Kapazitäten eines Servers. Bei
Kapazitätsengpässen können weniger aufwendige Algorithmen
angesprochen werden. In diesem Fall kann z. B. die Anzahl der Ergebnisse
reduziert werden. In Server-Side-Skripten kann diese Eigenschaft vom
Anwender ganz individuell genutzt werden.
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 25 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Parallelisierung der Anfragen Bei hoher Anfragelast können in MatchMaker durch einen einfachen Klick
weitere Prozesse während des laufenden Betriebes hinzugefügt werden, die
sofort Teile der Anfragen übernehmen.
Aktualisierung der Daten Werden neue Daten in das MatchMaker-System eingespielt, geschieht das
vollständig im Hintergrund. Das Laufzeitsystem wird erst bei Fertigstellung
aller notwendigen Arbeiten über die Existenz neuer Daten informiert. Es
ersetzt die Daten zunächst nur für einen Abfragebearbeitungsprozess und
schaltet alle anderen einzeln um, wenn dies erfolgreich war. Hierdurch kann
unerwünschte Downtime vermieden werden.
Inkrementelle Datenaktualisierung MatchMaker kann auch inkrementelle Änderungen der Daten in sehr kurzer Zeit im Laufzeitsystem zur Verfügung stellen. Die Änderungen werden gesammelt und periodisch in die Originaldatenmenge eingepflegt. Dies geschieht im Hintergrund.
Alternative Suchprofile MatchMaker bietet die Möglichkeit, individuelle Suchprofile anzulegen.
Dadurch können sich Nutzer abhängig von ihrer Rolle über verschiedene
Schnittstellen mit derselben Datenbank verbinden. Diese Schnittstellen
unterscheiden sich in Gewichtung, Kombinationslogik, Skalierung,
Schwellwerten, virtuellen Feldern und weiteren Parametern. Der Benutzer
kann jedes dieser Profile dynamisch anfordern.
Unterstützung von 32- und 64-Bit-Architekturen MatchMaker nutzt in weiten Teilen die Vorteile der 64-Bit-Architektur voll
aus. Das ermöglicht die Verarbeitung von wesentlich größeren
Datenmengen, erhöht die Abfragegeschwindigkeit, reduziert den Bedarf an
Ressourcen und vereinfacht die Konfiguration komplexer Systeme.
Unterstützung von Windows, Linux, Solaris Getestete Installationen stehen auf folgenden Systemen zur Verfügung:
Windows OS: • Windows XP SP2 (32bit)
• Windows 2003 Server SP1 (32bit)
• Windows Vista SP1 (32bit, 64bit)
• Windows 2008 Server SP1 (32bit, 64bit)
• Windows 7 (32bit, 64bit)
• Windows Server 2008 R2 (64bit)
Produktbeschreibung exorbyte MatchMaker | MatchMaker Version 5.2 | 26 / 26
exorbyte GmbH | Line-Eid-Str. 1 | D-78467 Konstanz | Internet: www.exorbyte.de, www.exorbyte-commerce.de
Ihr Kontakt: Rolf Nikolaidis, [email protected], Tel +49 7531 36 33 9-00, Fax -01
Linux OS, empfohlene Distribution: • Debian >= 5.0, stable
• Red Hat Enterprise Linux (RHEL) als Version Entry Server (ES) oder
darauf basierenden Distributionen wie Cent OS
• Red Hat Enterprise Linux (RHEL) als Version Advanced Server (AS)
• Suse Linux Enterprise Server (SLES)
• OpenSuSE 11.0, x86_64, 32bit-compatible
Sun OS : • OpenSolaris (SunOS 5.11) x86
• Solaris 10 (SunOS 5.10) sparc
• Solaris 9 (SunOS 5.9) sparc
Lizenzierung
MatchMaker unterstützt mehrere Arten der Lizenzierung: Geschwindigkeit,
Anzahl der Anfragen und Größe der Daten spielen dabei eine Rolle. Die
Lizenz kann an eine Hardware, an einen Dongle oder an einen zentralen
Lizenzserver gebunden werden. Über eine spezielle OEM-Partner-Lizenz
können exorbyte-Partner selbst Endkunden-Lizenzen signieren, die nur die
Verarbeitung speziell aufbereiteter Daten erlaubt. Dem Endkunden ist es
nicht möglich, die Konfiguration zu ändern. Dadurch eignet sich
MatchMaker optimal für eine OEM-Integration.
In einer Lizenz werden folgende Werte festgeschrieben: • Die Anzahl der Datensätze im MatchMaker Index • Die Anzahl der Concurrent User • Die Gültigkeitsdauer der Lizenz • Leistungsparameter wie genutzte Prozessor-Geschwindigkeit (MHz)
oder Anzahl Queries pro Sekunde • Ggf. spezielle Such-Algorithmen Die Lizenz wird zusammen mit einem Hardware-Schlüssel (USB-Dongle) geliefert. Alternativ kann die Lizenz rechnerspezifisch ausgestellt werden. Bei der Konfiguration von verteilten Systemen kann die Lizenz auf einem Lizenz-Server installiert werden, so dass mehrere MatchMaker-Server auf eine zentrale Lizenz zugreifen können.