Post on 20-Jan-2016
description
Multimodale Interfaces
Jonas Tappolet, Domenic Benz
Inhalt
Basics Definition multimodal interface Verschiedene Typen Designprinzipien Beispiel MATCH
Interface: Zweck
Kommunikation zwischen Mensch und Maschine
Human-Machine-Interface (HMI)
AnwendungsbereicheMensch und Maschine lösen Aufgabe
gemeinsam (Interaktion)Maschine löst Aufgabe selbständig, Mensch
überwachtMensch löst Aufgabe selbständig, Maschine
überwacht (-> Assisted Living)
Human-Machine-Interface (HMI)
Gedanken, Emotionen,interne Verarbeitung
Information
Daten
Sinnesorgane (Ohren, Augen, Nase...)Aktionen (Sprechen, Bewegung…)
Interne Verarbeitung
Information
Daten
Sensoren (Kamera, Mikrofon…)Aktoren (Lautsprecher, Bildschirm…)
Austausch physikalischer Signale
Mensch Maschine
Warum neue Arten der Interaktion?
Maus & Tastatur ist „Präferenz“ der Maschine, nicht intuitiv
Verschiedene Situationen erfordern unterschiedliche Interaktionsmöglichkeiten
Menschen mit Behinderungen brauchen ein Interface das mit den ihnen zur Verfügung stehenden Mittel bedienbar ist
Komponenten der natürlichen menschlichen Kommunikation Sprache (Grundkommunikation) Gestik (Verdeutlichen, Untermalen) Mimik (Emotionen) Blickrichtung (Emotion, Kontrolle) Lautstärke, Tonfall (Emotion) Lippenbewegung (Kontrolle) Gerüche (?, Emotion) Haptik (Berührungen, Emotionen)
Ziele eines HMI
Das Interface muss entsprechend der Anwendung ausgelegt sein
Möglichst intuitive Kommunikation des Menschen mit der Maschine
Verwischen der Unterschiede zwischen Mensch-Mensch und Mensch-Maschine Kommunikation
Gestenerkennung
Funktionsweise: Aufnahme von Gesten mithilfe einer Kamera und Erkennung der Geste mithilfe von SoftwarePro: - Technologie vorhanden- Fordert nicht volle Aufmerksamkeit des Anwenders
Contra:- Erkennungsgeste zum aktivieren des Systems- Eingeschränkter Aktionsbereich
Video: Gestenerkennung
Quelle: TU München, Lehrstuhl für Mensch-Maschine-Kommunikation,http://www.mmk.ei.tum.de/demo/carvis/carvis.avi
Spracherkennung
Funktionsweise: Aufnahme von gesprochener Sprache und anschliessende Umwandlung in Steuerbefehle und Text.Pro: - Keine spezielle Hardware nötig (Mikrofon)- Natürlichste Form der menschlichen Kommunikation
Contra:- Umgebungsgeräusche / Andere Personen die
Sprechen behindern die Spracherkennung stark
BCI: Brain-Computer-Interface
Auswerten von elektrischer Hirnaktivität zur Erkennung von Befehlen die der Mensch „denkt“
Pro: - Direktverbindung, kein Umweg über ein verlustbehaftetes
Medium- Keine Codierung vom Menschen, nur Decodierung von der
Maschine.
Contra: - Datenschutz
- Lernbedarf seitens des Menschen?
Video: BBCI - Berlin Brain-Computer Interface
Zur Anzeige wird der QuickTime™ Dekompressor „mpeg4“
benötigt.
Quelle: Fraunhofer Institut Rechnerarchitektur und Softwaretechnik (FIRST), http://www.youtube.com/watch?v=yhR076duc8M
Probleme von einzelnen Interfaces
Jedes Interface hat spezifische Nachteile Das menschliche Gehirn hat mehr
Leistungsfähigkeit als ein einzelner Kommunikationskanal
Nicht für jeden Anwendungsbereich ist jedes Interface gleich gut geeignet
Multimodale Interfaces
Definition:
Multimodale Systeme verarbeiten zwei oder mehrere kombinierte
Benutzereingabemethoden wie Sprache, Stift, Berührung (Touchscreen), Gesten,
Blickrichtung oder Kopf- und Körperbewegung.
Vorteile Multimodaler Interfaces
Verbesserte Erkennung (z.B. Sprache und Lippenbewegung)
Schneller Intuitiv / Natürlich
Verschiedene Typen
Aktive Interfaces
Benutzer will aktiv mit System kommunizieren. Benutzer gibt explizite Kommandos an das
System. Klassische Interaktionsform
Befehl äussern
Befehl erfasstBefehl
ausführenDone
Auf Befehl warten
Ablauf:
Passive Interfaces
System soll Benutzer unterstützen, ohne dass er dies explizit anfordert.
System „überwacht“ Benutzer durch verschiedene Sensoren und erkennt gewisse Muster. Das System reagiert somit auf den Benutzer
und seine Umgebung. Mögliche Anwendung: Intelligente Räume
Passive Interfaces II
Schwierig zu implementieren
Kein Muster erkannt
Umgebung/User
überwachenXOR
Befehl (Muster) erkannt
Befehl ausführen
DoneAblauf:
Gemischte multimodale Interfaces
Vereinen mind. Einen aktiven und einen passiven Input.
Beispiel: Sprache und Lippenbewegung
Befehl erhalten
Befehl erfasst
Befehl ausführen
DoneAuf Befehl
warten
XORBefehl
(Muster) erkannt
V Inputs vergleichen
Inputs verglichen, Ergebnis erhalten
Umgebung/User
überwachenAblauf:
Zeitlich abgestufte Interfaces
Verarbeiten verschiedene Modalitäten, welche zeitlich aufeinander folgen.
Beispiel: Blick – Gestik – Sprache
Ablauf:Objekt mit
Blick fixierenObjekt
gewählt
Mit Hand an Ort zeigen
Ort gewählt
Kommando sprechen
Kommandoerfasst
Vollständigen Befehl
ausführenDone
Auf Input warten
Prinzipien für das Design von MM Interfaces
Synchronisation
MM Interface muss Mechanismen haben, welche garantieren, dass die verschiedenen Input-Streams korrekt miteinander verknüpft werden.
Beispiel: Point and Talk. Wichtigste Dimension bei Sprachinput ist die
Zeit. Bei visueller Interaktion: Raum.
Abschwächung/Anpassung I
MM Interfaces müssen analog der zwischenmenschlichen Kommunikation abschwächbar sein.
Beispiel: Telefongespräch. Wegfall aller visuellen Kommunikationsmittel.
Bei multimodalen Systemen:z.B. Veränderung der Umgebung
Abschwächung/Anpassung II
Zusätzliche (redundante) Modalitäten führen zu anpassungsfähigen Systemen.
Vorsicht bei sich gegenseitig ergänzenden Modalitäten
Sich verändernde Möglichkeiten beachten V.a. bei mobilen Systemen ist zu berücksichtigen,
dass sich die dem User zur Verfügung stehenden Möglichkeiten sehr schnell ändern können.
Gemeinsamer Status für verschiedene Modalitäten Wenn verschiedene Modalitäten für das
Ausführen einer Aktion eingesetzt werden, benötigen alle beteiligten Input-Streams einen gemeinsamen Interaktionsstatus.
Wichtig z.B. bei:Wechsel der ModalitätHistory Funktion
„Lost in space“ Problem
Verwirrung durch zu grosse Funktionalität Problem besteht bereits bei
herkömmlichen GUIs besteht das Problem.
Verschärfung des Problems durch zusätzliche Modalitäten.Benutzer mit intelligenten, angepassten
Dialogen führen.
Context Awareness
MM Interfaces sollten sich der Umgebung des Users anpassenBedürfnisse und Möglichkeiten des BenutzersDirekte Umgebung des BenutzersBandbreite
Beispiel MATCH
Multimodal Access To City Help (AT&T Labs 2001), Quelle: http://www.research.att.com/projects/MultimodalAccessToCityHelp/
Zur Anzeige wird der QuickTime™ Dekompressor „YUV420 codec“
benötigt.
Fragen?