Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des...
-
Upload
charlotte-lang -
Category
Documents
-
view
214 -
download
0
Transcript of Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des...
![Page 1: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/1.jpg)
Dr. Sven StrobelDPG - Arbeitsgruppe Information
18. März 2015, Berlin
Content Mining des TIB|AV-PortalsAutomatische Analyse und Verschlagwortung von AV-Medien
![Page 2: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/2.jpg)
22
Content Mining des TIB|AV-Portals
1. TIB|AV-Portal2. Sammlungsprofil3. Automatische Videoanalyse4. Automatische Verschlagwortung der AV-Medien5. Mehrwert des Portals
Inhalt
![Page 3: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/3.jpg)
3
Profil• Medienspezifisches Portal für wissenschaftliche Videos aus Technik & Naturwissenschaften• Automatische Videoanalyse mit Szenen-, Sprach-, Text- und Bilderkennung
av.getinfo.de
1. TIB|AV-Portal
Entwicklung: KNM und HPI (2011-2014)
Online-Gang: 29. April 2014
Zielgruppe• Wissenschaftler, Lehrende, Lernende
Inhalte• Videos aus Forschung und Lehre (Technik & Naturwissenschaften) • 2700 Videos / 1900 Filmnachweise (Feb. 2015)• Das Meiste unter Open Access
![Page 4: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/4.jpg)
44
Content Mining des TIB|AV-Portals
1. TIB|AV-Portal2. Sammlungsprofil3. Automatische Videoanalyse4. Automatische Verschlagwortung der AV-Medien5. Mehrwert des Portals
Inhalt
![Page 5: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/5.jpg)
55
2. Sammlungsprofil
• AV-Medien aus Wissenschaft und Lehre zu den Kernfächern der Technischen Informationsbibliothek:
• Architektur• Chemie• Informatik• Mathematik• Physik• Technik
![Page 6: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/6.jpg)
66
Sammlungsprofil
• Aus den genannten Fachgebieten werden u.a. folgende Materialien gesammelt:
• Aufzeichnungen von Konferenzbeiträgen, Vorlesungen und Podiumsdiskussionen
• Aufzeichnungen von Experimenten aus Forschung und Entwicklung
• Interviews• Massive Open Online Courses (MOOCs)• Dokumentationen von Forschungsarbeiten und -ergebnissen• filmische Vorstellungen von 3D-Modellen (z.B. aus Architektur)• Modellierung, Simulationen und Vorstellung von Spezialsoftware
Materialien
![Page 7: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/7.jpg)
77
Content Mining des TIB|AV-Portals
1. TIB|AV-Portal2. Sammlungsprofil3. Automatische Videoanalyse4. Automatische Verschlagwortung der AV-Medien5. Mehrwert des Portals
Inhalt
![Page 8: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/8.jpg)
8
3. Automatische VideoanalyseÜberblick über Prozesskette
• Zitierung und permanente Verlinkung• visuelles Inhaltsverzeichnis / zielgenauer Zugriff• Suche im geschriebenen Text des Videos
• Suche im gesprochenen Text des Videos
• Suche nach Bildmotiven
• Suche nach semantisch verknüpften Schlagworten
Ingest: AV-Medien + manuelle Metadaten 3.1 DOI-Vergabe 3.2 Szenenerkennung
3.3 Texterkennung
3.4 Spracherkennung
3.5 Bilderkennung
4. Named Entity Recognition
![Page 9: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/9.jpg)
9
3.1 DOI-VergabeDOI und MFI
Der Digital Object Identifier (DOI)
• … ist ein eindeutiger und permanenter digitaler Identifikator für Objekte wie z.B. AV-Medien.
• … wird durch den DOI-Service der TIB vergeben.
Verlinkung und Zitierung des gesamten Videodokuments
Der Media Fragment Identifier (MFI)
• … wird dem DOI hinzugefügt, um Teile des Videos zu adressieren.
Verlinkung und Zitierung einzelner Sekunden des Videos
![Page 10: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/10.jpg)
10
3.1 DOI-Vergabe
DOI
MFI
![Page 11: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/11.jpg)
11
3.2 Szenenerkennung
visuelles Inhaltsverzeichnis: Überblick über den Inhalt des Videos
• Shot Boundary Detection segmentiert das Video anhand von Bildmerkmalen in einzelne Segmente.
zielgenauer Zugriff auf Videoinhalt
![Page 12: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/12.jpg)
12
3.2 Szenenerkennung
Automatische Erkennung eines Schnittes anhand von
Kopf, S. (2006): Computergestützte Inhaltsanalyse von digitalen Videoarchiven. Dissertation, Mannheim.
• Helligkeit / Kontrast• Farbverteilung• Kanten
![Page 13: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/13.jpg)
13
3.2 Szenenerkennung
visuelles Inhaltsverzeichnis
zielgenauer Zugriff
![Page 14: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/14.jpg)
14
3.3 Texterkennung
Volltextsuche in den geschriebenen Texten des Videos (Texteinblendungen, Vorlesungsfolien …)
• Optical Character Recognition (OCR) indexiert geschriebene Sprache im Video und macht sie somit durchsuchbar.
![Page 15: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/15.jpg)
15
3.3 TexterkennungTexteinblendung
![Page 16: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/16.jpg)
16
3.3 TexterkennungVorlesungsfolie
![Page 17: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/17.jpg)
17
3.4 Spracherkennung
Volltextsuche im gesprochenen Text des Videos
• Speech to Text notiert die gesprochene Sprache im Video in Form eines Transkripts.
![Page 18: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/18.jpg)
18
3.4 Spracherkennung
![Page 19: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/19.jpg)
19
3.5 Bilderkennung
Suche nach Bildmotiven wie z.B. Computeranimation, Experiment oder Mikroskopie
• Visual Concept Detection indexiert das Bewegtbild mit fächerübergreifenden und fachspezifischen visuellen Konzepten.
Manuell annotierte Keyframes
Liegt Konzept vor?
Keyframe
Falls ja
„Experiment“
Verschlagwortung des Labels
Training
Klassifikator, Label „Experiment“
![Page 20: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/20.jpg)
20
3.5 Bilderkennung
![Page 21: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/21.jpg)
2121
Content Mining des TIB|AV-Portals
1. TIB|AV-Portal2. Sammlungsprofil3. Automatische Videoanalyse4. Automatische Verschlagwortung der AV-Medien5. Mehrwert des Portals
Inhalt
![Page 22: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/22.jpg)
22
4. Automatische Verschlagwortung der AV-Medien
• Named Entity Recognition: Zuordnung von Begriffen eines Referenzvokabulars auf analysierte Textinhalte.
Named Entity Recognition
GND = Gemeinsame Normdatei
63.000 GND-Sachbegriffe
Referenzvokabular
OCR-TranskriptOCR-Transkript
OCR-Transkript
OCR-Transkript
SprachtranskriptSprachtranskript
SprachtranskriptSprachtranskript
Analysierte Textinhalte
![Page 23: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/23.jpg)
23
Named Entity RecognitionMapping der GND-Sachbegriffe
disambiguiereThermodynamik
Kontext
finde Mapping-Kandidaten im OCR-
/Sprachtranskript
ThermodynamikThermodruckThermoanalyseThermoanzugThermeThermalbad...
ThermodynamikWärmelehreWärmetheorie…
Bezeichner
http://d-nb.info/gnd/4059827-5
![Page 24: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/24.jpg)
24
Verschlagwortung auf Segmentebene
![Page 25: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/25.jpg)
2525
Vorteile der automatischen Verschlagwortung
1. GND-Sachbegriffe werden als Indexterme verwendetstandardisierte Erschließung mit kontrolliertem Vokabular
zielgenaue Suche innerhalb des Videos
höhere Precision (Genauigkeitsrate) im Retrieval
2. GND-Sachbegriffe werden zeitbezogen entsprechend der Videosegmentierung zugewiesen
3. GND-Sachbegriffe werden fachbezogen zugewiesen (z.B. Physikvokabular für Physikvideos)
4. GND-Sachbegriffe stehen in semantischen Beziehungen zueinanderErweiterung der Treffermenge durch Einbezug von Synonymen, Ober- und Unterbegriffen
![Page 26: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/26.jpg)
2626
Content Mining des TIB|AV-Portals
1. TIB|AV-Portal2. Sammlungsprofil3. Automatische Videoanalyse4. Automatische Verschlagwortung der AV-Medien5. Mehrwert des Portals
Inhalt
![Page 27: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/27.jpg)
2727
5. Mehrwert des TIB|AV-Portals
Rezipienten Produzenten
• Innovative Suchmöglichkeiten• Mehrsprachige Suche• Segmentgenauer Zugriff• Segmentgenaues Zitieren • Herunterladen, Bestellen, Lizenzieren• Einbetten auf anderen Webseiten • Empfehlungen
• Video-Upload• Hosting • Qualitätsprüfung• Standardisierte Erschließung• Sprachtranskription• DOI-Vergabe• Langzeitarchivierung• Rechtssicherheit
![Page 28: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von.](https://reader034.fdocument.pub/reader034/viewer/2022052704/570491c61a28ab14218db236/html5/thumbnails/28.jpg)
Vielen Dank für Ihre Aufmerksamkeit!