Drongo: Zoeken in Audiovisuele Documenten
Transcript of Drongo: Zoeken in Audiovisuele Documenten
DRONGOZoeken in AV-docs
Taal- en Spraaktechnologie voor het ontsluiten van opgenomen
AV-documenten
Arjan van Hessen
CLARIAHEen infrastructuurprogramma waarmee het mogelijk moet worden dat alle onderzoekers uit de geesteswetenschappen moderne Taal- en Spraaktechnologie op een eenvoudige wijze kunnen gebruiken HMI
Onderzoek naar het toepassen van Spraaktechnologie in multi-modale mens-machine communicatie.
TelecatsToepassen van de nieuwste ontwikkelingen op het gebied van TST in daadwerkelijk werkende applicaties voor men-machine communicatie
WAT IS DAT: TAAL?
Wat is Taal?
Taal heeft in het algemeen betrekking op elke min of meer complexe vorm van communicatie in de vorm van uitingen, die gezamenlijk een systeem vormen. De betekenis van de uitingen (spraak, gebaar, schrift) wordt bepaald door:• de vorm ervan• de volgorde waarin ze geuit worden
Het vermogen taal te leren is aangeboren.
De uitingsvorm van taal is aangeleerd
De mate waarin taal geleerd kan worden neemt sterk af na je 16de
Wat is Taal?TAAL
spraakschrift
gebaren-taal
lichaams-taal
De mens als talig wezenDe ontwikkeling van de menselijke taal (of spraak) is waarschijnlijk 100.000 jaar geleden begonnen.Daarvóór hadden de menselijke kaak, de mond en de larynx de verkeerde vorm om woorden te vormen. (iets dat we nu nog bij apen zien)
De mens als talig wezenHet pictografische schrift (3300 AD Sumer, Mesopotamië) is voor zover bekend, de oudste geschreven taal.
-3300schrift
-10.000landbouw
-100.000spraak
NU
Wat is Taal en Spraaktechnologie (TST)?Taal- en Spraaktechnologie (TST) is de technologie die zich richt op het imiteren door computers van het talige deel van de menselijke communicatie.
Doel:• Het mogelijk maken op “natuurlijke” wijze met
apparaten te communiceren• De Turingtest winnen
VASTLEGGEN VAN INFORMATIE
3300 BC – nuOmzetten van talige informatie in…....
Vastleggen van TaalHet pictografische schrift (3300 AD Sumer, Mesopotamië) is voor zover bekend, de oudste geschreven taal.
Stijging aantal boeken
Vastleggen origineel
Stijging AV-data
ONTSTLUITING WORDT EEN PROBLEEM
Juiste metadata nodig over:• Standaard zaken (naam, datum, drager, eigenaar, onderwerp)• Inhoud (overall, en per fragment)
Standaard metadata
Dynamic MetadataStatic Metadata
MetadataBestandsniveau
Bestandsniveau
Bestandsniveau
Bestandsniveau
Bestandsniveau
Topic 1( T1 T2)
Topic 2( T3 T4)
Topic 2( T5 T6)
Hfdst. 1( T1* T2*)
Hfdst. 2( T3* T4*)
Spreker 1( T1” T2”)
Spreker 2( T3” T4”)
Spreker 1( T5” T6”)
Spreker 1&2( T7” T8”)
? ? ? ?
Collectie niveau
Waar gaat het over?Wie spreken er?
Welke taal?Wat is het niveau?Hoe kan ik er bij?
ONTSLUITENZoeken en relevante resultaten terugkrijgen
Spraakherkenning
Zeer sterke verbetering door beschikbaarheid van:•Massieve hoeveelheid data
(spraak en tekst)• Bijna onbeperkte rekencapaciteit
(cloud computing)• Deep Learning Algoritmes
WORDT HET AL GEBRUIKT?
FIODspraak
Spraaktechnologie voor ondersteuning FIOD-medewerkersbij verwerken opgenomen AV-gesprekken
Voor zoeken naar- en terugluisteren van speciale passages
Partners
Tweede Kamer
Universiteit van Nederland
EN DIT WAS ÉÉN AV-BESTAND
Bepaal de topics-in-time van alle bestanden
A A A
B B B
C C C
B
CC
AAA
B
Ontstaan van Heelal
Eeuwige jeugd bereikbaar?Verliefdheid bij
honden
Terrorisme
Search
Omgangsrecht
Topic 7
MOOC X (T1-T2)MOOC X (T3-T4)
Interview Q (T5-T6)Documentary W (T7-
T8)PPT 12 (S10-S12)
PPT 19 (S1-S7)Keynote 99 (S9-S11)
Topic clustering• Bijeen brengen van verschillende bronnen
die over het zelfde onderwerp gaan.
TOPICWeekers
AUTOMATISCH VERTALENVergroten zichtbaarheid “lokale” AV-bestanden
Spraakherkenning• Niet (=nooit) perfect, maar is ondertiteling noodzakelijk?• Doe eerste stap met de machine, vraag daarna “mensen”
om hulp
SpraakherkenningImperfect resultaat Crowd sourcing Perfect
resultaat
Imperfect resultaat
Crowd sourcingPerfect resultaat
Fase A Fase B
Fase CFase D
WAT MISSEN WE NOG?
Zoeken en Tonen 2016
Zoeken• String-match• Semantisch zoeken• Conceptueel zoeken
Presenteren zoekresultaten• Alfabetisch?• Op tijd?• Op relevantie?
Zoeken en Tonen 2016Zoekwoord:
10x in document
Document bevat 8000 woorden
Heeft 4§ en zoek-woorden zijn homogeen verdeeld
Zoekwoord: 15x in document
Document bevat 20000 woorden
Heeft 2§ en in 1§ komen alle zoekwoorden voor
Social Signals in Spraak
EMOTIE
HOE GAAN WE DIT DOEN?AI, KI, ML, DNN
Deep Learning
Deep Learning
Het leren gebeurt door het aanpassen van de verschil-lende gewichten (wi) en hoe je dat doet (lineaire, of anders)
See: http://www.amax.com/blog/?p=804
VRAGEN ?