Download - Ein Softwarepaket zum Verwalten Analysieren und Annotieren von Schallsignalen

Transcript

Ein Softwarepaket zum Verwalten Analysieren und Annotierenvon Schallsignalen

SOFTWARESOFTWARE

STXSTX

ENTWICKLUNGENTWICKLUNG

Entwickelt am Institut für Schallforschungder Österreichischen Akademie der Wissenschaften

Die Software ist auf unserer Homepage verfügbar www.kfs.oeaw.ac.at

Page 2: Ein Softwarepaket zum Verwalten Analysieren und Annotieren von Schallsignalen

EchtzeitanalyseAnalyse und graphische Darstellung von Signalen in Echtzeit

Signalanalyse, Segmentierung und Annotierung- Benutzerdefinierte Analyseprofile - Parallele graphische Darstellung von Wellenform, Spektrogramm (FFT, LPC, Wavelet, ...) und Parameterverläufen (rms, f0, Formanten, …) - Annotierungen mit Attributvorlagen- lokales Detailspektrum (Sektion)

Analyse Annotierung

Page 3: Ein Softwarepaket zum Verwalten Analysieren und Annotieren von Schallsignalen

Verwaltung von Signalen und EinstellungenWorkspace - Sammelstelle für Programmeinstellungen und Projektdateien.

Hier erfolgt die Auswahl von Signalen, Verarbeitungsprofilen und Benutzerscripts.

RecorderAufnahme von Signalen mit Signalaussteuerung und Tagging.

Input OutputVerwaltung

Wave-InWave-Out

Dateien:Wave, XML,

Text etc.

TCP/IP

DCOM (z.B.: ↔ R)DDE (z.B.: ↔ Excel)

Clipboard

Schnitt-stellen

Page 4: Ein Softwarepaket zum Verwalten Analysieren und Annotieren von Schallsignalen

Kommandozeile EntwicklungsumgebungAusführung von Scriptbefehlen für die interaktive Entwicklung von Scripts.

DebuggingumgebungInteraktives Debugging von Scripts mit Breakpoints, Funktionsstack, Umgebungsinspektor etc.

EntwicklungAnwendungs-programmierung

Page 5: Ein Softwarepaket zum Verwalten Analysieren und Annotieren von Schallsignalen

Spektrogramme – Zeit-Frequenz SignaldarstellungenVergleich verschiedener Spektrogramme des Sprachsignals „kreidebleich“

Zeit Zeit

Freq

uenz

Freq

uenz

Kurzzeit-Fouriertransformation (STFT)Konstante, frequenzunabhängige Zeit- und Frequenzauflösung

konstante Bandbreite

Wavelet-Transformation (Typ: Morlet)Hohe Frequenzauflösung bei niedrigen FrequenzenHohe Zeitauflösung bei hohen Frequenzen

konstantes Verhältnis von Bandbreite zuMittenfrequenz

Spektrogramm = Signalamplitude als Funktion von Zeit und Frequenz = Zeit-Frequenz Darstellung

Page 6: Ein Softwarepaket zum Verwalten Analysieren und Annotieren von Schallsignalen

Sprachanalyse – Spektrogramm und SprachparameterBerechnung und Darstellung von Sprachsignalen und grundlegenden Sprachparametern

Segmentmarkierung Zeitbereich und Metadaten(z.B. Transkription)

SpektrogrammZeit-Frequenz Analyse =Schalldruck als Funktion von Zeit und Frequenz

Grundfrequenz (f0) Tonhöhenverlauf (Prosodie)

Wellenformzeitlicher Verlauf des Schalldruckes

FormantfrequenzenResonanzen des Vokaltrakts

Die berechneten Parameter können graphisch editiert (korrigiert), zur weiterverarbeitung im Workspace gespeichert und / oder exportiert werden.

Page 7: Ein Softwarepaket zum Verwalten Analysieren und Annotieren von Schallsignalen

MULAC – Frame-Multiplier in AcoucsticsFramework für die Entwicklung, Testung und Anwendung von Frame-Multipliern (siehe Projekt „MulAc“)

x =

Die Definition von Modifikationen (Masken) erfolgt durch die graphischeAuswahl des Zeit-Frequenz-Ausschnitts (Polygon) und die Angabe von Methode und Parametern.

Die Erzeugung der Masken kann signalgetrieben (adaptiv) odersignalunabhängig erfolgen.

Auslöschung(0-setzen der Amplitude)

Irrelevanzfilter(Übermaskierung)

AdaptivesKammfilter

Zeit [s]Zeit [s] Zeit [s]

eque

nz [k

Hz]

Original(mongolischer Obertongesang)

Modifikationsmatrix(„Maske“)

Modifiziertes Signal

Schwarz = 1 = keine ÄnderungWeiss = 0 = Auslöschung

Analyse und Resyntheseerfolgen derzeit mittels Gaborframes.

Andere Methoden mit variabler Zeit / Frequenz-Auflösung (z.B. basierend auf Wavelets) sind geplant.

Page 8: Ein Softwarepaket zum Verwalten Analysieren und Annotieren von Schallsignalen

SPExL – Graphisch / Akustisch unterstützte TranskriptionBenutzerfreundliches, rasches Segmentieren, Transkribieren und Annotieren umfangreicher Tondokumente

- Userinterface optimiert für Tastatureingabe (d.h. möglichst wenige Wechsel zwischen Maus und Tastatur)

- Graphiklayout, GUI und Signaldarstellungen sind konfigurierbar.

- Segmentattribute können anwendungsbezogen definiert werden (Segment-Templates)

- Paralleles Arbeiten im Workspace ist möglich (Kontrollhören, Korrektur, Detailanalyse)

Wellenform + Segmentmarkierung

Spektrogramm + Transkription + (optional) f0, Formanten; schnelles Umschalten zwischen Schmal- und Breitbandanalyse möglich

Scroll + Zoom synchron für Wellenform und Spektrogramm

Steuerung auch über Hotkeys und Kontextmenü verfügbar

Segmentliste + Editor

Anwendungen vor allem in der Phonetik, Phonologie und Forensik

Page 9: Ein Softwarepaket zum Verwalten Analysieren und Annotieren von Schallsignalen

RETISIMO – REalTIme SIgnal MOdificationAllgemeines Framework für Signalprocessing und Spektrumanalyse von Stereosignalenin Echtzeit (Anwendung der Frame-Multiplier, siehe Projekt „MulAc“)

Inpu

t P

repr

oces

sing

Out

put

Pos

tpro

cess

ing

Inpu

ultip

lexe

Ana

lyse

Syn

thes

ynth

ese

Pro

cess

ing

Mod

Ana

lyse

Leve

l-m

eter

Gra

fik(S

pekt

ren,

und

vom

Pro

cess

ing-

odul

abh

änig

e Fu

nktio

nen)

Implementierte Prozessing Module:

Framework-Modul

Processing-Modul; austauschbar

1. Standardfilter (Tiefpass, Hochpass, Bandpass)

2. Graphisch definierte Filter3. HRTF-Rendering mit

3D Quellenpositionierung4. Sprachsynthese und

3D Vokaltraktmodell5. Rauschunterdrückung

(Signalverbesserung)6. Irrelevanzfilter

(Simultanmaskierung)

Zeitbereich x(t) Spektrum a(f),φ(f) Zeitbereich y(t)

Out

put

Mul

tiple

xer

Framework-Modul; Funktion teilweiseabhängig von Processing-Modul

Wave-Inoder

Soundfile

Wave-OutoderSoundfile

Ext

erne

Gra

phik

(z.B

. für

TF,

Spr

achs

ynth

es)

LAN

Ext

erne

Dat

en(z

.B.:

TFs,

lters

pekt

ren

Spr

achd

aten

)

Externe Programme und Daten;abhängig von Processing-Modul

Blockdiagramm:

File

Page 10: Ein Softwarepaket zum Verwalten Analysieren und Annotieren von Schallsignalen

RETISIMO Modul – IrrelevanzfilterEntfernung nicht hörbarer („irrelevanter“) Teile von Klängen mittels Simultanmaskierung

Blockdiagramm:

Maskierungs-spektrum

Maskierungs-filter

Irrelevanzfilter

Irrelevanzspektrumy(f)

Signalspektrumx(f)

Anwendungen:

• In der Signalanalyse (Informationsreduktion)

• Übermaskierung = Trennung starker („Vordergrund“) und schwacher („Hintergrund“) Signalteile

• In der Signalkodierung; „perzeptive Coder“ z.B.: MP3

y(f)=x(f)

für x(f)>m(f)

für x(f)≤m(f)

Pegel-adaptierung

AdapierungsparameterMaskierungsparameter

Frequenz in Bark (= perzeptive Frequenzskala)

plitu

de in

dB Maskierungs-

ton

Psychoakustisches Modell der Simultanmaskierung von Sinustönen

Testton 2hörbar

Testton 1nicht hörbar(„maskiert“)

Maskierungsfunktionabhängig von Frequenz und Amplitude des Maskierungstones

IrrelevanzspektrumSignalspektrum

Maskierungsspektrum

Page 11: Ein Softwarepaket zum Verwalten Analysieren und Annotieren von Schallsignalen

RETISIMO Modul – Sprachsynthese Formant-Synthesizer (Dennis H. Klatt; JASA 67/3, 1980) und Berechnung der Vokaltraktquerschnitte mittels LPC (Linear Prediction Coding)

Blockdiagramm:

PulsGenerator

RauschGenerator

Mix Vokaltraktfilter LPC Analyse

Formant-SynthesizerGrundfrequenzund Amplitude

Amplitude Formanten (Frequenz, Amplitude, Bandbreite)

Sprachsignal

Die Syntheseparameterwerden über Dialogund Grafik eingegebenoder von einemSprachdatenfilegelesen Filter-

spektrum

Vokaltraktmodell

Querschnitts-koeffizienten

Amplituden-spektrum desSprachsignals

Formanten

Page 12: Ein Softwarepaket zum Verwalten Analysieren und Annotieren von Schallsignalen

RETISIMO Modul – HRTF-RenderingSimulation einer im Raum positionierbaren Quelle mittels gemessener oder berechneter HRTFs (HRTF = Head Related Transfer Function = individuelle Außenohr-Übertragungsfunktion)

Blockdiagramm:

Filterspektrum-generator

Filter links

HRTF-Rendering

Output links

Filter rechts Output rechts

Input (mono)

Position der Quelle(Distanz r, Azimuth α,

Elevation β)

HRTF DatenbasisH(α,β)

HRTFlinks

HRTFrechts