Ein Softwarepaket zum Verwalten Analysieren und Annotierenvon Schallsignalen
SOFTWARESOFTWARE
STXSTX
ENTWICKLUNGENTWICKLUNG
Entwickelt am Institut für Schallforschungder Österreichischen Akademie der Wissenschaften
Die Software ist auf unserer Homepage verfügbar www.kfs.oeaw.ac.at
EchtzeitanalyseAnalyse und graphische Darstellung von Signalen in Echtzeit
Signalanalyse, Segmentierung und Annotierung- Benutzerdefinierte Analyseprofile - Parallele graphische Darstellung von Wellenform, Spektrogramm (FFT, LPC, Wavelet, ...) und Parameterverläufen (rms, f0, Formanten, …) - Annotierungen mit Attributvorlagen- lokales Detailspektrum (Sektion)
Analyse Annotierung
Verwaltung von Signalen und EinstellungenWorkspace - Sammelstelle für Programmeinstellungen und Projektdateien.
Hier erfolgt die Auswahl von Signalen, Verarbeitungsprofilen und Benutzerscripts.
RecorderAufnahme von Signalen mit Signalaussteuerung und Tagging.
Input OutputVerwaltung
Wave-InWave-Out
Dateien:Wave, XML,
Text etc.
TCP/IP
DCOM (z.B.: ↔ R)DDE (z.B.: ↔ Excel)
Clipboard
Schnitt-stellen
Kommandozeile EntwicklungsumgebungAusführung von Scriptbefehlen für die interaktive Entwicklung von Scripts.
DebuggingumgebungInteraktives Debugging von Scripts mit Breakpoints, Funktionsstack, Umgebungsinspektor etc.
EntwicklungAnwendungs-programmierung
Spektrogramme – Zeit-Frequenz SignaldarstellungenVergleich verschiedener Spektrogramme des Sprachsignals „kreidebleich“
Zeit Zeit
Freq
uenz
Freq
uenz
Kurzzeit-Fouriertransformation (STFT)Konstante, frequenzunabhängige Zeit- und Frequenzauflösung
konstante Bandbreite
Wavelet-Transformation (Typ: Morlet)Hohe Frequenzauflösung bei niedrigen FrequenzenHohe Zeitauflösung bei hohen Frequenzen
konstantes Verhältnis von Bandbreite zuMittenfrequenz
Spektrogramm = Signalamplitude als Funktion von Zeit und Frequenz = Zeit-Frequenz Darstellung
Sprachanalyse – Spektrogramm und SprachparameterBerechnung und Darstellung von Sprachsignalen und grundlegenden Sprachparametern
Segmentmarkierung Zeitbereich und Metadaten(z.B. Transkription)
SpektrogrammZeit-Frequenz Analyse =Schalldruck als Funktion von Zeit und Frequenz
Grundfrequenz (f0) Tonhöhenverlauf (Prosodie)
Wellenformzeitlicher Verlauf des Schalldruckes
FormantfrequenzenResonanzen des Vokaltrakts
Die berechneten Parameter können graphisch editiert (korrigiert), zur weiterverarbeitung im Workspace gespeichert und / oder exportiert werden.
MULAC – Frame-Multiplier in AcoucsticsFramework für die Entwicklung, Testung und Anwendung von Frame-Multipliern (siehe Projekt „MulAc“)
x =
Die Definition von Modifikationen (Masken) erfolgt durch die graphischeAuswahl des Zeit-Frequenz-Ausschnitts (Polygon) und die Angabe von Methode und Parametern.
Die Erzeugung der Masken kann signalgetrieben (adaptiv) odersignalunabhängig erfolgen.
Auslöschung(0-setzen der Amplitude)
Irrelevanzfilter(Übermaskierung)
AdaptivesKammfilter
Zeit [s]Zeit [s] Zeit [s]
Fr
eque
nz [k
Hz]
Original(mongolischer Obertongesang)
Modifikationsmatrix(„Maske“)
Modifiziertes Signal
Schwarz = 1 = keine ÄnderungWeiss = 0 = Auslöschung
Analyse und Resyntheseerfolgen derzeit mittels Gaborframes.
Andere Methoden mit variabler Zeit / Frequenz-Auflösung (z.B. basierend auf Wavelets) sind geplant.
SPExL – Graphisch / Akustisch unterstützte TranskriptionBenutzerfreundliches, rasches Segmentieren, Transkribieren und Annotieren umfangreicher Tondokumente
- Userinterface optimiert für Tastatureingabe (d.h. möglichst wenige Wechsel zwischen Maus und Tastatur)
- Graphiklayout, GUI und Signaldarstellungen sind konfigurierbar.
- Segmentattribute können anwendungsbezogen definiert werden (Segment-Templates)
- Paralleles Arbeiten im Workspace ist möglich (Kontrollhören, Korrektur, Detailanalyse)
Wellenform + Segmentmarkierung
Spektrogramm + Transkription + (optional) f0, Formanten; schnelles Umschalten zwischen Schmal- und Breitbandanalyse möglich
Scroll + Zoom synchron für Wellenform und Spektrogramm
Steuerung auch über Hotkeys und Kontextmenü verfügbar
Segmentliste + Editor
Anwendungen vor allem in der Phonetik, Phonologie und Forensik
RETISIMO – REalTIme SIgnal MOdificationAllgemeines Framework für Signalprocessing und Spektrumanalyse von Stereosignalenin Echtzeit (Anwendung der Frame-Multiplier, siehe Projekt „MulAc“)
Inpu
t P
repr
oces
sing
Out
put
Pos
tpro
cess
ing
Inpu
tM
ultip
lexe
r
Ana
lyse
Syn
thes
eS
ynth
ese
Pro
cess
ing
Mod
ul
Ana
lyse
Leve
l-m
eter
Gra
fik(S
pekt
ren,
PP
M
und
vom
Pro
cess
ing-
M
odul
abh
änig
e Fu
nktio
nen)
Implementierte Prozessing Module:
Framework-Modul
Processing-Modul; austauschbar
1. Standardfilter (Tiefpass, Hochpass, Bandpass)
2. Graphisch definierte Filter3. HRTF-Rendering mit
3D Quellenpositionierung4. Sprachsynthese und
3D Vokaltraktmodell5. Rauschunterdrückung
(Signalverbesserung)6. Irrelevanzfilter
(Simultanmaskierung)
Zeitbereich x(t) Spektrum a(f),φ(f) Zeitbereich y(t)
Out
put
Mul
tiple
xer
Framework-Modul; Funktion teilweiseabhängig von Processing-Modul
Wave-Inoder
Soundfile
Wave-OutoderSoundfile
Ext
erne
3D
Gra
phik
(z.B
. für
HR
TF,
Spr
achs
ynth
es)
LAN
Ext
erne
Dat
en(z
.B.:
HR
TFs,
Fi
lters
pekt
ren
Spr
achd
aten
)
Externe Programme und Daten;abhängig von Processing-Modul
Blockdiagramm:
File
s
RETISIMO Modul – IrrelevanzfilterEntfernung nicht hörbarer („irrelevanter“) Teile von Klängen mittels Simultanmaskierung
Blockdiagramm:
Maskierungs-spektrum
Maskierungs-filter
Irrelevanzfilter
Irrelevanzspektrumy(f)
Signalspektrumx(f)
Anwendungen:
• In der Signalanalyse (Informationsreduktion)
• Übermaskierung = Trennung starker („Vordergrund“) und schwacher („Hintergrund“) Signalteile
• In der Signalkodierung; „perzeptive Coder“ z.B.: MP3
y(f)=x(f)
0
für x(f)>m(f)
für x(f)≤m(f)
Pegel-adaptierung
AdapierungsparameterMaskierungsparameter
Frequenz in Bark (= perzeptive Frequenzskala)
Am
plitu
de in
dB Maskierungs-
ton
Psychoakustisches Modell der Simultanmaskierung von Sinustönen
Testton 2hörbar
Testton 1nicht hörbar(„maskiert“)
Maskierungsfunktionabhängig von Frequenz und Amplitude des Maskierungstones
IrrelevanzspektrumSignalspektrum
Maskierungsspektrum
RETISIMO Modul – Sprachsynthese Formant-Synthesizer (Dennis H. Klatt; JASA 67/3, 1980) und Berechnung der Vokaltraktquerschnitte mittels LPC (Linear Prediction Coding)
Blockdiagramm:
PulsGenerator
RauschGenerator
Mix Vokaltraktfilter LPC Analyse
Formant-SynthesizerGrundfrequenzund Amplitude
Amplitude Formanten (Frequenz, Amplitude, Bandbreite)
Sprachsignal
Die Syntheseparameterwerden über Dialogund Grafik eingegebenoder von einemSprachdatenfilegelesen Filter-
spektrum
Vokaltraktmodell
Querschnitts-koeffizienten
Amplituden-spektrum desSprachsignals
Formanten
RETISIMO Modul – HRTF-RenderingSimulation einer im Raum positionierbaren Quelle mittels gemessener oder berechneter HRTFs (HRTF = Head Related Transfer Function = individuelle Außenohr-Übertragungsfunktion)
Blockdiagramm:
Filterspektrum-generator
Filter links
HRTF-Rendering
Output links
Filter rechts Output rechts
Input (mono)
Position der Quelle(Distanz r, Azimuth α,
Elevation β)
HRTF DatenbasisH(α,β)
HRTFlinks
HRTFrechts
z.B.: Azimuth=45°, Elevation=0°(Quelle vorne, links in Kopfebene)
Beim Rendering werden das HRTF-Spektrum,die Zeitdifferenz zwischen den Ohren und die Distanz zur Quelle berücksichtigt.
Top Related