Multimodális beszéd

60
Multimodális beszéd Facial Animation alapjai (szabványok, rendszerelemek, megvalósítások) Srancsik Bálint Pázmány Péter Katolikus Egyetem Információs Technológiai Kar

description

Pázmány Péter Katolikus Egyetem Információs Technológiai Kar. Multimodális beszéd. Facial Animation alapjai (szabványok, rendszerelemek, megvalósítások). Srancsik Bálint. Miért fontos a FA?. Többletinformációt adhat Érzelem kifejezése Zajos környezetben növeli az érthetőséget - PowerPoint PPT Presentation

Transcript of Multimodális beszéd

Page 1: Multimodális beszéd

Multimodális beszéd

Facial Animation alapjai

(szabványok, rendszerelemek, megvalósítások)

Srancsik Bálint

Pázmány Péter Katolikus EgyetemInformációs Technológiai Kar

Page 2: Multimodális beszéd

Miért fontos a FA?

• Többletinformációt adhat

• Érzelem kifejezése• Zajos környezetben

növeli az érthetőséget• Hallók és siketek közti

kommunikáció• stb…

Page 3: Multimodális beszéd

FA jellegzetességei

Beszéd• Intonáció• Hangerő• Ritmus• Hangszín

• Fonéma

• 8000 - 48000 Hz

Vizuális beszéd• Ajak• Nyelv• Fogak• Arcpofa

• Vizéma

• 25 - 100 fps

Page 4: Multimodális beszéd

Magyar vizémakészletMGH MSH

E B, P, M

É F, V

I T, D, N

Ö, O R

Ü, U SZ, Z, C, DZ

Á L

A S, ZS, CS, DZS

TY, GY, J, NY

K, G

H

Page 5: Multimodális beszéd

Teszt

Page 6: Multimodális beszéd

Teszt eredmény (MSH)

Page 7: Multimodális beszéd

Mi köze a FA-nek az informatikához vagy a távközléshez?

• Filmek• Játékok• Web• Videotelefon• Mesterséges intelligencia• Virtuális lények• stb…

Page 8: Multimodális beszéd

FA – informatikai megközelítés

Kutató• Modellezési és

animálási eljárások• Face tracking (real

time)• Beszélő fejek hang

alapján• stb…

Művész• FA csak egy része

a projektnek• A létező legjobb

eljárást használják• „Létező” azt jelenti,

hogy a 3D-s szoftverbe be van építve

Page 9: Multimodális beszéd

FA – informatikai megközelítés

Kutató MűvészMPEG-4

Page 10: Multimodális beszéd

De az MPEG-4 nem a tömörítésről szól?

• Főként!• A szabvány elkészítéséhez sok

munkacsoportot hoztak létre• Az egyik a Synthetic Natural Hybrid Coding

lett. (SNHC) Feladata pl. a 2D-s és 3D-s grafikák bevezetése a szabványba

• SNHC egy része a Face and Body Animation (FBA) lett. Feladata az arc képének kódolás és dekódolása

Page 11: Multimodális beszéd

Encoder és decoder

Encoder

?

Decoder

?Adat

formátum

Az MPEG-4 FBA-ban nincs szabványosítva a kódoló és a

dekódoló

Page 12: Multimodális beszéd

Paraméterezés

Page 13: Multimodális beszéd

Az ideális paraméterezés

• Ábrázolhatóság• Használhatóság• Kidolgozottság• Orthogonalitás• Absztrakciós képesség• Megjósolhatóság• Hordozhatóság• Mérhetőség• Hatékonyság

Page 14: Multimodális beszéd

Az MPEG-4 FA ideális?

Megvizsgáljuk!

Előtte azonban néhány kifejezés:

FDP – Face Definition Parameter

FP – Feature Point

FAP – Facial Animation Parameter

FAPU – Facial Animation Parameter Unit

(FAT – Face Animation Tables)

Page 15: Multimodális beszéd

FDP

Feladata a 2 vagy 3 dimenziós modell alakjának, textúrájának leírása. Ezen felül alapot szolgáltat az animáláshoz, de magát a mozgatást nem ő végzi.

Az FDP lényegében arra használják, hogy egy általános arcból egy egyedi arcot definiáljanak.

Az arc alakjának definiálására használják az FP-ket.

Page 16: Multimodális beszéd

FP

Page 17: Multimodális beszéd

FP

Az MPEG-4 84 FP-t határoz meg a természetes arc leírásához.

Egy MPEG-4 kompatibilis modellhez az FP-k helyzetének pontos ismerete szükséges

Az FP-ket két részre lehet osztani:

Más FP-kel mozgatott FP-k•FAP-ok által mozgatott FP-k

mozgatják•Csak definiálnak•Pl.: Hajon lévők

Külön mozgatott FP-k•FAP-ok mozgatják

•Definiálnak és mozgatnak•Pl.: Ajak körvonalán lévők

Page 18: Multimodális beszéd

FAPAz FP mozgatása a

feladata. Tehát lényegében az animálás.

Az encoder és a decoder között ezek mennek át.

A szabvány 68 paramétert különböztet meg 10 csoporban.

FAP-ok reprezentálják az alap arcmozgásokat.

Page 19: Multimodális beszéd

FAPAz első csoportba tartozó két FAP magas

szintű paraméter -> előre definiált komplexebb mozgásokat lehet végrehajtani velük.

1. Vizéma

Az angol fonémáknak megfelelő vizémákat állítják elő.

2. Arckifejezés

A hat alapérzelem kifejezésére használják.

(Ezek kombinálásából több is előállítható)

Page 20: Multimodális beszéd

FAPA többi 66 FAP alacsony szintű FAP.

Ez azt jelenti, egy vagy több FP-t mozgat. (Akár az összes FP-t)

Az alacsony szintű FAP-oknak nagyobb a prioritása.

Egy FAP lehet egy- vagy többirányú.

A szabvány miden egyes FAP-ra definiálja a pozitív irányú mozgást illetve hogy egy- (U) vagy többirányú (B).

Page 21: Multimodális beszéd

FAPA mozgatás során a kívánt FAP-oknak

megfeleltetünk egy-egy értéket.

Pl.: (FAP 17)=100

De mit jelent, hogy 100?

- mm?- egység?- pixel?

A válasz: hat féle mértékegység van:

IRISD; ES; ENS; MNS; MW; AU

Page 22: Multimodális beszéd

FAPU

Page 23: Multimodális beszéd

FAPUA konkrét mértékegységek a következők:

IRISD=IRISD0/1024

ES=ES0/1024

ENS=ENS0/1024

MNS=MNS0/1024

MW=MW0/1024

AU=10E-5 rad

Page 24: Multimodális beszéd

FAPUA FAPU minden modellre más és más.

A szabvány leírja, hogy melyik FAP-ot melyik FAPU-ban mérik.

Tehát a FAPU modellfüggő, MPEG-4 szabványú modell mozgatásához elengedhetetlen ezek ismeret.

17 push_t_lip Depth displacement of top middle lip

MNS B forward 2 2 1 +-1080 +-360

Page 25: Multimodális beszéd

FA megvalósításaTehát az MPEG-4 szabvány leírja, hogy

hogyan mozognak az FP-k a FAP-ok függvényében.

De hogyan mozog a modell az FP-k függvényében?

Page 26: Multimodális beszéd

Grafikai alapokVertex: pont 3D-ben, három koordinátával adott.

Mesh: rács 3D-ben, tetszőleges két vertex össze vannak kötve.

Polygon: felület 3D-ben, tetszőleges három (vagy több) vertex által meghatározott sík.

Normál: irány 3D-ben, a polygon normálvektora.

IndexedFaceSet: a vertexek sorozata, indexelve és megadva azok poziciója.

coordIndex: mely három (vagy több) vertex határoz meg egy polygont, és hogy az merre néz; a vertex-indexekkel van megadva.

Page 27: Multimodális beszéd

FA megvalósítása

FP

Hatókör

Page 28: Multimodális beszéd

FA megvalósításaEgy FP csak a neki definiált hatókörön

belüli vertex-eket mozgatja.

De a vertex mozgatás nem lineáris. Az FP-től mért távolsággal arányos.

Tehát azokra a vertexekre kevésbé hat, melyek a hatókör szélén vannak, míg a belsőkre jobban.

De a vertex mozgása a távolság arányában sem lineáris. Általában koszinuszos.

Page 29: Multimodális beszéd

FA megvalósításaProbléma lehet a hatókör

definiálása. Főleg a száj környékén.

Hiszen az ajaknál nem biztos, hogy szabad mozgatni a közeli vertexeket.

Megoldás: az FP-hez tartozó vertexeket fel kell sorolni!

Page 30: Multimodális beszéd

Az MPEG-4 FA ideális?

• Ábrázolhatóság • Használhatóság• Kidolgozottság• Orthogonalitás• Absztrakciós képesség• Megjósolhatóság• Hordozhatóság• Mérhetőség• Hatékonyság

Nem ideális!

(De minden eddiginél jobb)

Page 31: Multimodális beszéd

A Pázmány és más speech to animation rendszerek

összehasonlítása

Page 32: Multimodális beszéd

Speech Text Aniamtion

ÖsszehasonlításMás rendszerek (speech to text; text to animation)

Speech Text Aniamtion

Pázmány rendszer (speech to animation)

Page 33: Multimodális beszéd

Más rendszerek

Page 34: Multimodális beszéd

Pázmány rendszerek

Synchronised audiovisual Database

Video preprocessing

Audio preprocessing

MPEG4 based facial animation

model

FP Feature points

coordinates

Acoustic feature extraction

NN

PCA-1

w1 … w6 weights of the

principal components

MFCC

Audiovizuális adatbázis

MPEG4 pontokdetektálása

Javítás

MPEG4 pontokazonosítása

6D PCA 30-32D Koordinátatranszformációk

Szűrés

Log.txt

Page 35: Multimodális beszéd

Audiovizuális-adatbázis

MPEG4 pontokdetektálása

Javítás

MPEG4 pontokazonosítása

6D PCA 30-32D Koordinátatranszformációk

Szűrés

Log mátrix

Page 36: Multimodális beszéd

Audiovizuális adatbázis

Page 37: Multimodális beszéd

Szűrés

-deinterlace az frame-ek közti átmenet „simítására”

-HSV adjust a saturation eltolására, így a világosabb pontok jobban kiemelődtek

Page 38: Multimodális beszéd
Page 39: Multimodális beszéd
Page 40: Multimodális beszéd

MPEG4 pontok azonosítása

Page 41: Multimodális beszéd

Abszolút koordináta rendszer

Page 42: Multimodális beszéd

Relatív koordináta rendszer

Page 43: Multimodális beszéd

Audiovizuális-adatbázis

MPEG4 pontokdetektálása

Javítás

MPEG4 pontokazonosítása

6D PCA 30-32D Koordinátatranszformációk

Szűrés

Log mátrix

Page 44: Multimodális beszéd

Eredeti

Page 45: Multimodális beszéd

Előállított

Page 46: Multimodális beszéd

Első négy főkomponens

Page 47: Multimodális beszéd

Idő

Page 48: Multimodális beszéd

Hanghullám

Page 49: Multimodális beszéd

Lucia

Page 50: Multimodális beszéd

Log to Lucia konverzió

Log mátrix

MPEG-4 szerintimegfeleltetés

Skálázás és irány

Lucia

Normálás(referencia frame)

Medián szűrő

Page 51: Multimodális beszéd

Teszt

Page 52: Multimodális beszéd

47,9%52,1%

54,9%

45,1%

97,1%

2,9%Teszt eredménye

Jeltolmács

Lucia (pont) Lucia (hang)

Talált

Nem talált

Page 53: Multimodális beszéd

Hisztogram

Page 54: Multimodális beszéd

Hisztogram

Page 55: Multimodális beszéd

Hisztogram

Page 56: Multimodális beszéd

Hisztogram

Page 57: Multimodális beszéd

Hisztogram

Page 58: Multimodális beszéd

Hisztogram

Page 60: Multimodális beszéd

Pázmány Péter Katolikus EgyetemInformációs Technológiai Kar

Köszönöm a figyelmet!