Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

20
Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information 指指指指 指指指 指指 指指指

description

Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information. 指導教授:吳智鴻 學生:蔡依錞. 此研究主要分析臉部情感表達和聲音訊息的優勢和限制性。也討論決策階級和特徵階級兩個模組的方法比較 。 主要目的:了解這些系統的辨識強弱度,並比較不同的融合方法來提升系統的辨識度 。 情緒變數: sadness, happiness, anger and neutral 資料庫 :來自一 位女性 演員,請他 念 258 個句子,同時表達這些情感。 - PowerPoint PPT Presentation

Transcript of Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

Page 1: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

指導教授:吳智鴻 學生:蔡依錞

Page 2: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

摘要

• 此研究主要分析臉部情感表達和聲音訊息的優勢和限制性。也討論決策階級和特徵階級兩個模組的方法比較。• 主要目的:了解這些系統的辨識強弱度,並比較不同的融合方法來提升系統的辨識度。• 情緒變數: sadness, happiness, anger and neutral• 資料庫:來自一位女性演員,請他念 258 個句子,同時表達這些情感。• 三種辨別情緒的系統: audio, facial expression and bimodal

information• 並用三個攝影鏡頭來捕捉臉部表情,頻率為 120HZ 。• 102 個偵測點,且要求他用四種不同的表情念四次,而錄音室在一個極安靜的房間,有 48kHz( 千赫 ) 的採樣率。

Page 3: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information
Page 4: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

bimodal emotion recognition system

• The best features from both unimodal systems were used as input in the bimodal classifier. They showed that the performance significantly increased from 69.4% (video system) and 75% (audio system) to 97.2% (bimodal system).

Page 5: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

研究方法

• 為了要比較這三種不同的方法,因此他們都用 support vector machine classifier (SVC) with 2nd order polynomial kernel functions

• 不過這三個系統的資料庫都是用 leave-one-out cross validation method 來訓練和測試。

Page 6: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

語音情感辨識系統

• 應用軟體: Praat speech processing software• 音調和強度的平均值、標準差、範圍、最大最小值、中位數,都會被輸入進去討論。• 說話與不說話的比率也會納入考量。

Page 7: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

臉部情感辨識系統 (1)

• 把一句句子收集到的 data 都縮減成 4 維度的特徵向量,再輸入分類器。• 將獲取的資料做正規化:• 1. 每個 frame 都以鼻子標記點為中心• 2. 用一個表情一般,閉嘴巴的 frame 當作參考 frame• 3. 每個 frame 都以三個藍色點為基準點• 4. 每個 frame 分為五個區塊: forehead, eyebrow, low eye, right

cheek and left cheek area (see Figure 2).

Page 8: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

臉部情感辨識系統 (2)

Page 9: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

臉部情感辨識系統 (3)

• 用 Principal Component Analysis(PCA) 方法來減少每個frame 的特徵數量至 10 維度。不過嘴唇附近的標記都沒有考慮,因為講話過程中可能被辨識為微笑或其他。

Page 10: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

臉部情感辨識系統 (4)

• low eye area vector 的前兩個組成成分如圖 3 ,可見不同的情緒分布在不同的叢集,所以重要的線索可從這 10 維的特徵萃取出來。

Page 11: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

臉部情感辨識系統 (4)

• 對每個 frame , 10 維的特徵向量在每個區塊被獲得。這本地資訊可能被用來訓練動態模組,如 HMM• 此研究的特徵向量會先從每個聲音的低微特徵向量取得,做預備處理。• 用 K=3 來將這五個區塊的 10 維特徵分類出來,成為不同的叢集。• 然後就分類後的 frames 數量,獲得在每個聲音階級的 4 維向量。

Page 12: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

Bimodal system

• feature-level fusion :• 兩個都用同一個分類器。連續的特徵選取技術,盡可能提高分類器的效能。特徵選取數量為 10 。• decision level fusion :• 不同模組彼此用各自的分類器,然後再統一標準來整合。• 有 maximum( 最大值 ), average( 每個系統的加權平均值和最大值 ),

product(乘以最大值 ), weight( 不同的系統有不同的權重 ) 。

Page 13: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

研究結果 -Acoustic emotion classifier

• 因為不同情緒有時的聲音之力量和音調會差不多,所以比較難被分類,如高興和生氣、難過和一般

Page 14: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

研究結果 -System based on facial expressions(1)

• Eyebrow 效能最差。• Hapiness 沒有任何失誤。

Page 15: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

研究結果 -System based on facial expressions(2)

• In general, the results are very similar.

Page 16: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

研究結果 -System based on facial expressions(3)

• Hapiness 有相當高的準確度。

Page 17: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

研究結果 -Bimodal system(1)

• As it was expected, the recognition rate of anger and neutral state was higher than unimodal systems.

Page 18: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

研究結果 -Bimodal system(2)

• 可看到這結果跟 facial expression classifier( 也就是 Table4)比較相似。• 因此這樣的方法不適用來混和這兩個系統比較,因為聲音的系統可說是完全被忽略掉。

Page 19: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

研究結果 -Bimodal system(3)

• anger (84%) and neutral states (84%) 比 Table4 facial expression classifier (79% 、 81%)好;但是比 Table5 feature-level bimodal classifier(95% 、 92%) 差。

• happiness (98%) and sadness (90%) 比 Table5 準確性高很多。• 因此結果顯示, decision-level fusion 這個方法在每個情緒的辨識度都增加,也提高 bimodal system 效能。

Page 20: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

Discussion

• 研究證實,用多模組系統效果比單一系統來辨識情緒來的好(5%) 。

• 結果顯示,某兩種情緒在其中一種形式會混淆的時候,在其他種形式就容易被分辨。如生氣和高興聲音辨識系統結果無法分辨,但在臉部情感辨識系統卻截然不同。• 因為這個研究的資料庫完全是根據一位女性所完成,所以如果要應用到其他人,可能會跟預期的不同。如要做此議題,可能要收集更多其他人的資料,才能更準確。• 此研究的另一個限制是視覺資料都是透過標記取得,在現實生活中較不可行。