半球面麥克風陣列架構 之聲源定位系統之研究

42
Department of Electrical Engineering Southern Taiwan University Robotic Interaction Learning Laboratory 1 半半半半半半半半半半 半半半半半半半半半半 研研研 研研研研 研研研研研 研研研研研研研研研研研

description

半球面麥克風陣列架構 之聲源定位系統之研究. 研 究 生:陳瑾鍵 指導老師:謝銘原博士 南台科技大學電機工程系. 大綱. 摘要 前言 研究動機與目的 三維聲源定位系統之系統架構 三維聲源定位系統之系統架構 三維聲源定位系統之動作流程 三維聲源定位系統之硬體系統 半球 面聲源接收系統 類比數位轉換系統. 大綱. 聲源方位判定系統架構分析 能量門檻值設定 聲源方位初步判定 聲源定位技術 聲源高低判斷 模糊聲源定位演算法 模糊聲源遠近演算法 實驗結果 結論. 摘要. 本文提出一聲源定位系統之設計方法,可應用於機器人聽覺系統之聽聲辨位功能。 - PowerPoint PPT Presentation

Transcript of 半球面麥克風陣列架構 之聲源定位系統之研究

Page 1: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory1

半球面麥克風陣列架構之聲源定位系統之研究

研 究 生:陳瑾鍵指導老師:謝銘原博士南台科技大學電機工程系

Page 2: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 2

大綱

摘要 前言 研究動機與目的 三維聲源定位系統之系統架構

三維聲源定位系統之系統架構 三維聲源定位系統之動作流程

三維聲源定位系統之硬體系統 半球面聲源接收系統 類比數位轉換系統

Page 3: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 3

大綱 聲源方位判定系統架構分析

能量門檻值設定 聲源方位初步判定 聲源定位技術

聲源高低判斷 模糊聲源定位演算法 模糊聲源遠近演算法 實驗結果 結論

Page 4: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 4

摘要 本文提出一聲源定位系統之設計方法,可應用於機器人聽

覺系統之聽聲辨位功能。 此系統之聲源接收系統是由 12 顆電容式麥克風分上下兩層

置於一直徑 19 公分的半球面上;上層圓周以間隔 90° 排列4 顆麥克風,下層圓周則以間隔 45° 排列 8 顆麥克風。為一球面麥克風陣列

本論文利用模糊聲源定位演算法,依麥克風間的能量關係推算出較確切的聲源方位, 並在不同的環境條件下作測試。

Page 5: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 5

前言 (1/2)

聲音可說是人類與自然界中最早使用的訊號,也是最直接的通訊方式,人與人之間之互動大多透過聲音,所以聽覺系統方面的研究變成當前ㄧ重要課題。

機器人的聽覺功能多利用取音裝置(如麥克風)接受聲波後,轉換成電壓來進行語音及語意之辨識,這如同人類的耳朵接收到聲音,轉換成訊號刺激大腦一般。

Page 6: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 6

前言 (2/2) 避免接收過多的雜訊,影響辨識的結果

頭戴式麥克風 使用者不便,長期配帶造成不舒服。

免持式麥克風陣列 可克服環境噪音和回音對語音訊號的影響,還原出較乾淨的語音。

立體式麥克風陣列立體式麥克風陣列 立體式麥克風陣列

優點:多方考慮說話者的方位,在判斷角度可以更加精確 。 缺點:三維的快速傅立葉轉換,增加了運算上的複雜性與花費時間。

平面式麥克風陣列 優點:減少計算的繁雜,快速即時做出對應動作。 缺點:偵測高度受限。

Page 7: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 7

研究動機與目的 (1/2)

許多科學家或是工程師所努力的目標 將機器人融入我們的生活之中 ,成為家庭的一份子 兼顧實用性與人性化的考量 賦予機器人擁有像人一樣的感知

未來智慧型機器人若要提高人機之間的互動功能,以聲音為主的互動是不可或缺的重要部份,要有好的語音互動溝通,聲源定位系統扮演著極重要的一環。

Page 8: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 8

研究動機與目的 (2/2)

人類兩個耳朵可以完成的聽覺功能,聽覺系統卻無法只依據兩個聲音感知器來達成,因此麥克風陣列的研究與運用,扮演著聽覺系統功能與效率的關鍵。

Page 9: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 9

三維聲源定位系統之系統架構 本文所提出的系統架構大致可分成聲源接收系統、類比數

位轉換系統、聲源方位判定系統 、馬達驅動系統。 聲源定位系統

帶通濾波電路

電池&電源整合電路

機器人相對位置調整

聲源訊號

馬達驅動系統

聲源方位判定系統

FSLA

USB-4711類比數位轉換系統

球面麥克風陣列

二級放大電路

聲源接收系統

FPGA控制板

馬達趨動器

門檻值設定

Page 10: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 10

三維聲源定位系統之動作流程

半球面麥克風陣列

二級放大電路

帶通濾波器

類比數位轉換

門檻值偵測

取得麥克風各別能量

下層進行能量比較

機器人相對應的位置

聲源接收系統

類比數位轉換系統

聲源方位判定系統

聲源方位判定系統

12筆訊號

12筆訊號

12筆訊號

12筆訊號

12筆訊號

12筆訊號

取能量大的1個

距離模糊運算

得知聲源與定位之間的距離關係

12筆訊號

單筆訊號

取能量較大的3個加總後取平均

與對應的上層麥克風進行比較

判斷聲源與定位系統之間的高低關係

8筆訊號

2筆訊號

全部進行能量比較

取能量較大的2個

FSLA

得知聲源與定位系統之間的角度關係

8筆訊號

2筆訊號

8筆訊號

Page 11: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 11

音訊接收元件 (1/2)

電容式麥克風對於來自不同角度聲音的收音靈敏度可分為 全指向式 單一指向式 雙指向式

圖 3. 電容式麥克風指向示意圖

Page 12: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 12

音訊接收元件 (2/2)

本文選擇使用今音電子公司所開發的 ECM-60P全向性電容式麥克風 對聲音訊號反應靈敏 體積小 便宜容易運用

圖 4. ECM-60P 外觀圖 圖 5. ECM-60P 內部電路圖

Page 13: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 13

音訊接收電路設計與實體

圖 6. 本系統之麥克風電路圖圖 7. 本系統麥克風電路實體

Page 14: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 14

半球面麥克風陣列 為了可以判斷出聲源的高低關係

,本文研製一球面麥克風陣列 球面直徑: 19cm 上層配置: 4 顆電容式麥克風,間隔為 9

0° 下層配置: 8 顆電容式麥克風,間隔為 4

為了增加麥克風收音的指向性,本論文特別設置遮罩裝置,將其裝置於球面麥克風陣列下層之 8顆麥克風上

圖 8. 本系統遮罩實體圖

圖 9. 本系統之麥克風陣列實體圖

Page 15: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 15

聲源放大與濾波電路設計 (1/2) 本文所設計之聲源放大濾波電路之特點

IC 上本文選擇使用 LM324 二級放大電路 (Gain : 10~10000) 帶通濾波器 (HPF : 20Hz LPF : 7KHz) 擁有穩壓 IC 可直接供給麥克風電路所需的電壓 電路板實體只有 6×7 的大小

Page 16: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 16

聲源放大與濾波電路設計 (2/2)

圖 10. 以 LM324 所規劃的二級放大電路以及帶通濾波電路

圖 11. 二級放大與帶通濾波電路實體圖

Page 17: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 17

電源整合電路與電源選擇 電源整合電路

總電源分接 12 組電源供給電路 選用外接式電池做為電源供給

體積小,方便與機器人結合 供電較穩定

圖 12. 電源整合電路圖

圖 13. 電源整合電路實體圖

圖 14. 外接式電池時體圖

Page 18: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 18

類比數位轉換系統 USB-4711

具有 16 通道的類比輸入可提供本系統 USB介面提供系統與電腦間最佳傳輸 集線器於設備上增加空間運用 8 digital input/output channels 2 analog output channel

圖 15. USB-4711 實體圖

Page 19: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 19

聲源方位判定系統架構分析

半球面麥克風下層配置 8 顆電容式麥克風以等角度

分隔( 45° )配置 每顆麥克風都有各自代表的

角度

45˚

90˚

135˚

180˚

225˚

270˚

315˚

a1

a2

a3

a4

a5

a6

a7

a8

Microphone

Micnumber

球面狀麥克風陣列下層配置圖

PB

VB

Z

VM

PM

圖 16. 半球面麥克風陣列下層配置之示意圖

Page 20: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 20

設計能量門檻值 從能量曲線上做判斷,能量大於某個門檻值就是語音,否則就不是。

本文採用每 0.5sec就擷取音訊一次,這個音段即為一個音框大小,直接去對此音段去做分析,不再切割音框。

經過測試發現,在一般室內的空間中,雜訊經由球面麥克風陣列接收進來後,透過二級放大、濾波後所輸出能量大小大約低於 0.5V ,因此本研究以 0.5V 為能量門檻值,來區分是否為有聲段或是無聲段。

Page 21: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 21

源方位初步判定 經過初步的測試之後,發現在一般室內空間中,本文得到

的振幅大小大約為 0~2.5V 之間

下層 8 顆麥克風能量振幅做一比較,取較大兩顆,即可視此兩顆角度為可能聲源所在方位,其中我們將能量較大的( 即為 8 顆麥克風中能量最大的 )視為參考方位,而其所在角度視為基礎參考角度 。b

Page 22: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 22

聲源定位技術 近來對於聲音源定位的方式,大多使用明確的語音模組來

進行。

聲源的定位必須考量到許多的環境因素,例如:環境中的雜訊、測試環境中的空間反射、回響等。

本文使用之定位技巧與技術 使用球面麥克風陣列來擔任聲源接收的角色,利用此裝置來抑制

接收過多的環境噪音 規劃帶通濾波器來濾除麥克風陣列所接收到雜訊,盡量保留住人

聲的頻率範圍來進行後置的定位運算,讓聲源的定位有更好的效果。

提出一個聲源定位模糊演算法

Page 23: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 23

聲源高低判斷之架構分析 文提出球面麥克風陣列在判斷聲源角

度的同時也可初步判斷出聲源與麥克風陣列的高低關係。

假設 a8、 a1、 a2 的能量為下層最大的

三個,取這三顆麥克風的能量平均值再與所對應的上層麥克風也就是 b1 的能量值加以比較。

假設 a7、 a8、 a1 的能量為下層最大的三個,取這三顆麥克風的能量平均值,其平均的值再與所對應的上層麥克風也就是 b1 與 b4 的能量平均值加以比較。

45˚

90˚

135˚

180˚

225˚

270˚

315˚

a1

a2

a3

a4

a5

a6

a7

a8

Microphone

Micnumber

b1

b2b3

b4

圖 17. 聲源高低比較示意圖

Page 24: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 24

聲源定位模糊演算法 (1/2)

爲了能夠精確的定位聲源角度方位,吾等建立了一聲源定位模糊演算法( Fuzzy Sound Localization Algorithm , FSLA )來進行運算,進一部提高聲源角度定位的準確性。

系統以下層得到較大能量的兩個麥克風的電壓當作其輸入 能量最大一顆的電壓為 Vmax1 ,其所在的基礎參考方位角度為 次大之一顆之電壓為 Vmax2 ,其所在的基礎參考方位角度為 經過聲源定位模糊演算法進行運算後後會一個補償角度

12

f

Page 25: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 25

聲源定位模糊演算法 (2/2) 正確的聲源角度為總基礎參

考方位角度 加或減補償角 總基準參考角

聲源角度

b f1 b

21

21

when ,

when ,

fbout

fbout

1VS S M B VB

0.5 1.0 1.5 2.0 2.5

圖 18. 輸入( Input, V1, V2 )之歸屬函數

圖 19. 輸出( Output, )之歸屬函數

表 1. SLFA 之規則庫

PB VB Z VM PM

0 11.25 22.5 33.75 45

1

Page 26: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 26

聲源距離模糊演算 (1/3)

以三種不同的聲源當做語料的輸入,分別在 50cm~250cm之間以每 50cm 為一間距,量測出不同聲源及不同距離之間的能量關係。

據此三種聲源在不同距離所求得能量大小平均,做為往後運算的對應數值

據測量之結果提出一簡單的距離模糊演算法,來求得聲源與麥克風陣列之間的距離關係。

Page 27: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 27

聲源距離模糊演算 (2/3)

聲源樣式 測試距離 能量大小 比例關係

手機鈴聲

50cm 2.5V Vx

100cm 1.93V 0.772Vx

150cm 1.38V 0.520Vx

200cm 0.96V 0.384Vx

250cm 0.5V 0.200VX

已錄製真人語音(哈囉星際戰

將 )

50cm 2.44V Vx

100cm 1.92V 0.787Vx

150cm 1.32V 0.528Vx

200cm 0.94V 0.385Vx

250cm 0.52V 0.208Vx

敲打鍋子

50cm 2.52V Vx

100cm 1.96V 0.778Vx

150cm 1.36V 0.540Vx

200cm 1V 0.400Vx

250cm 0.6V 0.240Vx

測試距離 平均比例關係 參考電壓

50cm Vx 2.49V

100cm 0.78Vx 1.94V

150cm 0.54Vx 1.34V

200cm 0.39Vx 0.97V

250cm 0.22Vx 0.54V

表 2. 不同聲源與麥克風距離與電壓大小相對關係

表 3. 不同聲源與距離平均關係

Page 28: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 28

聲源距離模糊演算 (2/2)

1VL L A H VH

0.54 0.97 1.34 1.94 2.49

VF F M N VN

250 200 150 100 50

1

圖 20. 輸入 (Vb)歸屬函數

圖 21. 輸出 (d)歸屬函數

表 4. 距離運算模糊規則庫

Page 29: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 29

系統實體圖

圖 22. 半球面麥克風陣列聲源定位系統

Page 30: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 30

實驗空間說明 環境參數

實驗室的長約 9.8m寬約 7.6m

黃色:球面麥克風陣列聲源定位系統

紅色:書櫃其高度大概為 2公尺

紫色:置物架 綠色:置物桌 淡藍色:冷氣機

1800.0 mm x 800.0 mm

9.8m

4m

7.6m

圖 23. 實驗室之環境配置圖

Page 31: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 31

聲源設定 因為環境因素的干擾而造成音波振幅的不同,會造成聲源

定位的準確性下降,因此我們預先錄製一段手機的鈴聲作為聲源的樣本 ,在錄製手機鈴聲時手機距離麥克風大約為 40公分。

圖 24. 手機鈴聲之振幅 圖 25. 移動聲源測試時之手機

Page 32: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 32

操作介面介紹 為了讓使用者可以方便的操作本

系統,吾等使用 Visual C++ MFC設計一容易操作之介面

可隨時觀看 12 顆麥克風的能量大小 可隨時執行或停止聲源定位功能 可觀看 RS-232傳值狀況 可即時看到聲源定位結果

圖 26. 本系統操作介面

Page 33: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 33

聲源方位為 0度或是 180度之定位實驗

圖 27. 聲源位於 0 度測試之實驗 圖 28. 聲源位於 180 度測試之實驗

3.1

-2.4

-2.1

2.6

-3.5

1.3

-6.9

-6.9

2.5

1.5

-8 -6 -4 -2 0 2 4

角度

10數列9測試8測試7測試6測試5測試4測試3測試2測試1測試 183.1

186.2

178.5

174.4

181.2

184.6

177.5

177.2

182.6

181.7

165 170 175 180 185 190

角度

10測試9測試8測試7測試6測試5測試4測試3測試2測試1測試

Page 34: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 34

不同聲源高低定位辨識實驗 (1/2)

將揚聲器至於 45 度的地方,距離麥克風陣列約 150cm ,且高度低於球面麥克風陣列約 50 公分,如圖 29 所示,其實驗結果如圖 30 所示

圖 29. 聲源位於系統 45 度之位置且高度低於麥克風陣列 50公分

圖 30. 聲源放置麥克風陣列的下方測試結果

Page 35: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 35

不同聲源高低定位辨識實驗 (2/2)

將揚聲器放至於 70 度距離麥克風陣列約 150cm且高於球面麥克風陣列 50 分公分的地方,如圖 31 所示,其實驗結果如圖 32 所示

圖 31. 聲源位於系統 70 度之位置且高度高於麥克風陣列 50公分

圖 32. 聲源放置麥克風陣列的上方測試結果

Page 36: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 36

動態之聲源定位辨識實驗 動態音源測試—每次擷取間加入 0.5sec延遲,由 0°移動

到 90° 。(b)

(c)

圖 33. 動態聲源測試結果 (a) 聲源位於 0°(b) 聲源位於 45°(c) 聲源位於90°

(a)

Page 37: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 37

聲源距離測試之實驗 將聲源置於約 45 度且距離麥克風陣列距離 50cm 的地方與

270 度且距離麥克風陣列約為 200cm 的地方分別進行測試

圖 34. 聲源距離測試結果 (a) 聲源位於 45°50 cm (b) 聲源位於 270°200 cm

(a)

(b)

Page 38: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 38

與平面麥克風式陣列效能比較 將聲源放置 45° ,進行 20次的測試,再與平面式麥克風

陣列進行定位準確性比較

圖 35. 與平面麥克風陣列進行辨識比較

表 5. 球面麥克風陣列與平面麥克風陣列辨識率與效能比較表

0

10

20

30

40

50

60

1 3 5 7 9 11 13 15 17 19

次數

角度 平面式麥克風陣列球面式麥克風陣列

Page 39: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 39

應用於智慧型機器人 本系統將應用於智慧型機器人,做為機器人之聽覺系統,吾等將此次統放置機器人的頭部上,當作機器人頭頂所戴裝飾帽如圖 36 所示

圖 36. 本系統應用於智慧型機器人之側面

Page 40: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 40

結論 本文提出一個以球面麥克風陣列作為聲源接收之模糊語者

定位系統,來設計服務機器人的聽覺系統。

雖然本文是使用立體式麥克風陣列,但搭配 FSLA 的應用減少了立體式麥克風陣列複雜的運算。

本文所提出的聲源定位系統除了可以有效的定位出語聲源,聲源與麥克風陣列的高低與距離關係也可以簡單的判斷出來。

Page 41: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 41

未來展望 本文所提出的聲源定位系統,有下列的問題可以改進

與機器人更美觀的結合 聲源高低的判斷 系統的整合 與語意分析整合

Page 42: 半球面麥克風陣列架構 之聲源定位系統之研究

Department of Electrical Engineering Southern Taiwan University

Robotic Interaction Learning Laboratory 42

報告結束

感謝指導