Murat Kemal BAYGÜN Egecom Ltd. mbaygun@egecom Yard. Doç. Dr. A. Kadir YALDIR

Post on 30-Dec-2015

45 views 4 download

description

Linear Predictive Coding ve D ynamic Time Warping Teknikleri Kullanılarak Ses Tanıma Sistemi Geliştirilmesi. Murat Kemal BAYGÜN Egecom Ltd. mbaygun@egecom.net Yard. Doç. Dr. A. Kadir YALDIR Pamukkale Üniversitesi akyaldir@pau.edu.tr. Akademik Bilişim 2006 9-11.02.2006 DENİZLİ. Ses. - PowerPoint PPT Presentation

Transcript of Murat Kemal BAYGÜN Egecom Ltd. mbaygun@egecom Yard. Doç. Dr. A. Kadir YALDIR

Linear Predictive CodingLinear Predictive Codingve Dve Dynamic Time Warping ynamic Time Warping

Teknikleri Kullanılarak Teknikleri Kullanılarak Ses Tanıma Sistemi Ses Tanıma Sistemi

GeliştirilmesiGeliştirilmesi

Murat Kemal BAYGÜNMurat Kemal BAYGÜNEgecom Ltd.Egecom Ltd.

mbaygun@egecom.netmbaygun@egecom.net

Yard. Doç. Dr. A. Kadir YALDIRYard. Doç. Dr. A. Kadir YALDIRPamukkale ÜniversitesiPamukkale Üniversitesi

akyaldir@pau.edu.trakyaldir@pau.edu.tr

Akademik Bilişim 2006Akademik Bilişim 20069-11.02.20069-11.02.2006DENİZLİDENİZLİ

SesSes

Rabiner ve Juang:Rabiner ve Juang:

Akciğerlerden havanın dışarı atılması Akciğerlerden havanın dışarı atılması sonucunda oluşan hava akımının, ses sonucunda oluşan hava akımının, ses sisteminde bir yerlerde sıkıştırılarak sisteminde bir yerlerde sıkıştırılarak karıştırılmasından yayılan akustik karıştırılmasından yayılan akustik dalgalardır[1].dalgalardır[1].

Ses TanımaSes Tanıma

Cole vd:Cole vd:

Mikrofon ya da telefon tarafından Mikrofon ya da telefon tarafından alınmış akustik bir sinyalin, kelime alınmış akustik bir sinyalin, kelime kümesine olan çevrim işlemi olarak kümesine olan çevrim işlemi olarak tanımlanmaktadır [2]. tanımlanmaktadır [2].

İnsanlar arası sesli iletişimİnsanlar arası sesli iletişim

Şekil 1: Huang vd tarafından verilen, İnsanlar arası sesli iletişim modeli [3].

Ses Tanıma Sistemleri Nasıl Ses Tanıma Sistemleri Nasıl Çalışır?Çalışır?

Şekil 2: Ses Tanıma sistemleri, insanlar arası sesli iletişimŞekil 2: Ses Tanıma sistemleri, insanlar arası sesli iletişimsürecinde dinleyicinin yaptığı işlevleri yapay olarak gerçekleştirmeye sürecinde dinleyicinin yaptığı işlevleri yapay olarak gerçekleştirmeye çalışır.çalışır.

Ses Tanıma SüreciSes Tanıma Süreci

Sesin kaydedilmesi ve ifadenin saptanması

Sesin işlenmesi Karşılaştırma ve eşleştirme İşlevin gerçekleştirilmesi

Sesin kaydedilmesi ve ifadenin saptanması

Mikrofon veya telefon ile kayıt işleminin Mikrofon veya telefon ile kayıt işleminin gerçekleştirilmesigerçekleştirilmesi

Konuşma başlangıç ve bitişinin belirlenmesiKonuşma başlangıç ve bitişinin belirlenmesi

Bir çerçevedeki RMS değeri ve Sıfırı geçiş sayısıBir çerçevedeki RMS değeri ve Sıfırı geçiş sayısı

(1)

Sesin işlenmesi

PencerelemePencereleme FiltrelemeFiltreleme Sesin kodlanması (Özellik çıkarımı)Sesin kodlanması (Özellik çıkarımı)

Sesin işlenmesi – Sesin işlenmesi – PencerelemePencereleme

Şekil 3: Geliştirilen uygulama ile 8000 Hz ile örneklenerek kaydedilmiş ‘sıfır’ kelimesi için başlangıç ve bitişi saptanarak belirlenmiş ses sinyali.

Şekil 4: Hamming penceresinden Şekil 4: Hamming penceresinden geçirilmiş ‘sıfır’ kelimesi için ses sinyali.geçirilmiş ‘sıfır’ kelimesi için ses sinyali.

(2)

Sesin işlenmesi – Sesin Sesin işlenmesi – Sesin kodlanmasıkodlanması

PCM (Linear Pulse Code Modulation)PCM (Linear Pulse Code Modulation) APCM (Adaptive Pulse Code Modulation)APCM (Adaptive Pulse Code Modulation) DPCM (Differential Pulse Code Modulation)DPCM (Differential Pulse Code Modulation) ADPCM (Adapted Differential Pulse Code ADPCM (Adapted Differential Pulse Code

Modulation)Modulation) DM (Delta Modulation)DM (Delta Modulation)

Sesin işlenmesi – Sesin Sesin işlenmesi – Sesin kodlanmasıkodlanması

Bank-of-FiltersBank-of-Filters LPC (Linear Predictive Coding)LPC (Linear Predictive Coding) CELP (Code-Excited Linear Prediction)CELP (Code-Excited Linear Prediction) PLP (Perceptual Linear Prediction)PLP (Perceptual Linear Prediction) RASTA-PLP (RelAtive SpecTrAl Technique - RASTA-PLP (RelAtive SpecTrAl Technique -

Perceptual Linear Prediction)Perceptual Linear Prediction)

Karşılaştırma ve eşleştirme

HMM (Hidden Markov Model)HMM (Hidden Markov Model) DTW (Dynamic Time Warping)DTW (Dynamic Time Warping) Yapay Sinir AğlarıYapay Sinir Ağları

İşlevin gerçekleştirilmesi

Ses tanıma sisteminin, giriş olarak Ses tanıma sisteminin, giriş olarak aldığı ses sinyalinden çıkarımını aldığı ses sinyalinden çıkarımını yaptığı, eşleştirilen kelimeye karşılık yaptığı, eşleştirilen kelimeye karşılık gelen işlevin gerçekleştirilmesi.gelen işlevin gerçekleştirilmesi.

LPC – Linear Predictive LPC – Linear Predictive CodingCoding

LPC, sıradaki örneğin, önceki bir seri örnekten yaklaşık olarak elde LPC, sıradaki örneğin, önceki bir seri örnekten yaklaşık olarak elde edilebileceği prensibiyle çalışır (Eş. 5).edilebileceği prensibiyle çalışır (Eş. 5).

pp : LPC kodlayıcı seviyesi: LPC kodlayıcı seviyesiaa11, a, a22, ... , a, ... , app : LPC Parametreleri: LPC Parametreleri

(3) (4)

(5) (6)

DTW – Dynamic Time DTW – Dynamic Time WarpingWarping

Şekil 5: Konuşma sinyaline doğrudan DTW algoritmasının Şekil 5: Konuşma sinyaline doğrudan DTW algoritmasının uygulanması [8].uygulanması [8].

LPC Parametreleri üzerine DTW LPC Parametreleri üzerine DTW uygulanmasıuygulanması

Şekil 6: LPC Parametreleri üzerine DTW algoritmasının uygulanması.Şekil 6: LPC Parametreleri üzerine DTW algoritmasının uygulanması.

Geliştirilen Ses Tanıma Sistemi Geliştirilen Ses Tanıma Sistemi ModeliModeli

Şekil 7: Geliştirilen Ses Tanıma Sistemi Modeli 1. Seviye diyagramıŞekil 7: Geliştirilen Ses Tanıma Sistemi Modeli 1. Seviye diyagramı

Geliştirilen Ses Tanıma Sistemi –Geliştirilen Ses Tanıma Sistemi –İş parçacıklarıİş parçacıkları

Ana İş ParçacığıAna İş Parçacığı Kuyruk AnalizcisiKuyruk Analizcisi İfade Kuyruğu Analizcisiİfade Kuyruğu Analizcisi LPC Kuyruğu AnalizcisiLPC Kuyruğu Analizcisi

KaynaklarKaynaklar [1][1] Rabiner, L., Juang, B., 'Fundamentals of Speech Rabiner, L., Juang, B., 'Fundamentals of Speech

Recognition', ISBN: 0-13-015157-2, 1993.Recognition', ISBN: 0-13-015157-2, 1993.

[2] Cole, R.A., Mariani, J., Uszkoreit, H., Zaenen, A. and [2] Cole, R.A., Mariani, J., Uszkoreit, H., Zaenen, A. and Zue, V., ‘Survey of the State of the Art in Human Zue, V., ‘Survey of the State of the Art in Human Language Technology’ Language Technology’ http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html, 1995http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html, 1995

[3] Huang, X., Acero, A. and Hon, H.W., ‘Spoken Language [3] Huang, X., Acero, A. and Hon, H.W., ‘Spoken Language Processing: A Guide to Theory, Algorithm and System Processing: A Guide to Theory, Algorithm and System Development’(1st Ed.) Prentice Hall PTR, ISBN 0-13-Development’(1st Ed.) Prentice Hall PTR, ISBN 0-13-022616-5, 2001.022616-5, 2001.

[4][4] Coleman, J., ‘Introducing Speech and Language Coleman, J., ‘Introducing Speech and Language Producing’, Cambridge University Press, ISBN 0-52-Producing’, Cambridge University Press, ISBN 0-52-153069-5, 2005.153069-5, 2005.

KaynaklarKaynaklar [5][5] Smith, S.W., ‘The Scientist’s and Engineer’s Guide Smith, S.W., ‘The Scientist’s and Engineer’s Guide

to Digital Signal Processing’(2nd Ed.) California Technical to Digital Signal Processing’(2nd Ed.) California Technical Publishing, ISBN 0-96-601764-1, 1999Publishing, ISBN 0-96-601764-1, 1999

[6][6] Robinson, T., ‘Speech Anaylsis Tutorial’,Robinson, T., ‘Speech Anaylsis Tutorial’,http://svr-www.eng.cam.ac.uk/~ajr/ SpeechAnalysis/, http://svr-www.eng.cam.ac.uk/~ajr/ SpeechAnalysis/, 1998.1998.

[7][7] Fingerhut, A., ‘U.S. Department of Defense LPC-10 Fingerhut, A., ‘U.S. Department of Defense LPC-10 2400 bps Voice Coder’, 2400 bps Voice Coder’, http://www.arl.wustl.edu/~jaf/lpc/lpc10-1.5.tar.gz, 1997.http://www.arl.wustl.edu/~jaf/lpc/lpc10-1.5.tar.gz, 1997.

[8][8] Kale K. R., ‘Dynamic Time Warping’, Kale K. R., ‘Dynamic Time Warping’, http://www.cnel.ufl.edu/~kkale/dtw.html, 2006.http://www.cnel.ufl.edu/~kkale/dtw.html, 2006.

Teşekkürler...Teşekkürler...

Murat Kemal BAYGÜNMurat Kemal BAYGÜNEgecom Ltd.Egecom Ltd.

mbaygun@egecom.netmbaygun@egecom.net

Yard. Doç. Dr. A. Kadir YALDIRYard. Doç. Dr. A. Kadir YALDIRPamukkale ÜniversitesiPamukkale Üniversitesi

akyaldir@pau.edu.trakyaldir@pau.edu.tr