Mitsov

13
ВИРТУАЛЬНЫЙ ПОМОЩНИК С РАСПОЗНАВАНИЕМ И СИНТЕЗОМ РЕЧИ ПРОБЛЕМЫ И РЕШЕНИЯ

description

Выступление компании ЦРТ на конференции AINL. Петр Мицов.

Transcript of Mitsov

Page 1: Mitsov

ВИРТУАЛЬНЫЙ ПОМОЩНИК С РАСПОЗНАВАНИЕМ И СИНТЕЗОМ РЕЧИ

ПРОБЛЕМЫ И РЕШЕНИЯ

Page 2: Mitsov

КОМАНДА ЦРТ

• Более 350 человек

• 28 кандидатов и докторов наук

КАФЕДРА ЦРТ В ИТМО• Магистратура• Аспирантура• Дополнительное образование

О КОМПАНИИ ЦРТ

ПРОДАЖИ

• Офисы в 6 странах мира

• Продажи в 75 странах

ТЕХНОЛОГИИ• Распознавание речи• Синтез речи• Голосовая биометрия• Запись и анализ речи

2

Page 3: Mitsov

ЦРТ - ЛИДЕР ПО ПРОЕКТАМ СГС В РОССИИ

3

Page 4: Mitsov

4

РЕЧЕВЫЕ ТЕХНОЛОГИИ И ВИРТУАЛЬНЫЕ ПОМОЩНИКИ

WEB

Мобильные устройства

Терминалы самообслуживания

Виртуальный помощник – это компьютерный персонаж, предоставляющий пользователю необходимую информацию через:

40 производителей 5 поколений 2-е поколение – синтез речи 3-е поколение – распознавание речи

Виртуальный помощник сегодня – это мультимодальная система, способная вести с пользователем диалог в режиме «speech-to-speech»

Page 5: Mitsov

5

КОМПОНЕНТЫ И ТРЕБОВАНИЯ

Релевантность зависит от: точности распознавания

речи качества синтеза речи

Основной показатель эффективности виртуального помощника – релевантность ответов

Page 6: Mitsov

6

КАК ПОЛУЧИТЬ КАЧЕСТВЕННЫЙ ЗВУК?

Точность распознавания речи зависит от качества звука

Множество различных микрофонов и настроек на компьютерах пользователей

Необходимость подтверждать осуществление доступа к микрофону

Пользователь должен нажимать на кнопку (push-to-talk)

Задача двухканальной шумоочистки и режим hotword bargein

Page 7: Mitsov

7

КАК ПОВЫСИТЬ ТОЧНОСТЬ РАСПОЗНАВАНИЯ РЕЧИ?

Варианты использования модуля распознавания речи

1.

2.

Page 8: Mitsov

8

КАК СДЕЛАТЬ ГРАММАТИКИ И ЯЗЫКОВЫЕ МОДЕЛИ?

Источники данных

Поисковые запросы

Записи звонков в контактный центр

Текстовые запросы к виртуальному помощнику Метод “Wizard of OZ”

Page 9: Mitsov

9

ДОПОЛНИТЕЛЬНЫЕ ВОЗМОЖНОСТИ

VoiceXML

Speech Recognition Grammar Specification

Semantic Interpretation for Speech Recognition

Speech Synthesis Markup Language

Speech Input API Specification

Speech JavaScript API

КАКИЕ СТАНДАРТЫ ИСПОЛЬЗОВАТЬ?

Page 10: Mitsov

10

ДОПОЛНИТЕЛЬНЫЕ ВОЗМОЖНОСТИ

Использовать голос, соответствующий персонажу

Провести предварительную настройку на текстах из предметной области (специальная лексика, аббревиатуры)

Настроить синтез основных реплик системы (паузы и интонация)

Использовать функцию синхронизации губ (lipsync)

КАК ПОВЫСИТЬ КАЧЕСТВО СИНТЕЗА РЕЧИ?

Page 11: Mitsov

11

ДОПОЛНИТЕЛЬНЫЕ ВОЗМОЖНОСТИ

Использовать автоматический анализ эмоций

Использовать голосовую идентификацию

КАК СДЕЛАТЬ ДИАЛОГ БОЛЕЕ ЕСТЕСТВЕННЫМ?

Page 12: Mitsov

12

ДОПОЛНИТЕЛЬНЫЕ ВОЗМОЖНОСТИ

КОМПОНЕНТЫ ПЕРСПЕКТИВНОЙ СИСТЕМЫ

Page 13: Mitsov

13

СПАСИБО ЗА ВНИМАНИЕ!

ВОПРОСЫ? КОНТАКТЫ

Санкт-Петербург Адрес: Санкт-Петербург, ул. Красуцкого, 4 Телефон: (+7 812) 325-88-48 Факс: (+7 812) 327-92-97 Отдел продаж: (+7 812) 325-88-48 доб.1 Эл. почта: [email protected]Почтовый адрес: 196084 Санкт-Петербург а/я 515 «Центр речевых технологий»

МоскваАдрес: Москва, ул. Марксистская, д.3, стр.5,Бизнес-центр "Таганский", 3 этаж, офис 5.3.1. Телефон: (+7 495) 661-75-50 Факс: (+7 495) 661-75-17 Эл. почта: [email protected]

ДОКЛАДЧИК:

ПЕТР МИЦОВРуководитель группы разработки

и внедрения систем голосового самообслуживания

Центр Речевых Технологий

[email protected]