Ведение коротких, сложных и серьёзных дизайн-проектов в условиях военного времени
Илья Мельников (Яндекс) "Классификатор коротких...
-
Upload
ainl-conferences -
Category
Technology
-
view
238 -
download
4
description
Transcript of Илья Мельников (Яндекс) "Классификатор коротких...
![Page 1: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/1.jpg)
![Page 2: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/2.jpg)
Классификатор коротких текстов с использованием векторных репрезентаций слов
Илья Мельников
![Page 3: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/3.jpg)
Введение
![Page 4: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/4.jpg)
Интерактивные голосовые системы
Голосовое управление мобильными приложениями
Голосовые помощники
Коллцентры
![Page 5: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/5.jpg)
Пример 1: Голосовое меню
EUR европейская кухняASI азиатская кухняUSA американская кухня
Пункты меню
![Page 6: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/6.jpg)
Пример 1: Голосовое меню
EUR европейская кухняASI азиатская кухняUSA американская кухня
EUR багет сыр и бокал винаEUR континентальный завтракASI хочу поесть сушиASI въетнамская или тайскаяUSA двойной гамбургер и кока кола без сахараUSA макдональдс бар энд грилл
Пункты меню
Запросы
![Page 7: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/7.jpg)
Пример 1: Голосовое меню
EUR европейская кухняASI азиатская кухняUSA американская кухня
EUR багет сыр и бокал винаEUR континентальный завтракASI хочу поесть сушиASI въетнамская или тайскаяUSA двойной гамбургер и кока кола без сахараUSA макдональдс бар энд грилл
Пункты меню
Запросы
HOW?
![Page 8: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/8.jpg)
Пример 2 Коллцентр
1500 звонков в день
4 очереди + общая
Классифицировать звонки общей очереди
Понять по первой фразе, куда направить
![Page 9: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/9.jpg)
Пример 2 Коллцентр
1500 звонков в день
4 очереди + общая
Классифицировать звонки общей очереди
Понять по первой фразе, куда направить
HOW?
![Page 10: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/10.jpg)
Традиционные подходы:Cтатистические методы
LDA, Байес, Pattern mining
Плюсы:
Учимся на больших объемах
Большое покрытие
Минусы:
Невозможность «холодного старта»
Не учитывают семантику
![Page 11: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/11.jpg)
Традиционные подходы:Cтатистические методы
LDA, Байес, Pattern mining
Плюсы:
Учимся на больших объемах
Большое покрытие
Минусы:
Невозможность «холодного старта»
Не учитывают семантику
![Page 12: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/12.jpg)
Традиционные подходы:Cтатистические методы
LDA, Байес, Pattern mining
Плюсы:
Учимся на больших объемах
Большое покрытие
Минусы:
Невозможность «холодного старта»
Не учитывают семантику
![Page 13: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/13.jpg)
Традиционные подходы:Ключевые слова, rule based
Ключевые слова, правила, Frame Net-like
Плюсы:
Высокая точность
Учитывают смысл
Минусы:
Крайне низкое покрытие
Высокая стоимость реализации
Нет метрики для сравнения
![Page 14: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/14.jpg)
Традиционные подходы:Ключевые слова, rule based
Ключевые слова, правила, Frame Net-like
Плюсы:
Высокая точность (Precision)
Учитывают смысл
Минусы:
Крайне низкое покрытие
Высокая стоимость реализации
Нет метрики для сравнения
![Page 15: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/15.jpg)
Традиционные подходы:Ключевые слова, rule based
Ключевые слова, правила, Frame Net-like
Плюсы:
Высокая точность
Учитывают смысл
Минусы:
Крайне низкое покрытие (Recall)
Высокая стоимость реализации
Нет метрики для сравнения
![Page 16: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/16.jpg)
Потребность
Минимизировать:
Supervised
Cтоимость
Cложность поддержки
Опираться на смысл
Метрика похожести
Холодный старт
![Page 17: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/17.jpg)
Идея
![Page 18: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/18.jpg)
Классификатор на основе векторныхрепрезентаций
Unsupervised pretraining
Открытые данные
Семантическая модель
Маленький обучающий корпус для адаптации
![Page 19: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/19.jpg)
Векторная репрезентация
Mikolov at al., Efficient Estimationof Word Representationsin Vector Space, ICLR 2013
![Page 20: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/20.jpg)
Векторная репрезентацияВходной вектор
А Б Х В Г
[ 1 1 1 1 1] - [100К]
Результат Х = [0.080543, 0.075750, ... -0.109624, 0.038613]
=> Проекция [200]
![Page 21: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/21.jpg)
Векторная репрезентацияБлижайшие словаголос
хрипловатый 0.797113697099
певучий 0.764843965305
звучный 0.751156818403
дискант 0.733722699661
голосок 0.72665754898
Ближайшие словаяндекс
yandex 0.83357081449
гугл 0.828274592652
рамблер 0.788542301545
поисковик 0.765093627596
яндексе 0.750866569063
![Page 22: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/22.jpg)
Классификатор
Модель:
Обучающие фразы
Слова представлены векторами
Размечаем классами
Частотность по классам
![Page 23: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/23.jpg)
Классификатор
cl – классtext – входящая фразаv – слова моделиKNN(w) – К ближайших словM – метрика доверияP(v|cl) – априорная вероятностьcos – косинус, мера семантической близости 23
![Page 24: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/24.jpg)
Мера семантической близости
http://www.codeproject.com/KB/TipsnTricks/788739/barneshutplot.jpg
![Page 25: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/25.jpg)
Метрика доверия
![Page 26: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/26.jpg)
Метрика доверия
![Page 27: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/27.jpg)
Априорная вероятность
https://ru.wikipedia.org/wiki/%D0%A4%D0%B0%D0%B9%D0%BB:Bayes%27_Theorem_MMB_01.jpg
![Page 28: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/28.jpg)
Классификатор
![Page 29: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/29.jpg)
Пример: звонок в коллцентр Я.Директа
- Здравствуйте, по какой теме вы обращаетесь?
- Не показывают объявление
![Page 30: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/30.jpg)
Пример: звонок в коллцентр Я.Директа
- Здравствуйте, по какой теме вы обращаетесь?
- Не показывают объявление
показывают 0.682 показываетdirect-nodisplay 7.98direct-mod 9.57direct-pay 9.38
0.531 идутdirect-nodisplay 8.89direct-mod 10.87market 10.59
![Page 31: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/31.jpg)
Пример: звонок в коллцентр Я.Директа
- Здравствуйте, по какой теме вы обращаетесь?
- Не показывают объявление
показывают 0.682 показываетdirect-nodisplay 7.98direct-mod 9.57direct-pay 9.38
0.531 идутdirect-nodisplay 8.89direct-mod 10.87market 10.59
объявление 0.736 объявленияdirect-mod 5.67direct-nodisplay 5.72market 10.20
0.537 сообщениеdirect-nodisplay 8.26direct-mod 8.54market 9.70
![Page 32: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/32.jpg)
Пример: звонок в коллцентр Я.Директа
- Здравствуйте, по какой теме вы обращаетесь?
- Не показывают объявление
показывают 0.682 показываетdirect-nodisplay 7.98direct-mod 9.57direct-pay 9.38
0.531 идутdirect-nodisplay 8.89direct-mod 10.87market 10.59
объявление 0.736 объявленияdirect-mod 5.67direct-nodisplay 5.72market 10.20
0.537 сообщениеdirect-nodisplay 8.26direct-mod 8.54market 9.70
0.226 Direct-nodisplay WIN!0.244 Direct-mod0.253 Direct-pay 0.275 Market
![Page 33: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/33.jpg)
Пример: звонок в коллцентр Я.Директа
- Здравствуйте, по какой теме вы обращаетесь?
- Не показывают объявление
- Спасибо, переводим Вас на специалиста!
![Page 34: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/34.jpg)
Реализация
![Page 35: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/35.jpg)
Тренировка векторных репрезентаций
Тексты сайтов и Википедии
Continuous bag of words
Окно – 9
Неделя
![Page 36: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/36.jpg)
Трюки
Выбрасываем Stop words
Приводим слова в нормальную форму
Снабжаем весами: априорные вероятности
Распознавание речи: учитываем варианты
![Page 37: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/37.jpg)
Реализация
Python
numpy
![Page 38: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/38.jpg)
Оценка: коллцентр Взаимная
Встречаемость в Top 2 :4412 звонков 10 fold cross validation 700 слов в модели
Эксперимент CosTheshold MetricPower KNearest Accuracy Top2Acc
1 Лучший результат 0.9 3 1 0.701 0.897
2 Без одинаковых слов 0.45 3 2 0.643 0.836
3 С одинаковыми 0.45 3 2 0.695 0.889
0 1 2 3
0 0
1 265 0
2 185 101 0
3 101 62 86 0
![Page 39: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/39.jpg)
Magic
Интерактивный стенд
Обучающая выборка: 4 класса, 70 примеров
Коридорный опрос
Accuracy: 0.68
![Page 40: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/40.jpg)
Magic
"Какой подарок вы предпочтёте на день рождения?"
"виллу на майами окей а ну",
"Какое ваше любимое блюдо на обед?"
"обезжиренный йогурт",
"Как вы проведете неожиданный выходной?"
"шоппинг of war австралии",
"Почему вы совершаете покупки в интернете?"
"но я не знаю на самом деле дансе"
![Page 41: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/41.jpg)
Резюме
![Page 42: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/42.jpg)
Примеры применения
Коллцентр – автосалон, интернет магазин
Диалоговая система – интент для персонального ассистента
Классификация коротких текстов – комментарии, формы обратной связи
![Page 43: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/43.jpg)
api.yandex.ru/speechkit/
43
![Page 44: Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием векторных репрезентаций](https://reader033.fdocument.pub/reader033/viewer/2022061116/5465678aaf7959045f8b71c2/html5/thumbnails/44.jpg)
Илья Мельников
Отдел голосовых технологий
clubs.ya.ru/speechkit/
api.yandex.ru/speechkit/