Ерехинская диктум извлечение мнений
-
Upload
lidia-pivovarova -
Category
Documents
-
view
1.086 -
download
0
Transcript of Ерехинская диктум извлечение мнений
© Dictum Ltd. 2011
Извлечение мнений изотзывов: простая стратегия, которая работает
Татьяна Ерехинская
© Dictum Ltd. 2011 2 / 21
Мониторинг и анализ контента
Измерить степень интереса аудитории
Оценить эмоциональное восприятиеобъекта
Получить фактическую информацию посвойствам объекта
Отследить динамику изменения
© Dictum Ltd. 2011 3 / 21
Постановка задачи
Входные данные:Текст с отзывом
Объект оценки (продукт, персона, компания)
Выходные данные:Оценка по шкале позитив-негатив, сразбивкой по темам
© Dictum Ltd. 2011 4 / 21
Пример
Хороший телефон, но дизайн слабоват
Телефон в целом: +5Дизайн: -1.5Итого: +3.5
© Dictum Ltd. 2011 5 / 21
Семантические отношения
Хороший телефон
Ноутбук глючит
Кнопка работает плохо
Восхищен дизайном
Экран – отстой
Разочаровался в этой софтине
© Dictum Ltd. 2011 6 / 21
Отношения vs зависимости
Об
сказать
хорошее
только
могу
телефоне
этом
© Dictum Ltd. 2011 7 / 21
Термины
Параметры (без эмоциональной окраски)Функции (работать, звонить)Составные части объекта оценки (экран)Свойства объекта оценки (дизайн, надежность)
ХарактеристикиПозитив (хороший, удобно, преимущество)Негатив (отстой, глючить)
© Dictum Ltd. 2011 8 / 21
Рубрики
© Dictum Ltd. 2011 9 / 21
Характеристики-перевертыши
Быстрая зарядка
Быстрая разрядка
⇒ Служебные рубрики для ограничения«области видимости»
© Dictum Ltd. 2011 10 / 21
Вычисление весов
Хороший/плохой ±5
Суперский/отстойный ±7
W = C × K
C − вес характеристики, ∈{-7,-5,5,7}
K − вес рубрики (1 для всего объекта, меньше 1 для отдельных рубрик)
© Dictum Ltd. 2011 11 / 21
Отрицания и усилители
Не красивый / некрасивый
Нет глюков, без глюков
Ни единого глюка, ничего хорошего
Очень хороший, чуть-чуть глючит
W = C × K × I × (-1)N
N – количество отрицаний
I – коэффициент усиления
© Dictum Ltd. 2011 12 / 21
Усиление + отрицание
Усиление отрицания
Очень не понравился -7,5
Почти не работает -2,5
Отрицание усиления
Не очень понравился -1,5
Не совсем подходящий +0,5
© Dictum Ltd. 2011 13 / 21
Оценочные структуры
Дерево зависимостей → граф терминов
Выделяем компоненты связности
Для каждой компоненты связности принеобходимости разделяем однородныечлены (тормозной и глючный девайс)
© Dictum Ltd. 2011 14 / 21
Сложные случаи
Глагольное отрицание
Исправили глюки
Сравнительные конструкции
А лучше Б
А хуже Б
Контекстное отрицание
Я не согласен, что …
© Dictum Ltd. 2011 15 / 21
Схема обработки
Графематика: деление на слова ипредложения
Исправление опечаток
Морфологический анализ
Синтаксический анализ
Разрешение анафор
© Dictum Ltd. 2011 16 / 21
Графематика
Разбиение входного текста на токены потипу символов (литеральные, пробельные, пунктуационные, конец предложения)
Склейка хитрых токенов: бело-розовый, 5.5, X-43.
Разделение на предложения: по символамконца предложения или по токенам, обозначающим начало предложения (неимя собственное с большой буквы)
© Dictum Ltd. 2011 17 / 21
Исправление опечаток
Интеграция с синтаксическим анализом
Мне нравиться телфон
Мне нравится телефон
© Dictum Ltd. 2011 18 / 21
Восстановление анафор
Купил телефон. Уже разочаровался в нем.
Поиск влево в пределах двух предложенийподходящих сущ., с учетом согласованияпо роду и числу
Ранжирование: частота встречаемости вотзыве, наличие предка-глагола, количество вершин в поддереве СА, расстояние в токенах от антецедента
© Dictum Ltd. 2011 19 / 21
Пример
Проблем с неразборчивостью моей речиили речи собеседника, недостаточностьюгромкости динамиков или искажениямизвукового ряда не обнаружено.
© Dictum Ltd. 2011 20 / 21
Компания «Диктум»
Избавляем от синтаксическойзависимости
Вносим гармонию всемантические отношения
© Dictum Ltd. 2011 21 / 21
Контакты
Адрес:603000 Россия, Нижний Новгород,ул.Короленко, 19Б, оф.216Тел (факс): +7 (831) 202-16-04
e-mail: [email protected]: www.dictum.ruSkype: vladimir.okatiev