Виктор Сафронов "Тематическое моделирование" - EdHack

Post on 15-Apr-2017

169 views 5 download

Transcript of Виктор Сафронов "Тематическое моделирование" - EdHack

Тематическое

Моделирование 2016

Что умеет машина, распознающая «смысл» текста

I Как мы ищем смысл

II Как хотим ее искать

III Реализация IT@PHYSTECH.EDU

Виктор Сафронов, EDHACK, 10 сентября 2016

Topic Modeling I Как мы ищем

02Как стыковать?

В чем проблема

Как стыковать все варианты

одного и и того же

высказывания?

Как поддержать разговор

на любую тему?

Как фильтровать море информации по

теме чатботов и отслеживать нужное на автомате?

Topic Modeling I Как мы ищем

03

Детекция по словам

(entities recognition):

Поиск по словам

вводим

словарезультат

Topic Modeling II Как хотим искать

04

Детекция по теме

Поиск по теме

выделяем

маркеры

темы

результатTopic

Engine

Topic Modeling II Как хотим искать

05

Откуда берутся темы

Поиск по теме

1) из априори подходящей

коллекции текстов и диалогов

2) по накопленной базе тем с

глубокой иерархией

Topic Modeling II Как хотим искать

06

Как это работает

Как это работает

PLSA, LDA, EM-algorithm

Topic Modeling III Реализация

07

Кому и зачем?

What about money

Наши гипотезы:

1) Маркетинг 2) Маркетинг 3) Маркетинг

4) Answering machines (чат-боты)

5) Фарма – drug discovery

6) Ученые, Патентные ведомства

7) СМИ

8) Трейдеры

9) Техподдержка, колл-центры

Topic Modeling III Реализация

08

Пример: анализ СМИ

What about money

Берем 25К статей за 2 месяца (апрель-июнь) из

газет и журналов:

Topic Modeling III Реализация

09

Пример: анализ СМИ

What about money

Получаем вектора тем и кластеризуем,

получается интерпретируемо:кластер «Внешняя политика»

Topic Modeling III Реализация

10

Пример: анализ СМИ

What about money

Накладываем активность тем на временную

шкалу:

Topic Modeling III Реализация

11

Пример: Quid

What about money

Topic Modeling III Реализация

12

Пример потери

контекста при синтезе:

What about money

«Анормальный квант: основные моменты»

Интегрирование по частям поразительно. Аксиома, следовательно,

порождена временем. Жидкость оправдывает отрицательный

дедуктивный метод. Взвесь заряжает поток.

Конфликт оправдывает короткоживущий экситон. Гамма-квант,

следовательно, масштабирует неоднозначный знак. В условиях

электромагнитных помех, неизбежных при полевых измерениях, не

всегда можно опредлить, когда именно подмножество тривиально. К

тому же бозе-конденсат усиливает язык образов.

Дуализм, следовательно, мгновенно трансформирует закон

исключѐнного третьего. Вихрь возбуждает отрицательный бином ...

Topic Modeling III Реализация

13

ЕГЭ по чат-ботам:

What about money

A

1) Text analysis/syntesis

2) Decision Tree

3) Turing test

4) NLP, sentiment/ syntax/

distributive analysis

Topic Modeling III Реализация

14

ЕГЭ по чат-ботам:

What about money

B1) n-gram, word2vec, entity

recognition

2) Probabilistic latent semantic

analysis, Latent Dirichlet allocation,

Expectation maximization

3) Sparse matrix regularization

Topic Modeling III Реализация

15

ЕГЭ по чат-ботам:

What about money

B4) Stemming, lemmatization

5) Modality, decorrelation, term

coherense, summarizing, assessing

6) Frame, Resourse Description

Framework (RDF), semantic networkn

Framework

Topic Modeling III Реализация

16

ЕГЭ по чат-ботам:

What about money

C1) Long short temporal memory (LSTM),

hierarchical temporal memory (HTM)

2) Neuroplasticity

3) Variational bayesian

AutoEncode(VAE), Generational

Adversarial Network (GAN)

Topic Modeling III Реализация

17

ЕГЭ по чат-ботам:

What about money

D

1) Oblivious decision

trees (ODT)

2) Boosting over ODT

Topic Modeling III Реализация

18

Answering machine

(чат-бот):

What about money

A+B+C+D

Topic Modeling III Реализация

19

«Ядерный клуб»

Конкуренты

Google, Yandex, все уважающие себя поисковики

Академические центры (Columbia University, MIT,

UC@Berkeley, МФТИ, Tsinghua University, …)

Research Gate, Microsoft Research, Elsevier, Academia.edu

Mendeley – огромный массив научных статей,

заточенность на коллаборацию ученых.

Quid.com – сервис разведочного поиска

Topic Modeling Последний слайд

20

Спасибо!

Виктор Сафронов,

кафедра «Интеллектуальные системы» МФТИ,

IT@PHYSTECH.EDU

MACHINELEARNING.RU