Создание и анализ словаря финансово-экономических...

13
Москва 2016 «Создание и анализ словаря финансово-экономических терминов методом интеллектуального анализа текстов» Выпускная квалификационная работа Направление подготовки: 09.03.03 "Прикладная информатика" Профиль "Прикладная информатика в экономике" Выполнил: Студент группы ПИ4-1 Гузаиров Равиль Русланович Научный руководитель: к.э.н. Макрушин Сергей Вячеславович
  • Upload

    -
  • Category

    Science

  • view

    147
  • download

    2

Transcript of Создание и анализ словаря финансово-экономических...

Москва 2016

«Создание и анализ словаря финансово-экономических терминов методом интеллектуального анализа текстов»

Выпускная квалификационная работаНаправление подготовки: 09.03.03 "Прикладная информатика"

Профиль "Прикладная информатика в экономике"

Выполнил:Студент группы ПИ4-1

Гузаиров Равиль РуслановичНаучный руководитель:

к.э.н. Макрушин Сергей Вячеславович

Целью работы - проведение частотного анализа текстов и выявление терминов финансово-экономической лексики.

Для достижения цели необходимо проанализировать коллекцию экономических и не экономических документов, выполнить следующие задачи:

Сбор и структурирование текстовых данных. Преобразование данных в вид, удобный для применения аналитических методов.

Анализ данных. Интерпретация результатов.

Актуальность проведения частотных анализов текстов очень высока

Введение Описание данных Задача Выводы

Частотные словари широко применяются в компьютерной лингвистике для классификации текстов В больших корпусах текстов возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов, которые просто физически невозможно

просмотреть в ограниченное время. Для решения этой проблемы разрабатываются системы, позволяющие группировать коллекцию

документов и автоматически разбивать их на подмножества С целью улучшения таких систем проводится частотный анализ языка и выявление лексически

значимых терминов.Объект и предмет исследования

Объектом данного исследования является коллекция экономических и не экономических документов

предмет исследования – термины финансово – экономической лексики.Цели выпускной квалификационной работы

2

План выполнения

Введение Описание данных Задача Выводы

3

1. Сбор данных2. Первичная обработка корпуса текстов3. Частотный анализ корпуса текстов4. Сравнение частот и выявление терминов финансово-экономической

лексики5. Анализ результатов

Сбор данных

Введение Описание данных Задача Выводы

Источниками экономических текстов являются: книги «классиков экономической мысли» (28,2 МБ) классические книги по экономике (51,1 МБ) журнал «Эксперт онлайн» (1 186 статей, 7,34 МБ) научные статьи и докторские работы по экономике (1 206 работ, 101 МБ)

Источниками не экономических текстов являются: Публицистика (56,1 МБ) Философия (52,2 МБ) История и политика (57,2 МБ) Художественная литература (52,2 МБ)

Структура папок

4

Обработка односложных слов

Введение Описание данных Задача Выводы

5

Обработка биграмм

Введение Описание данных Задача Выводы

6

Введение Описание данных Задача Выводы

Представление документов

Сравнение коллекций документов

7

Данные в матрице подтверждают тот факт, что корпуса экономических текстов схожи между собой.

Введение Описание данных Задача Выводы

Сравнение корпусов документов

𝐿𝐿=2∗¿

8 Большая часть терминов с наивысшим LL-score являются терминами экономической

лексики.

Сравнение с толковым словарем

Введение Описание данных Задача Выводы

9 С увеличением размера словаря, выделяемого из тестов, все больше терминов

захватываются из толкового словаря.

Введение Описание данных Задача ВыводыСтруктура словаря, выделяемого из текстов

LL –Score Всего слов

В толк. словаре

Не в толк. словаре

Термины, которые не вошли в толковый словарь (показаны слова из конца списка)

800 53 26 27 развитие, экономический, уровень, финансовый, инновационный, условие, государственный, оценка, ресурс, использование, основа, повышение, страна, структура, рыночный,

700 63 28 35 механизм, подход, промышленный, федеральный, продукт, население, стратегия

600 82 36 46 международный, изменение, основный, регулирование, средство, стратегический, производственный, потенциал, метод, политика

500 110 48 62 сектор, снижение, эффективный, налоговый, основной, управленческий, программа, сфера, денежный, разработать, создание, банковский

400 143 58 85 сельскохозяйственный, национальный, бюджетный, диссертация, функция, институциональный, использовать, современный, потребительский

300 208 88 120 методологический, конференция, поддержка, общий, этап, текущий, образовательный, бухгалтерский, применение, отечественный, отношение, муниципальный, объект, среда, организационный, корпоративный,

200 332 133 199 макроэкономический, реализовать, обосновать, товарный, учитывать, стимулирование, обращение, мощность, валютный, получение, профессиональный, безопасность, обслуживание, территориальный

100 592 200 392 вид, аспект, важный, существенный, малое, новый, позволить, предполагать, вывод, часть, должный, правило, представить, центр, мера

50 683 211 472 центральный, ведущий, участие, точка, традиционный, сложиться, план, вопрос, свидетельствовать, природный, показать, материальный

10

С уменьшением LL-score и увеличением размера словаря, он все больше заполняется неэкономическими терминами.

Введение Описание данных Задача Выводы

11

Термины вошедшие в толковый словарь при LL-score = 250

Термины не вошедшие в толковый словарь при LL-score = 250

Результаты выполненной работы:

Введение Описание данных Задача Выводы

Цели работы достигнуты: проведён частотного анализа текстов и выявлены

термины финансово-экономической лексики; Для достижения этой цели были собраны тексты, данные предобработаны и

проанализированы, сделаны выводы.

12

Анализ результатов показал: многие термины финансово-экономической лексики

могут не входить в толковые словари; Для решения практических задач классификации эффективнее проводить

частотный анализ, а не брать готовые решения.

Выводы из проведенного анализа:

Создание и анализ словаря финансово-экономических терминов методом интеллектуального анализа текстов.

Гузаиров Равиль Русланович

Финансовый университет при Правительстве РФ, 4 курс.

[email protected]

«Защита ВКР, Москва 2016»

Спасибо за внимание!

к.э.н. доцентМакрушин Сергей Вячеславович

Финансовый университет при Правительстве РФ.

[email protected]

Доклад подготовил:

Научный руководитель: