Идентификация уровня сложности текста и его адаптация

31
Идентификация уровня сложности текста и его адаптация Карпов Николай Вячеславович Москва 14.02.2014

Transcript of Идентификация уровня сложности текста и его адаптация

Page 1: Идентификация уровня сложности текста и его адаптация

Идентификация уровня сложности текста и его адаптация

Карпов Николай Вячеславович

Москва

14.02.2014

Page 2: Идентификация уровня сложности текста и его адаптация

План работы

Мотивация Обзор методов определения уровня сложности текста

Определени уровня сложности текста на русском языке

Идентификация сложности отдельного предложения при помощи статистических параметров

Идентификация структурной сложности при помощи синтаксических параметров

Адаптация (упрощение) сложности текста

Page 3: Идентификация уровня сложности текста и его адаптация

Мотивация

Одной из неотъемлемых частей процесса обучения языку является чтение, что часто ставит перед преподавателями и студентами ряд технических трудностей, связанных с проблемами поиска или понимания текстов определённого уровня сложности.

Исходным пунктом для работы по определению уровня читаемости текста послужила разработка системы по адаптации текста к разным уровням сложности на русском языке.

В рамках данного исследования приведены результаты применения ряда моделей, определяющих уровень сложности текста и отдельных предложений по различным статистическим параметрам.

Page 4: Идентификация уровня сложности текста и его адаптация

Обзор методов определения уровня читаемости текста

Исследования сложности текста для чтения начались ещё в 20-х годах прошлого века. Эта область исследований развивалась в основном в сфере работ, касающихся английского языка, но за последнее десятилетие появился и ряд работ, касающихся других языков, что говорит об актуальности исследований, касающихся автоматического определения сложности текста.

Сложность для чтения может быть представлена как функция, которая сопоставляет множеству признаков, извлечённых из текста, определённый уровень сложности из заранее определённых по какой-либо системе классификации.

Page 5: Идентификация уровня сложности текста и его адаптация

Обзор работ по автоматическому определению уровня сложности текста

1. Flesch, R.: A new readability yardstick. J. Appl. Psychol. 32, 221 (1948).

2. Kincaid, J.P., Fishburne Jr, R.P., Rogers, R.L., Chissom, B.S.: Derivation of new readability formulas (automated readability index, fog count and flesch reading ease formula) for navy enlisted personnel. DTIC Document (1975).

3. Chall, J.S.: Readability revisited: The new Dale-Chall readability formula. Brookline Books Cambridge, MA (1995).

4. Collins-Thompson, K., Callan, J.: Predicting reading difficulty with statistical language models. J. Am. Soc. Inf. Sci. Technol. 56, 1448–1462 (2005).

5. Schwarm, S.E., Ostendorf, M.: Reading level assessment using support vector machines and statistical language models. Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. pp. 523–530. Association for Computational Linguistics (2005).

6. Oborneva, I.: Automatic assessment of the complexity of educational texts on the basis of statistical parameters, (2006).

7. Krioni, N., Nikin, A., Filippova, A.: Automated system for analysis of the complexity of educational texts. Manag. Soc. Econ. Syst. 11, 101–107 (2008).

Page 6: Идентификация уровня сложности текста и его адаптация

Обзор методов определения уровня сложности текста

Формула Флэша-Кинсайда (Flesch, 1948; Kincaid et al., 1975) сложность текста представляет как линейная функция среднего числа слогсов в слове и средней длины предложения в тексте.[(0.39×ASL)+(11.8×ASW)−15.59]

Формула Дэйла-Холла (Chall and Dale, 1995) так же определяет синтаксическую сложность текста как среднюю длину предложения, но в качестве лексической метрики использует процент слов не из словаря (либо редких по частотному словарю слов в языке)

Page 7: Идентификация уровня сложности текста и его адаптация

Обзор методов определения уровня сложности текста

С ростом вычислительных мощностей появилась возможность строить более сложные модели. Модель Collins-Thompson and Callan (2005) использует юниграммы частотности слов (словарь задан для каждого уровня языка) и то свойство, что некоторые слова наиболее предсказательны для определённого уровня сложности текста

Schwarm and Ostendorf (2005) используют более сложные синтаксические параметры - средняя высота дерева разбора, число именных и глагольных групп, среднее число нетерминальных узлов и прочее

Page 8: Идентификация уровня сложности текста и его адаптация

Обзор методов определения уровня сложности текста на русском языке

Автоматическому определению сложности для чтения применительно к русскому языку так же посвящён ряд работ. Оборнева (2006) в своей работе адаптирует формулы Флэша и Флэша-Кинсайда для применения к русскому языку путём корректировки коэффициентов: сопоставлялись средняя длина в слогах русского и английского слов и процент многосложных слов в словарях этих языков. Отметим исследование Криони, Никина и Филипповой по определению сложности учебных текстов на русском языке, где был выделен ряд более сложных параметров оцениваемых текстов: связность, структурность, цельность, функционально-смысловой тип, информативность, абстрактность изложения и сложность лингвистических конструкций.

Page 9: Идентификация уровня сложности текста и его адаптация

Обзор методов определения уровня сложности текста на русском языке

Всего количество текстов равно 219.Начальный (A1) - 52;Базовый (A2) - 57; Первый (B1) – 60.Сложный – 50Цель прототипирования алгоритмов - выяснить, с

помощью какого представления данных и алгоритма классификации можно получить наиболее высокие показатели полноты и точности. - наивный Байес;- k-ближайших соседей;- дерево классификации;- случайный лес;- SVM.

Page 10: Идентификация уровня сложности текста и его адаптация

Обзор методов определения уровня сложности текста на русском языке

Выделены следующие характеристики текста: Среднее количество слов в одном предложении текста; Средняя длина одного слова в предложении; Длина текста в буквах; Длина текста в словах; Средняя длина слова в слогах; Средняя длина предложения в слогах; Процент слов в 3...6 слога и больше; Средняя длина предложения в буквах; Cредняя длина слов в буквах; Процент слов длинной в 5...13 букв и больше; Наличие в предложении конкретных частей речи; Процент слов в предложении, не входящих в словарь

лексического минимума (три уровня).

Page 11: Идентификация уровня сложности текста и его адаптация

Обзор методов определения уровня сложности текста на русском языке

Были исключены все параметры, работающие с абзацами, т.к. тексты нашего корпуса слишком короткие и имеют примерно одинаковую длину. Не вводилось понятие фразы, и работа проводилась исключительно со словами, т.к. тексты корпуса не имели синтаксической разметки. За счет того, что применялся конкретный словарь лексического минимума, были исключены параметры оригинальности используемых слов и их процентные отношения к текстам. Вместо этого, проверялось только наличие представителей отдельных частей речи в текстах.

Page 12: Идентификация уровня сложности текста и его адаптация

Результаты экспериментальных исследований определения уровня сложности текста на русском

языке

CA F1 Prec Recall

Naive Bayes 0.9644 0.9758 1.0000 0.9527

Random Forest 0.9867 0.9910 1.0000 0.9822

kNN 0.9683 0.9795 0.9709 0.9882

Classification Tree

1.0000 1.0000 1.0000 1.0000

SVM 0.9908 0.9941 0.9941 0.9941

Logistic regression

1.0000 1.0000 1.0000 1.0000

Объединение уровней elementary, basic, first и сравнение с неадаптированными текстами новостей.

Page 13: Идентификация уровня сложности текста и его адаптация

Результаты экспериментальных исследований определения уровня сложности текста на русском

языке

Method Classification accuracy

F-measure Precision Recall

SVM 0.8092 0.7965 0.8491 0.75

Classification Tree

0.9905 0.9916 1 0.9833

kNN 0.8131 0.7333 0.7333 0.7333

Random Forest

0.9818 0.9667 0.9667 0.9667

Naive Bayes 0.8726 0.7890 0.8776 0.7167

Классификация на 4 уровня: elementary, basic, first и неадаптированные тексты.

Page 14: Идентификация уровня сложности текста и его адаптация

Параметры текста, ранжированные по приросту информации

Variable name Information gain ratio

The percentage of words in a sentence, are not included in the active vocabulary of A1 level

0.105141

The percentage of words in a sentence, are not included in the active vocabulary of A2 level

0.105141

The percentage of words in a sentence, are not included in the active vocabulary of B1 level

0.084211

Percentage of words with 8 letters or more 0.040098

Percentage of words with 9 letters or more 0.038431

Percentage of words with 7 letters or more 0.036923

Average sentence length in syllables 0.034359

The average length of one word in a text 0.034359

Percentage of words with 10 letters or more 0.033689

Percentage of words with 5 syllable and more 0.033193

Page 15: Идентификация уровня сложности текста и его адаптация

Идентификация сложности отдельного предложения при помощи статистических параметров

Method Classification accuracy

F-measure (difficult /simple)

Precision Recall

Naive Bayes 0.8846 0.9242/0.7581

0.9378/0.7246

0.9110/0.7950

Logistic regression

0.8745 0.9212/0.6921

0.8945/0.7833

0.9495/0.6199

kNN 0.8941 0.9299/0.7840

0.9519/0.7318

0.9089/0.8441

Random Forest

0.8840 0.9208/0.7837

0.9747/0.6808

0.8725/0.9233

Classification Tree

0.8955 0.9308/0.7866

0.9527/0.7347

0.9099/0.8465

Адаптированная модель Дейла Холла для пердсказания уровня сложности предложения

Page 16: Идентификация уровня сложности текста и его адаптация

Идентификация сложности отдельного предложения при помощи статистических параметров

Method Classification accuracy

F-measure (difficult /simple)

Precision (difficult /simple)

Recall (difficult /simple)

Naive Bayes 0.7967 0.8794/0.3550

0.8119/0.6386

0.9590/0.2458

Logistic regression

0.7945 0.8770/0.3761

0.8156/0.6086

0.9484/0.2722

kNN 0.7746 0.8640/0.3434

0.8093/0.5094

0.9265/0.2590

Random Forest

0.7910 0.8788/0.2431

0.7961/0.6910

0.9806/0.1475

Classification Tree

0.7801 0.8669/0.3673

0.8140/0.5318

0.9272/0.2806

Адаптированная модель Флеша-Кинкэйда для пердсказания уровня сложности предложения

Page 17: Идентификация уровня сложности текста и его адаптация

Идентификация структурной сложности только при помощи синтаксических связей в предлоежнии

Method Classification

accuracy

F-measure Precision Recall

Naive Bayes 0.7570 0.7459 0.7813 0.7136

Logistic regression

0.7112 0.7077 0.7160 0.6995

kNN 0.7286 0.7146 0.7531 0.6798

Random Forest

0.7582 0.7472 0.7822 0.7153

Classification Tree

0.7047 0.6414 0.8158 0.5284

Page 18: Идентификация уровня сложности текста и его адаптация

Идентификация структурной сложности на основе синтаксических связей в предложении

Method Classification accuracy

F-measure Precision Recall

Naive Bayes 0.8085 0.8021/0.8144

0.8244/0.7942

0.7810/0.8356

kNN 0.7681 0.7128/0.8055

0.9271/0.6965

0.5790/0.9550

Classification Tree

0.8180 0.8056/0.8289

0.8589/0.7860

0.7585/0.8768

SVM 0.7956 0.8010/0.7900

0.8972/0.8173

0.9174/0.7645

Random Forest

0.8374 0.8307/0.8436

0.8610/0.8170

0.8271/0.8719

Page 19: Идентификация уровня сложности текста и его адаптация

Идентификация структурной сложности на основе всего множества параметров

Method Classification accuracy

F-measure Precision Recall

Naive Bayes 0.8191 0.8906/0.4767

0.8354/0.6975

0.9537/0.3621

kNN 0.8224 0.8893/0.5501

0.8571/0.6493

0.9241/0.4772

Random Forest

0.9443 0.9640/0.8768

0.9620/0.8832

0.9661/0.8705

Classification Tree

0.9364 0.9584/0.8648

0.9679/0.8380

0.9491/0.8933

SVM 0.8633 0.9125/0.6875

0.9679/0.7165

0.9491/0.6607

Page 20: Идентификация уровня сложности текста и его адаптация

Прирос информации при классификации предложений на два уровня сложности

Variable name Information gain ratio

The percentage of words in a sentence, are not included in the active vocabulary of B1 level

0.318

Sentence length in letters 0.122Percentage of words with 3 syllable and more 0.119Sentence length in syllables 0.118Sentence length in words 0.098Syntactic predicative link 0.095Average words length in syllables 0.092The average length of one word in a text 0.092Percentage of words with 7 letters or more 0.069Percentage of words with 5 letters or more 0.069

Page 21: Идентификация уровня сложности текста и его адаптация

Выводы

На основе простых статистических параметров можно достаточно эффективно предсказывать их уровень сложности

Эффективность такого предсказания ниже для отдельных переложений

Качество предсказания уровня сложности одного предложения можно улучшить, если использовать синтаксические параметры.

На основе синтаксических связей улучшается предсказание только структурной сложности предложения

Наибольший вклад в классификацию по сложности текстов и отдельных предложений вносят лексические параметры

Page 22: Идентификация уровня сложности текста и его адаптация

Адаптация (упрощение) текста для обучения иностранцев.

Цель: разработка алгоритма для лексической адаптации текста к требуемому уровню сложности.

Мотивация: Существует система обучения русскому языку, которая осуществляется поиск текстов в корпусе на основе лексико-синтаксических шаблонов. Шаблоны формируются так, чтобы найденный текст является примеров словоупотребления глагола в нужном значении. Найденные тексты сложные для восприятия, поэтому хотелось бы их упростить.

Karpov N. Corpus-Based Text Retrieval and Adaptation for Learning System , in: International Conference on Advances in Computing and Information Technology - ACIT 2014. Newark : Institute of Research engineers and Doctors, 2014. P. 60-65.

Page 23: Идентификация уровня сложности текста и его адаптация

Адаптация или упрощение текста. Эмпирическое исследование структурных методов упрощения текста

Два специалиста независимо провели адаптацию набора текстов и систематизировали методы, которые они использовали при этом.

Структурная адаптация1. Compound and complex sentence splitting;2. Modifying (simplifying) sentence structure;3. Modifying (simplifying) phrase structure;4. Phrase shortening;5. Adding clarifying words to improve sentence readability;6. Normalizing sentence word order.

Page 24: Идентификация уровня сложности текста и его адаптация

Эмпирическое исследование методов упрощения текста. Лексическая адаптация.

1. Замена кратких или стилисически окрашеных слов (соцсеть → социальная сеть);

2. Замена редких слов (свыше → более; глава → руководитель);

3. Замена гиперонима гипонимом, когда он более частотный (табачные изделия → сигареты)

4. Замена гипонима гиперонимом, если он более частотный (врач-терапевт → врач, Путин поймал большую щуку — Путин поймал большую рыбу)

5. Разрешение анафор.

Page 25: Идентификация уровня сложности текста и его адаптация

Факторы

1. Вхождение в словарь лексического минимума соответствующего уровня (Andriushina, 2011) – ri1;

2. Частотность слова в языке в целом или в выбранном жанре – ri2;

3. Наличие синонимичной связи (Trishin, 2010) и (Sockirco 2004) – ri3;

4. Наличие гипо-гиперонимичной связи – ri4;5. Контекстная близость слов – ri5

ri=ri1*ri2*(ri3+ri4)*ri5

Принимаем решение о замене по max(ri)

Page 26: Идентификация уровня сложности текста и его адаптация

Latent Dirichlet Allocation (LDA)

One of topic-modeling methods and was first introduced by its authors as a graphical model for topic detection.

The model is based on the assumption that words in a document are independent of one another (bag of words) and of their order in the text. Similarly, documents in a Corpus are independent of one another and unordered. Distribution of words w is determined by the set of topics z. Each topic zn has its own word distribution P(wi / zk).

1. Distribution of probabilities of words w in topics z: P(wi / zk); i=1…|w|, k=1…|z|2. Distribution of probabilities of topics z in documents d:P(zk / dn); n=1…|d|, k=1…|z|

Page 27: Идентификация уровня сложности текста и его адаптация

Меры используемые для вычисления контекстной близости

1. Rсos=1-r

2. Euclidean

3. Kullback-Leibler divergence KL(P(zk / wA), P(zk / wB)) =

= zP(zk / wA)log(P(zk / wA)/ P(zk / wB));

4. Jensen-Shannon divergence:

JS(P(zk / wA), P(zk / wB)) = 0.5*(KL(P(zk / wA), P())+KL(P(zk / wB), P()))

P()=0.5(P(zk / wA), P(zk / wB))

Page 28: Идентификация уровня сложности текста и его адаптация

Контекстные расстояния слова «правительство» вычисленное по LDA модели

Synonym Euclid x0.01 Cos KL x0.01 JS x0.01

власть vlast‘authority’

1. 5493 0. 41598 1. 73546 0. 8771

администрация administraciya ‘administration’

1. 2175 0. 67216 1. 96434 1. 1365

центр center ‘center’

1. 7214 0.82965 2. 52262 2. 1914

аппарат apparat ‘apparat’

1. 9592 0.98475 1. 27487 1. 7923

Page 29: Идентификация уровня сложности текста и его адаптация

Величины факторов

Synonym ri1

ri2

ri3

ri4

ri5 x0.01

(JS div.) r

i

власть vlast‘authority’

1 4 (20694) 1 0 4 (0,8771) 16

центр center ‘center’

1 3 (7589) 1 0 2 (2,1914) 6

аппарат apparat ‘apparat’

1 2 (4600) 1 0 1 (1,7923) 2

администрация administraciya ‘administration’

1 1 (1838) 1 0 3 (1,1365) 1

Page 30: Идентификация уровня сложности текста и его адаптация

Выводы

Дистрибутивные модели позволяют вычислять семантическую близость слов по контекстной близости

С использованием дополнительных факторов, таких как вождение в лексический минимум, синонимическая или гипо-гиперонимическая связь, частотность можно находить слова подходящие для лексического упрощения текста

Page 31: Идентификация уровня сложности текста и его адаптация

Спасибо за внимание