редактор параллельных разметок

10
Редактор параллельных разметок Ольга Ляшевская (Школа лингвистики) Дмитрий Фролов

Transcript of редактор параллельных разметок

Page 1: редактор параллельных разметок

Редактор параллельных разметок

Ольга Ляшевская (Школа лингвистики)Дмитрий Фролов

Page 2: редактор параллельных разметок

Сеять доброе

• Глобальная задача - создание лингвистических ресурсов для русского языка и других языков

• Ресурсы для машинного обучения и для научных исследователей

• Ручная разметка - важный вклад лингвистов в прогресс

Page 3: редактор параллельных разметок
Page 4: редактор параллельных разметок
Page 5: редактор параллельных разметок
Page 6: редактор параллельных разметок

Две схемы разметки

• Традиционная = разметчик + редактор

• Краудсорсинг = разметчики + редактор

вход - 1..N xml-файлов с разметкой автоматическая предподготовка

инструмент для редактора

выход - xml-файл с итоговой разметкой

Page 7: редактор параллельных разметок
Page 8: редактор параллельных разметок

Задачи (некоторые)• выравнивать данные из разных файлов по

токенам (нетривиально!!)

• показывать расхождения• давать возможность пользователю выбрать один

вариант ("правильный вариант")

• автоматически выбирать "правильный вариант", если разметки для токена везде совпадают

• выделять или (как опция) автоматически выбирать наиболее вероятный разбор по принципу "большинство голосует" (если разметок 3 и больше)

• валидность и статистика проекта

Page 9: редактор параллельных разметок
Page 10: редактор параллельных разметок