редактор параллельных разметок
-
Upload
katya-cherniak -
Category
Documents
-
view
99 -
download
1
Transcript of редактор параллельных разметок
![Page 1: редактор параллельных разметок](https://reader036.fdocument.pub/reader036/viewer/2022071704/55ab4d471a28ab32428b46d1/html5/thumbnails/1.jpg)
Редактор параллельных разметок
Ольга Ляшевская (Школа лингвистики)Дмитрий Фролов
![Page 2: редактор параллельных разметок](https://reader036.fdocument.pub/reader036/viewer/2022071704/55ab4d471a28ab32428b46d1/html5/thumbnails/2.jpg)
Сеять доброе
• Глобальная задача - создание лингвистических ресурсов для русского языка и других языков
• Ресурсы для машинного обучения и для научных исследователей
• Ручная разметка - важный вклад лингвистов в прогресс
![Page 3: редактор параллельных разметок](https://reader036.fdocument.pub/reader036/viewer/2022071704/55ab4d471a28ab32428b46d1/html5/thumbnails/3.jpg)
![Page 4: редактор параллельных разметок](https://reader036.fdocument.pub/reader036/viewer/2022071704/55ab4d471a28ab32428b46d1/html5/thumbnails/4.jpg)
![Page 5: редактор параллельных разметок](https://reader036.fdocument.pub/reader036/viewer/2022071704/55ab4d471a28ab32428b46d1/html5/thumbnails/5.jpg)
![Page 6: редактор параллельных разметок](https://reader036.fdocument.pub/reader036/viewer/2022071704/55ab4d471a28ab32428b46d1/html5/thumbnails/6.jpg)
Две схемы разметки
• Традиционная = разметчик + редактор
• Краудсорсинг = разметчики + редактор
вход - 1..N xml-файлов с разметкой автоматическая предподготовка
инструмент для редактора
выход - xml-файл с итоговой разметкой
![Page 7: редактор параллельных разметок](https://reader036.fdocument.pub/reader036/viewer/2022071704/55ab4d471a28ab32428b46d1/html5/thumbnails/7.jpg)
![Page 8: редактор параллельных разметок](https://reader036.fdocument.pub/reader036/viewer/2022071704/55ab4d471a28ab32428b46d1/html5/thumbnails/8.jpg)
Задачи (некоторые)• выравнивать данные из разных файлов по
токенам (нетривиально!!)
• показывать расхождения• давать возможность пользователю выбрать один
вариант ("правильный вариант")
• автоматически выбирать "правильный вариант", если разметки для токена везде совпадают
• выделять или (как опция) автоматически выбирать наиболее вероятный разбор по принципу "большинство голосует" (если разметок 3 и больше)
• валидность и статистика проекта
![Page 9: редактор параллельных разметок](https://reader036.fdocument.pub/reader036/viewer/2022071704/55ab4d471a28ab32428b46d1/html5/thumbnails/9.jpg)
![Page 10: редактор параллельных разметок](https://reader036.fdocument.pub/reader036/viewer/2022071704/55ab4d471a28ab32428b46d1/html5/thumbnails/10.jpg)