корпус русских спонтанных текстов: структура и...
-
Upload
haviva-jordan -
Category
Documents
-
view
49 -
download
0
description
Transcript of корпус русских спонтанных текстов: структура и...
Анатолий Владимирович Венцов,Юлия Олеговна Нигматулина,
Ольга Васильевна Раева,Елена Игоревна Риехакайнен,
Наталия Арсеньевна Слепокурова(СПбГУ)
КОРПУС РУССКИХ СПОНТАННЫХ ТЕКСТОВ: СТРУКТУРА И ЕДИНИЦЫ
Цель создания корпусаизучение особенностей сигнала, с которым слу шающий сталкивается при восприятии речи в естественных усло виях
разработка возможных алгоритмов преобразования непрерывного речевого акустического сигнала в линейную по следовательность лексических единиц
ФУНКЦИОНАЛЬНАЯ МОДЕЛЬ ВОСПРИЯТИЯ РЕЧИ
Виды аннотирования:
- орфографическая расшифровка;
- акустико-фонетическая транскрипция
Общая информация
- расшифровки теле- и радиопередач;
- орфографическая расшифровка: 224 минуты звучания;
- Орфографическая расшифровка + акустико-фонетическая транскрипция: 90 минут звучания.
Принципы транскрибирования
Принципы транскрибирования
Согласные
Символы (латиница)
ГлухиеЗвонкие и
озвонченные
/ʒ/ - Z
/ʦ/ c D
/x/ x h
/ʨ/ C G
/ʃ/ S -
/ɕ/ $ Z'
Мягкость согласных
'
Принципы транскрибированияУсловное обозначение /
маркерОписание
(нрзб) неразборчиво произнесенное слово или фраза
(ансмбл) одновременная речь нескольких дикторов
pause глухая пауза
inh вдох
sigh вздох
(gst) гортанная смычка или участки ларингализации
(pXX) краткая пауза (ХХ -длительность в мс)
Принципы транскрибирования
Пример:
pause 0,202
по [po+] 0,238
inh 0, 493
а-а причинам н-н-ну таким вот [ao pr'iCi+n*m n::u te"k'i+m v*t] 1,712
небесным, наверное, [n'ib'E+sn*m na"v'Erne::+] 1,214
Доступ к Корпусу
Корпус русского литературного языка http://narusco.ru/
Раздел «Наши ресурсы»
Создание конкорданса по текстам речевого корпуса
Доступ к Корпусу
Речевой корпус:
-монологическое (спонтанные монологи);
-дикторское (радиосводки Ю.Б. Левитана);
-прочитанное;
-диалоги.
Доступ к Корпусу
Доступ к Корпусу
Частотный словарь словоформ русской спонтанной речи
Орфографическая расшифровка
Транскрипция Частотность
городу [go+r*du] 2
Количество уникальных строк С/ф С/у
6651 3664 10488
потом [patu+m] 3потом [pato+m] 8потом [p*tu+] 1
Граница между словами в корпусе устных текстов
«Составные слова» = «сочетания эквивалентные слову»потому_чтокак_быто_есть … и др.
Венцов А.В., Грудева Е.В., Касевич В.Б., Ягунова Е.В. Идиомы в Национальном корпусе русского литературного языка // Международная конференция «Корпусная лингвистика–2004» Тезисы докладов (12-14 октября 2004 г., С.-Петербург). СПб, 2004. С. 17–18.
Венцов А.В., Грудева Е.В. Частотный словарь словоформ русского языка (проект). Череповец, 2008. 204 с.
Граница между словами в корпусе устных текстов
потому_что [gua+S / guáʃ]
Граница между словами в корпусе устных текстов
человека_общаться [C*lE+kap$a+c* / ʨəlɛ+kapɕa+ʦə]
Стяжение – слияние двух смежных звуков, приводящее к возникновению одного.
театр [t’&tr / tʲætr]ему_уже [Qimu+Z / ɨmu+ʒ]
дети_оттуда [d’Et’&tuda / dʲε+tʲætuda]при своём_мнении [pr* sa+emn’E+n’i / prə
sa+emnʲɛ+nʲi]
Спектрограмма сочетания когда_он [kagda+ o+n] – стяжения не произошло
Спектрограмма стяжения щи_ото [$&ta / ɕʲæta] (из словосочетания вещи_отождествлять [v'E+
$&taZd'istl'&+t’ / vʲɛ+ɕætaʒdʲistlʲæ+tʲ])
стяжение
Стяжения гласных и согласных в Корпусе русских спонтанных текстов
Стяжения Количество Процент от общего числа проанализи-
рованных сочетаний V+V или C+C на
стыке словоформ, %
гласных 310 55,5
согласных 106 74,1
Стяжения в спонтанной и прочитанной речи
гласные согласные
всего сочетаний
стяжения всего сочетаний
стяжения
спонтанная (115 мин)
559 310 (55,5%)
143 106 (74,1%)
прочитанная (46 мин)
303 191 (63,0%)
39 38
(97,9%)
Три вида единиц:
• отдельные словоформы (я, четыре и т.д);
• составные слова (то_есть, всё_равно и др.);
• словоформы, подвергшиеся стяжению (что_он [Ston / ʃton], дайте_им [da+et’im / daetjim] и др.)
Перспективы
• верификация со зданной транскрипции;
• дальнейшая фонетическая рас шифровка
записей;
• пополнение общего объема корпуса, в том числе
за счет привлечения записей подготовленной
русской речи (дикторской речи, прочитанных
текстов);
• разработка более совершенной системы поиска.
Спасибо за внимание!