лекция 7 тема 1

28
Беренсе тема ТӘБИҒИ ТЕЛ ТАМҒАЛАР СИСТЕМАҺЫ ТЕМАНЫҢ ТӨП ӨЛӨШТӨРЕ 1.1. Белем биреүҙе ойоштороуҙың моделдары и методтары 1-се-2-се лекциялар . 1.2. ТӘБИҒИ ТЕЛ системаларының нисбәт спецификацияһы — 3-сө-4-се, 8-се лекциялар . 1.3. Белем эҫтәүҙең логик-статистик методтары 5-се-7-се лекциялар . ҮҘ АЛЛЫ ӨЙРӘНЕЛӘСӘК ТЕМАЛАРҘЫҢ ФАКУЛЬТАТИВ ӨЛӨШТӘРЕ 1.4. Тезаурус һүҙлек төҙөүҙең автоматлаштырылған технологияһы . 1.5. Телдең тәбиғи байлығын өйрәнеү миҫалы.

Transcript of лекция 7 тема 1

Беренсе тема ТӘБИҒИ ТЕЛ ТАМҒАЛАР СИСТЕМАҺЫ

ТЕМАНЫҢ ТӨП ӨЛӨШТӨРЕ 1.1. Белем биреүҙе ойоштороуҙың моделдары и методтары

—1-се-2-се лекциялар . 1.2. ТӘБИҒИ ТЕЛ системаларының нисбәт спецификацияһы

— 3-сө-4-се, 8-се лекциялар .

1.3. Белем эҫтәүҙең логик-статистик методтары — 5-се-7-се лекциялар .

ҮҘ АЛЛЫ ӨЙРӘНЕЛӘСӘК ТЕМАЛАРҘЫҢ ФАКУЛЬТАТИВ ӨЛӨШТӘРЕ

1.4. Тезаурус һүҙлек төҙөүҙең автоматлаштырылған технологияһы .

1.5. Телдең тәбиғи байлығын өйрәнеү миҫалы.

7-се Лекция

ТЕКСТЫҢ ПАРАДИГМАТИК МОДЕЛЫ

Тәбиғи тел ПОРМ тасуирламаһының парадигматик моделы

Яһалма парадигматик конструктивтар

Әҙәбиәт

Материал лекции представлен в книге:

Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. /

Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, 2002.— книга в комплекте с CD ROM— С. 64–73.

Тәбиғи тел ПОРМ тасуирламаһының парадигматик моделы

}{KGPRD

i

ТЕКСТЫҢ ПАРАДИГМАТИК МОДЕЛЫ төп парадигматик конструктивтар күмәклеге ,йәки

формаль-тел теоретик-күмәклекле тасуирламаһы нигеҙендә тексты үҙгәртеү юлы менән табылған ауҙарылған

синтагматик конструктивтар рәүешендә күҙаллана :

GStgKSTG

}{}{Pr ,, IGStgIKGdKSTGPRD

i

IСТОG

ЕЯО ПОРМ

СТО ПОРМ

СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ СТО ПОРМ

ПАРАДИГМАТИК КОНСТРУКТИВТЫҢ СТРУКТУРАҺЫ

KIPRD

i

1 }{Pr 11, IIStgIdK

PRD

i

}{ ,1,...,2,1, IIStgIStgIStgGStgGX

PRD X

}}{{ 1,, IIStgGStgG

xPRD x

ПАРАДИГМАТИК КОНСТРУКТИВТАРҘЫҢ ӨЛӨШТӘРЕ

Синтагматик — формаль- тел тасуирламаһы .

Парадигматик — тәбиғи- тел тасуирламаһы , формаль- тел тасуирламаһы ,

һүҙлек—тезаурус тасуирламаһы .

парадигматик модель

— текстың синтагматик моделдары һәм уның ауҙармалары күмәклеге.

ӘҘӘБИӘТ

Ю.Н.Филиппович Интеграция предмета, образа и субъекта в концептуальном проектировании информационных технологий и систем // Интеллектуальные технологии и системы. Сборник статей аспирантов, стажеров и студентов. Вып. 1. – М.: Изд-во МГТУ им Н.Э.Баумана,1998. С. 9–33.

Ю.Н. Филиппович Семиотическая концепция интеграции информационных технологий // Sсriрtа linguistiсае аррliсаtае. Проблемы прикладной линг вистики – 2001. Сб.ст. / Отв. ред. А.И. Новиков.– М.: «Азбуковник», 2001.С. 319–342.

ПАРАДИГМАТИК КОНСТРУКТИВТАР

ТЕКСТЫҢ ПАРАДИГМАТИК СТРУКТУРАҺЫ— төп һәм яһалма

парадигматик конструктивтар комплексы

Төп парадигматик конструктивтар: Һүҙлек мәҡәләләре , Парадигматик мөнәсәбәттәр.

Яһалма парадигматик конструктивтар: Өлөшләтә һүҙҙәр йыйылмаһы

(формаль булмаған билдә менән сикләнеүсе), һүҙкүрһәтеүселәр (предметлы, исемле һ.б.), конкорданстар, һүҙлектәр, ареалдар, Тезаурустар һ.б.

ПРЕДМЕТЛЫ (ТЕРМИНОЛОГИК) КҮРҺӘТЕҮСЕ

.

,

.

,

,

},{Pr , IGStgGdKПУПУPRD УПУ

GStgУ IПУ

— һүҙ күрһәтеүсе , —реаль тормошто предметты аңлатыусы һүҙҙәрҙе һайлау.

где:

Предметлы күрһәтеүсе,тексты формаль тел үҙгәртеү нигеҙендә килеп сыҡҡан һүҙ күрһәтеүсене ауҙарыу юлы менән яһала.

Ауҙарыу «Һүҙ-предметтарҙы » айырып билдәләүҙә тора.

Предметлы (терминологик) күрһәтеүсе булып һүҙ менән һүҙбәйләнештәр менән (2- әр-3-әр һүҙле) аталған ПОРМ төп

терминдары һәм төшөнсәләре торорға мөмкин. Аббревиатуралар айырым күрһәтелә..

ИСЕМЛЕ КҮРҺӘТЕҮСЕ

.

,

.

GStgУ — һүҙ күрһәтеүсе —исемде аңлатҡан һүҙҙәрҙе һайлау

где:

IУИ

},{Pr ,И

IGStgGdKИУУPRD УИУ

Исемле күрһәтеүсе тексты формаль тел үҙгәртеү нигеҙендә килеп сыҡҡан һүҙ күрһәтеүсене ауҙарыу юлы менән яһала.

Ауҙарыу «Һүҙ-исемдәрҙе » айырып билдәләүҙә тора

Исемле күрһәтеүсегә бөтә яңғыҙлыҡ исемдәр,шул иҫәптән һүҙбәйләнештән торғандары инә. Уларҙың аббревиатуралар,

персоналиялар, ойошмалар,топонимдар кеүек типтары ла күҙаллана.

ГРАММАТИК ҺҮҘЛЕК

ПОРМ тәбиғи тел тасуирламаһының грамматик һүҙлегенә инә :Исемдәр, сифаттар,

ҡылымдар,рәүештәр,һандар,предлогтар,ымлыҡтар,союздар,киҫәксәләр һәм алмаштар.

Грамматик һүҙлектең һүҙлек мәҡәләләре структураһы.<ЛЕММА> <МИ> {S} [S]

<һүҙҡалыбы 1> <МИ1> [i1]< һүҙҡалыбы 2> <МИ2> [i2]...

< һүҙҡалыбы МАk> <МИk> [ik]

ЛЕММА — төп ҡалыптағы һүҙ; МИ — һүҙ тураһында морфологик информация ; МИj — ентекле грамматик информация; s —текстағы һүҙ ҡалыбы нисбәте; S — текстағы һүҙ ҡалыбының дөйөм нисбәте ; ij — j-сы һүҙҡалыбы ның йышлығы.

Ауҙарыу (Интерпретация) субъект тарафынан омонимия проблемаларын хәл ителеүҙе күҙ уңында тотоп формальо

морфологик анализ яһау юлы менән лемматизациялауҙа тора

ӘҘӘБИӘТ

Г.О.Сидоров. Лемматизация в автоматизированной системе построения словарей языка писателей // Слово Достоевского. Сб. ст. / Под ред. Ю.Н.Караулова. – М.: Инт.Русск. яз. РАН, 1996. С.266–300.

ҺҮҘБӘЙЛӘНЕШТӘР ҺҮҘЛЕГЕ

.

Һүҙбәйләнештәр һүҙлегенең һүҙлек мәҡәләләре структураһы

<ЛЕММА> (Һүҙбәйләнеш1),(Һүҙбәйләнеш2), ... (Һүҙбәйләнешk).

Бында: ЛЕММА —грамматик һүҙлектәге төп ҡалыптағы һүҙ ; Һүҙбәйләнеш — ике-өс һүҙҙән торған предметҡа күрһәтеүсе һүҙбәйләнеш ,ул ПО тәбиғи тел тасуирламаһында термин йә төп төшөнсә булып тора. Ауҙарыу тотороҡло һүҙбәйләнештәр һайлауҙан тора.

КОНКОРДАНС (КОНТЕКСТАР ҺҮҘЛЕГЕ

Конкорданстың (контекстар һүҙлегенең) һүҙлек мәҡәләләре структураһы

<ЛЕММА/ ҺҮҘБӘЙЛӘНЕШ > <КОНТЕКСТ> <АДРЕС>.

Здесь: КОНТЕКСТ — һүҙ ҡалыбының йәки һүҙбәйләнештең иң яҡын “мөхите” , уның үлсәме ирекле һайлана,шулай ҙа күп осраҡта уны һөйләм менән сикләү кәрәк (бер лемма өсөн контекстар нисбәте өстән бишкә тиклем булырға тейеш ,ә һүҙбәйләнештәр өсөн берәү-икәү етә); АДРЕС — контекстың сығанағын күрһәтә.

Ауҙарыу контекстар,уларҙың дәүмәлен һәм нисбәтен һайлауҙан тора.

АҢЛАТМАЛАР ҺҮҘЛЕГЕ (1)

Аңлатмалар һүҙлегенә предмет күрһәтеүсеһенән алынған ПОРМ төп төшөнсәләрҙең тасуирламалары инә.

Һүҙлек мәҡәләләрендә түбәндәге мәғлүмәттәр булырға мөмкин:

•Баш һүҙ (предмет күрһәтеүсеһенән төшөнсә),• Башҡа аңлатмалар һүҙлегенән аңлатмалар варианты(төрө) , •Тотороҡло һүҙбәйләнештәр (һүҙбәйләнештәр һүҙлегенән)•Эксцерпциялар (өҙөктәр) (ПО тәбиғи тел тасуирламаһы текстарынан контекстар өлгөһө)•Конкорданс контекстарының сығанаҡтарын күрһәтеү.• һ.б.

Ауҙарыу һүҙлек мәҡәләләренең структураһын һәм составын (аралашмаһын) билдәләүҙә торп.

АҢЛАТМАЛАР ҺҮҘЛЕГЕ (2)

XI–XVII БЫУАТТЫҢ РУС ТЕЛЕ ҺҮҘЛЕГЕ.

ИСКУССТВО, с. 1. Умение, знание, искусство. Како не зримъ прилежно

мысленнымъ своимъ окомъ древняго дракона, врага нашего бодрого, и никогда же спящаго, и множаишими л#ты искуство злобы имущаго.

Курб. Пис., 387. XVII в. XVI в. 4 ч<еловека> бомбардировъ, немец кой породы,

которые бы им#ли въ своей наук# и въ воинскихъ д#л#хъ доброе и свид#телствованное искуство.

ДАИ XII, 383. 1695 г.2. Опыт; способ к узнаванию чего-л., эксперимент.

Искусством бо сие разум#хомъ. М. Гр. I, 300. XVI—XVII вв. XVI в. Т#мъ искусствомъ опознаваемъ. Травник Любч., 407. XVII в. 1534 г.

АҢЛАТМАЛАР ҺҮҘЛЕГЕ (3)

ВОКАБУЛА морф. призн.

I.

II. Толкование.

А.

Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }

Толкование.

1. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }

2. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }

Б. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }

III. Толкование.

1. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }

2. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }

ВОКАБУЛА морф. призн. Толкование. { Эксцерпция. Ук. источн. ДатаПагинация }

XI-XVII быуат рус теле һүҙлегенең һүҙлек мәҡәләләре структураһы.

ТЕЗАУРУС (1)

Парадигматик конструктив тезаурус өс формаль объект булараҡ күҙаллана.

{<синтагма XI ><мөнәсәбәттәр R ><синтагма XJ >}.

Такое представление парадигматик конструктивтарҙы шул рәүешле күҙаллау уны RX-кодтарҙың формаль тел

элементы итеп ҡарарға мөмкинселек бирә:X-терминдар; R-релатемдар

}{ KKK STG

J

PRD

R

STG

I

ТЕЗАУРУС (2)Парадигматик мөнәсәбәттәрҙең миҫалы булып тел элементтары

араһындағы «бәйләнеш көсөн» баһалауҙың формаль моделы

коэффициенттар тора. Айырым алғанда, конструктив парадигматик

мөнәсәбәттәрҙе R коэффициентының ауҙармаһы рәүешендә

күҙаллана.

KR

AB}{ , IKKR

AB

R

AB

PRD

R I

R

AB

Парадигматик мөнәсәбәттәр графтың, белем күрһәтеүҙең (селтәрле,фреймлы һ.б.) бер формаль моделының элементы

булып тора

}}{,}{{ KKVTPRD

R

STG

I

ТЕЗАУРУС (3)

Ui

Uj

R(u i, u j)

<u i, u j>

L = (U, V), бында:U – селтәрҙең күп һанлы түбәләре (леммалары), V –күп һанлы бәйләнештәр.U = { u1, u2, ..., uK }, бында:k – айырып билдәләнгән леммалар һаны.V U2 , V = { <ui,uj> }R(ui,uj) – был U2 күмәклегендә билдәләнгән функция – ui һәм uj

түбәләр араһындағы бәйләнештең нисбәт самаһы. Үҙенсәлектәре:R(ui,uj): R(ui,uj) = 0 <ui,uj> V;әгәр <ui, uj> <uj, ui>, то R(ui,uj) R(uj,ui).

Тезаурусты ябай семантик селтәр рәүешедә тасуирлау

<ui, uj> –түбәнән түбәгә йүнәлтелгән бәйләнеш

ТЕЗАУРУС (4)

Текстар корпусы нигеҙендә R(ui,uj) функцияһын төҙөү мәсьәләһе .

T = C1(T)+...+Cq(T), где Сi(T) Cj(T)=, i,j (ij) [1,q]Ҡылыҡһырламалар сығарабыҙ: |T| – T тексындағы һүҙҙәр һаны , |Сi(T)| – T тексының i- контексындағы һүҙҙәр һаны .

Әгәр Сi(T) Cj(T)=, i,j (ij) [1,q], килеп сыға q –бүлеү гранулярлығы, йәғни T тексы бүленгән киҫешмәгән контекстар һаны. Иҫәпләйбеҙ |Ci(T)|=|Cj(T)|, i,j [1,q] өсөн, шул ваҡытта |T| = q|C(T)|, бында С(T) һайланған контекстарҙың ҡайһы берҙәре.

q

ii TCT

1

|)(|||

ТЕЗАУРУС (5)

С(T) шулай уҡ текст булғанлыҡтан, уның өсөн С(T) контексында баһаһы w һүҙҙәр һанына тиң булған N(w,C(T)) йышлыҡ

функцияһы билдәләргә мөмкин .

Был йышлыҡ функцияһы бөтә контекстарға ла индерелә.N(w,C1(T)), N(w,C2(T)),..., N(w,Cq(T)).

T тексына ҡағылған ике һүҙҙе - w1 һәм w2, алып ҡарайбыҙ Улар өсөн ике рәт яҙабыҙ:

N(w1,C1(T)), N(w1,C2(T)),..., N(w1,Cq(T))N(w2,C1(T)), N(w2,C2(T)),..., N(w2,Cq(T))

Билдәләйбеҙ:N(w1,C(T)) – һайлап алынған контекстар иҫәбенән w1 һүҙҙәр

һаны ;N(w2,C(T)) – һайлап алынған контекстар иҫәбенән w2 һүҙҙәр

һаны ;

ТЕЗАУРУС (6)

N(w1,C(T))=1 N(w1,C(T))=2 ... N(w1,C(T))=R nу

N(w2,C(T))=1 n(1,1) n(1,2) n(1,R)

N(w2,C(T))=2 n(2,1) n(2,2) n(2,R)

N(w2,C(T))=3 n(3,1) n(3,2) n(3,R)

...

N(w2,C(T))=R n(R,1) n(R,2) n(R,R)

ух

х йышлығы булған w1 һүҙе, у йышлығы булған w2 һүҙе ингән контекстар һанының n(х, у) функцияһын билдәләйек.

n(х,у) = n(N(w1,C(T)), N(w2,C(T)))

R = |С(T)| –контекстың үлсәме, nх – бағаналар суммаһы, nу –юлдар суммаһы

– бағаналар буйынса уртаса һан=xy

R

yx

yxynn 1

),(1

ТЕЗАУРУС (7)

Семантик селтәрҙе ҡорор өсөн T пар һүҙҙәр өсөн <wi, wj>. Корреляцион матрица төҙөү талап ителә .

w1 һәм w2 һүҙҙәре араһында бәйләнеш сараһы сифатында корреляция коэффициенттары йәки корреляцион мөнәсәбәттәр

файҙаланыла ала. Семантик селтәрҙе ҡороу факторҙары :

а) һүҙҙәр күмәклегенең төп нөсхәһен лемматизациялау процедураһы; б) корреляцион матрицаның RхR, үлсәмлелеге, ихтизарлығы; в) q бүлеменең гранулярлығы; г) бәйләнештең «йүнәлешлелеге».

ӘҘӘБИӘТ

А.В.Прохоров. Методы исследования естественно-языкового описания предметной области «Информатика и вычислительная техника» // Интеллектуальные технологии и системы. Сб. ст. аспирантов, стажеров и студентов. Вып. 1. – М.: Изд-во МГТУ им. Н.Э.Баумана, 1998.

АРЕАЛ (1)

Парадигматик конструктив ареал

— тезаурустың селектив критерий,мәҫәлән, «бәйләнеш көсө» коэффициенты аңлатмаһы буйынса айырып билдәләнгән өлөшө

Парадигматик ареалдарҙы төҙөү — кластерлы анализ бурысы.

Тезаурусты ябай семантик селтәр рәүешендә күҙааллаған хәлдә эш түбәләре (леммаларҙың) бирелгән үҙенсәлектәре менән , йәки дуғалары («бәйләнеш көсө» коэффициенттарын) менән

подграф табыуға ҡайтып ҡала .

АРЕАЛ (2)

,

u 1

u 2R(u 1 , u 2)

u 3

u 4

u NR(u 1 , u 3)

R(u 3 , u 4)

R(u 4 , u 2)

R(u 4 , u N )

R(u N , u 3)

u N-1

u 5

R(u 2 , u 1)

Тезаурус — тулыһынса

бәйләнмәгән йүнәлешле граф L =

(U,V) :

U = { u1, u2, ..., uN },

V U2 , V = { <ui,uj> },

R(ui,uj) = k(ui,uj)

АРЕАЛ (3)

Тезаурус ябай семантик селтәр рәүешендә. L = (U,V)

<ui, uj> ҡырҙарын алып ташлау, улар өсөн R(ui,uj)<R0 и Vij <

V0.

Килтерелгән семантик селтәр L(R0,V0)

L(R0,V0) семантик селтәрендәге A семантик ареалы тип түбәндәге шарттар үтәлгән

A = { ui } түбәләренең күмәклеген атайбыҙ:

U өсөн i , uj A, Vij > V0; ui өсөн, uj A дәрәҫ R(ui,uj) > R0 ui өсөн A и uj A дөрөҫ R(ui,uj) R0

ҮҘ-ҮҘЕҢДЕ ТИКШЕРЕҮ ӨСӨН ҺОРАУҘАР

1. Текстың парадигматик моделы нимә ул?2. Парадигматик конструктивтың структураһы ниндәй?3. Предметлы һәм исемле күрһәтеүсе ,һүҙлек кеүек

парадигматик конструктивтарҙың структураһы ниндәй ?4. Грамматик, һүҙбәйләнеш, текст,аңлатмалар һүҙлектәренең

парадигматик конструктивтарының структураһы ниндәй ?

5. Тезаурустың парадигматик конструктивы структураһы ниндәй ?

6. Ареалдың парадигматик конструктивы структураһы ниндәй?