лекция 5 тема 1

24
ТЕМАНЫҢ ТӨП ӨЛӨШТӨРЕ 1.1. Белем биреүҙе ойоштороуҙың моделдары и методтары 1-се-2-се лекциялар . 1.2. ТӘБИҒИ ТЕЛ системаларының нисбәт спецификацияһы — 3-сө-4-се, 8-се лекциялар . 1.3. Белем эҫтәүҙең логик-статистик методтары 5-се-7-се лекциялар . ҮҘ АЛЛЫ ӨЙРӘНЕЛӘСӘК ТЕМАЛАРҘЫҢ ФАКУЛЬТАТИВ ӨЛӨШТӘРЕ 1.4. Тезаурус һүҙлек төҙөүҙең автоматлаштырылған технологияһы . 1.5. Телдең тәбиғи байлығын өйрәнеү миҫалы. Беренсе тема ТӘБИҒИ ТЕЛ ТАМҒАЛАР СИСТЕМАҺЫ

Transcript of лекция 5 тема 1

Page 1: лекция 5 тема 1

ТЕМАНЫҢ ТӨП ӨЛӨШТӨРЕ 1.1. Белем биреүҙе ойоштороуҙың моделдары и методтары

—1-се-2-се лекциялар . 1.2. ТӘБИҒИ ТЕЛ системаларының нисбәт спецификацияһы

— 3-сө-4-се, 8-се лекциялар .

1.3. Белем эҫтәүҙең логик-статистик методтары — 5-се-7-се лекциялар .

ҮҘ АЛЛЫ ӨЙРӘНЕЛӘСӘК ТЕМАЛАРҘЫҢ ФАКУЛЬТАТИВ ӨЛӨШТӘРЕ

1.4. Тезаурус һүҙлек төҙөүҙең автоматлаштырылған технологияһы .

1.5. Телдең тәбиғи байлығын өйрәнеү миҫалы.

Беренсе тема ТӘБИҒИ ТЕЛ ТАМҒАЛАР СИСТЕМАҺЫ

Page 2: лекция 5 тема 1

5-се лекция.

БЕЛЕМ ЭҪТӘҮҘЕҢ ЛОГИК-СТАТИСТИК ЫСУЛДАРЫ

Дистрибутив-статистик ысул Компонентлы (өлөшләп) анализлау Йышлыҡ-мәғнәүи (семантик) ысул

Page 3: лекция 5 тема 1

Әҙәбиәт

Материал лекции представлен в книге:

Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. /

Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, 2002.— книга в комплекте с CD ROM— С. 46–54.

Page 4: лекция 5 тема 1

ДИСТРИБУТИВ-СТАТИСТИК ЫСУЛ

төп гипотеза: Билдәле бер текст арауығында бергә тура килгән

телдең (һүҙҙең) мәғәнәле элементтары бер –береһе менән семантик (мәғнәүи) бәйләнештә тора.

Телдең мәғәнәле элементтарының яңғыҙ һәм бергә осрауының нисбәт (йышлыҡ) ҡылыҡһырламаһы

«бәйләнеш көсө» коэффициенты формулаһы

Телдең мәғәнәле элементтарының семантик

(мәғнәүи) классификацияһы

Page 5: лекция 5 тема 1

КОНТЕКСТАРҘЫҢ ЙЫШЛЫҠ ҠЫЛЫҠҺРЛАМАҺЫ

Контекст Сi(T) — текст өҙөгө, синтагмаларҙың эҙмә-эҙлеклелеге (сынйыр).

T = C1(T)+...+Cq(T), где Сi(T) Cj(T)=, i,j (ij) [1,q]

Әгәр синтагма телдең мәғәнәле элементы (һүҙ) булһа :

NA, fA=NA/N — А һүҙе генә тап булған контекстар нисбәте һәм йышлығы ;

NB , fB=NB/N — В һүҙе генә тап булған контекстар нисбәте һәм йышлығы

NAB , fAB=NAB/N — А менән В һүҙҙәре бергә тап килеүе күҙәтелгән контекстар нисбәте һәм йышлығы .

Page 6: лекция 5 тема 1

«БӘЙЛӘНЕШ КӨСӨ» КОЭФФИЦИЕНТТАР ФОРМУЛАҺЫ (1)

K fN

NAB ABAB

K f fN N N

NAB AB ABA B

f

N N N N

NABAB A B

.

,

.

KN

N N NABAB

A B AB

— Т.Танимото (T.T.Tаnimоtо), Л.Дойл (L.B.Dоуlе).

N

ffNK BAABAB

— М.Мэйрон (M.E.Mаrоn),

Дж.Кунс (J.Kuhns).

Page 7: лекция 5 тема 1

«БӘЙЛӘНЕШ КӨСӨ» КОЭФФИЦИЕНТТАР ФОРМУЛАҺЫ (2)

.

,

.

Kf N

f fABAB

A B

— А.Я.Шайкевич, Дж.Солтон (G.Sаltоn), Р.Куртис (R.M.Curtiсе).

Kf N f f

f f N f N fAB

AB A B

A B A B

( ) ( )

KN N N

N NABAB A B

A B

— С.Деннис (S.Dеnnis).

Kf N f f

NN

f f N f N fAB

AB A B

A B A B

log

[( ) ]

( ) ( )10

2

2— Х.Е. Стайлз (H.E.Stilеs)

Page 8: лекция 5 тема 1

«БӘЙЛӘНЕШ КӨСӨ» КОЭФФИЦИЕНТТАР ФОРМУЛАҺЫН АНАЛИЗЛАУ (1)

«Бәйләнеш көсө» коэффициенттарының бөтә формулаларын да осраҡлы күренеш системаһы булараҡ А һәм В һүҙҙәре тап килгән ваҡиғаларҙы ҡарау берләштерә.

Ысул процедураһы түбәндәге фактты раҫларға ярҙам итә:әгәр A һәм B – рекле ваҡиға булһа, P(AB)=P(A)P(B).

«Бәйләнеш көсө» коэффициентының иҫәп аңлатмаһы интерпретация (аңлатыу) талап итә.Контекст дәүмәле ( күрше һүҙҙәр нисбәте) түбәндәгеләрҙе

асыҡларға мөмкинлек бирә: а) 1–2 һүҙ — һүҙбәйләнештәрҙең контактлы синтагматик бәйләнештәрен. б) 5–10 һүҙ — дистант синтагматик бәйләнештәр һәм

парадигматик мөнәсәбәттәр в) 50–100 һүҙ — һүҙҙәр араһында тематик бәйләнештәр

Page 9: лекция 5 тема 1

«БӘЙЛӘНЕШ КӨСӨ» КОЭФФИЦИЕНТТАР ФОРМУЛАҺЫН АНАЛИЗЛАУ (2)

Тел берәмектәренең (һүҙҙәрҙең) бәйлелек матрицаһы Йәки ассоциатив матрица

һүҙ ... аi ...

һүҙ йышлыҡ fа

...

bj fb ... fаb ...

...

• тематик бәйләнешле текстарҙың үҙәген төҙөү; • тезаурусты автоматлаштырып төҙөү; •Мәғлүмәт эҙләү һәм тамғалау; • автоматлаштырып текстарҙы үҙгәртеү.

Ысулды ҡулланыу йүнәлештәре:

Page 10: лекция 5 тема 1

ДИСТРИБУТИВ-СТАТИСТИК ЫСУЛ НИГЕҘЕНДӘ ТЕЗАУРУС ЭШЛӘҮ МЕТОДИКАҺЫ

Йышлыҡлы һүҙ йыйлмаларын һәм контекста файҙаланылған һүҙҙәр (конкорданс) еҙмәһен төҙөү.

Һүҙҙәрҙең (тел берәмектәренең) тап килеү осрағтарын анализлау һәм уның нигеҙендә ассоциатив бәйләнештәр матрицаһы төҙөү.

Ассоциатив бәйләнештәр матрицаһын субъектлы интерпретациялау һәм бәйләнеш (мөнәсәбәт) кластары ҡороу.

Айырым мөнәсәбәт типтарын ( енес,зат,каузаль һ.б.) группалау (айырыу).

Һүҙҙәрҙең айырым бәйләнештәрен интерпретациялау. Семантик майҙандарҙы группалау.

Page 11: лекция 5 тема 1

КОМПОНЕНТЛЫ АНАЛИЗЛАУ Компонентлы анализлау ысулы ике төшөнсәнең икәү –ара бәйләнешен , уларҙың аңлатмаларын

анализлау нигеҙендә табырға ярҙам итә.

A төшөсәһе

нең аңлатмаһы

A төшөнсәһе

fAB B төшөнсәһе

B

төшөнсәһенең

Ысулдың төп модификациялары :

• Бәйләнештең нисбәт спецификацияһы .• Гипертекст һылтанмаһы . Берәй текст йә һүрәткә баҫып икенсе биткә,файлға сығаһың.

Page 12: лекция 5 тема 1

КОЛИЧЕСТВЕННАЯ СПЕЦИФИКАЦИЯ СВЯЗИ

Два слова А и В считаются связанными силой связи fаb = k,

если в дефинициях каждого из них есть k общих слов

— множество одинаковых слов, используемых в дефинициях слов A и B;

}{xAB

i

— количество одинаковых слов. xAB

ik , где = k >1

Кластеры слов, связанных между собой силой связи f = k , k = 1, 2, 3, ..., K.

Page 13: лекция 5 тема 1

ГИПЕРТЕКСТ ҺЫЛТАНМАҺЫӘгәр аңлатмаларында дөйөм һүҙ булһа А һәм В

һүҙҙәре бер-береһенә бәйле һанала,fаb = k =1.

Гиертекст һылтанмаларын ҡулланыу :• лексикографик системалар (электрон һүҙлектәр һәм энциклопедиялар), • электрон текстар, • мәғлүмәт – белешмә системалары һ.б.

Белем анлизлау маҡсатында файҙаланыу мөмкинлектәре • аңлатмалар системаһын анализлау , йәки аңлатмалар һүҙлеген ; • һүҙлек мәҡәләләренең сифатын баһалау ( башҡа һүҙлек мәҡәләләре менән бәйләнеш нисбәте буйынса, теҙмә стҡарап ); • аңлатмалар һүҙлегендә эксцерпцияларҙы тикшереү; • текстар һүҙлеген анализлау;• Ярҙамсы системаларҙы (hеlр-систем) тикшереү.

Page 14: лекция 5 тема 1

ЙЫШЛЫҠЛЫ-СЕМАНТИК (МӘҒНӘҮИ)

ЫСУЛ Йышлыҡлы-семантик ысулда «бәйләнеш көсөн»

баһалау критерийы сифатында һүҙҙең ике аңлатма ҡылыҡһырламаһы ҡулланыла: Элеменнтар дөйөмлөгө һәм йышлыҡ.

Ысулдың идеяһы:«...күҙ алдына килтерегеҙ : бөтә тел майҙанында йәшәүсе,биләп алыусы семантик тартыу көсөнә телдең лексик берәмектәре тултырылған. . Был майҙанда төрлө берәмектәр бер-береһе менән аралаша - атомдар, молекулалар , макротәнсәләр, планеталар, и космичк объекттар — бер кимәлдә , йәғни бер төрлө берәмектәр булараҡ һәм төрлө кимәлдәр араһында .»

Сығанаҡ биремдәр :• идеографик һүҙлектәр .• сит ил кешеләре өсөн рус теленең ҡыҫҡаса аңлатмалы һүҙлеге • С.И. Ожегов һәм Д.Н.Ушаковтың аңлатма һүҙлектәре

Page 15: лекция 5 тема 1

Әҙәбиәт

Караулов Ю.Н. Частотный словарь семантических множителей русского языка. – М.: Наука, 1980.

Караулов Ю.Н., В.И.Молчанов, В.А.Афанасьев, Н.В.Михалев. Анализ метаязыка словаря с использованием ЭВМ. – М.: Наука, 1982. – 96 с.

Page 16: лекция 5 тема 1

СЕМАНТИК МАЙҘАНДАР ТӨҘӨҮ (1)

Aak

DWwd ij Dw ji

a ijwd

Ak

DW

,

әгәр булһа була , бында :

— wi һүҙе һәм dj дескрипторы араһындағы семантик

көс аңлатмаһы

— һүҙ һәм дескриптор араһындағы семантик бәйләнештәр көсөнөң ҡабул ителгән аңлатмалар күмәклеге ;

Dj = {wij} —дескрипторҙың һүҙ күмәклеге ;

wi — һүҙ, i = 1...|W|, W = {wi} — һүҙҙәр күмәклеге ;

dj — дескриптор, j = 1...|D|, D = {dj} —дескрипторҙар күмәклеге.

Практик эш : 9000 һүҙҙе 1600 дескрипторға таратырға

Page 17: лекция 5 тема 1

СЕМАНТИК МАЙҘАНДАР ТӨҘӨҮ (2)

ПРАКТИК МӘСЬӘЛӘЛӘР СИСЕҮ ӨСӨН ҺОРАУҘАР

1.Һүҙҙәрҙе сағыштырыу ысулын билдәләүСемантик ҡабатлаусыны табыу юлын һайлау (тамғалау )

(лемматизация, ҡыҫҡартыу, тамыр табыу,, һүҙҙең нигеҙен айырыу,, һүҙҙең квазинигеҙен айырыу)

• Һүҙҙең семантик кодын табыу ысулын эшләү

2. Семантик ҡабатлаусыларҙың йышлыҡ параметрҙарын асыҡлау .

3. Һүҙҙәрҙең һәм дескрипторҙарҙың семантик бәйләнеш критерийҙарын табыу.

• Бәйләнгәнлектең тик бер осрағының феноменологик моделы • K бәйләнгәнлектең феноменологик моделы • Бәйләнгәнлектең ҡабатлаусылар йышлығын иҫәпкә алыусы моделы.

Page 18: лекция 5 тема 1

ҺҮҘҘӘРҘЕ САҒЫШТЫРЫУ САРАҺЫН ТАБЫУ

Һүҙҙең /дескрипторҙың аңлатмаһы— ~10 һүҙ ҡалыбы ,

экспериментта бөтәһе — ~110000 10 һүҙ ҡалыбы.

Семантик ҡабатлаусы — йөкмәтке планында элементар берәмек.

Төп фекерҙәр : а) телдең семантик киңлеге дискретлы; б) киңлектең элементтар йыйылмаһы сикле һәм күҙ күремендә; в) комбинациялар һаны ысынында сикһеҙ; г) семантик киңлек тарҡалмаҫ элементтарҙан тора; д) семантик элементтар бер планлы , йәғни йөкмәткегә ҡарайҙар (аң һәм танып-белеү берәмектәре булып торалар ); е) семантик элементтар ниверсаль йыйылманы тәшкил итәләр , йәғни дөйөм эйәлек (общесубъектный) менән ҡылыҡһырлана һәм уларҙың нисбәте менән йыйылмаһы бар телдәр өсөн дә бер үк.

Page 19: лекция 5 тема 1

СЕМАНТИК ҠАБАТЛАУСЫНЫ (КҮБӘЙТЕҮСЕНЕ) ТАБЫУ (ТАМҒАЛАУ ) САРАЛАРЫ

Лемматизация — һүҙҙең каноник ҡалыбын табыу .

Свертка —һүҙҙәрҙе йомоу, йәғни тәүге ижектең һуҙыңҡыларынан башҡа һуҙыңҡыларҙы алып ташлау.

Выделение корня —тамыр морфемалы һүҙҙәр.

Выделение основы слова — һүҙ күп морфеманан тора –префикстан һәм тамырҙан.

Выделение квазиосновы слова — һүҙҙең ирекле башына һүҙҙең төп мәғәнәһе ята .

Page 20: лекция 5 тема 1

ҺҮҘҘЕҢ СЕМАНТИК КОДЫН ТАБЫУ ЫСУЛЫ

ПРОЦЕДУР ЫСУЛДАР

1. Иң еңел кодлана торған һүҙҙе уның кодына индерергә2. Семантик ҡабатлаусының ҡабатланыуын булдырмау .3. Фильтрация : «нулле » семантик ҡабатлаусыларҙы алып

ташлау (мәҫәлән , күренеш, күмәклек, система, һ.б.), грамматик һүҙҙәрҙе (мәҫәлән повести, поискать, придержать һ.б.), предлогтар, союздар һ.б..

4. Ҡатып ҡалған һүҙбәйләнештәрҙе лексикализацияларға (мәҫәлән , железная дорога — желдор).

5. Һүҙҙәрҙең квазинигеҙҙәрен төҙөргә .

ЫСУЛДЫ ТОРМОШҠА АШЫРЫУ ЙОМҒАҠТАРЫ

}{s jd

x а) дескрипторҙар — dj = б) һүҙҙәр — wi = }{s iw

x

Page 21: лекция 5 тема 1

СЕМАНТИК ҠАБАТЛАУСЫДАРҘЫҢ ЙЫШЛЫҠ ПАРАМЕТРҘАРЫН ТАБЫУ

Семантик ҡабатлаусы х -ҡа ике йышлыҡ ҡылыҡһырламаһы тап килтерелә :

||

|,}{|

Wf wsw ixiWx

||

|,}{|

Df

dsw jxiDx

— семантик ҡабатлаусының дескрипторҙарҙың аңлатмаларындаосрау йышлығы

— семантик ҡабатлаусының һүҙҙәрҙең аңлатмаларында осрау йышлығы

Семантик ҡабатлаусыларҙың йышлыҡ анализы ысулы

а) йышлыҡты иҫәпләп сығарыу;

б) ҡабатлаусыларҙы аңлатмалар буйынса дәрәжәләре артыу юҫығында

рәтләү һәм тәртипкә килтереү.

Page 22: лекция 5 тема 1

ҺҮҘҘӘРҘЕҢ ҺӘМ ДЕСКРИПТОРҘАРҘЫҢ СЕМАНТИК БӘЙЛӘНЕШ КРИТЕРИЙҘАРЫН АСЫҠЛАУ

Семантик бәйләнеш критерийҙарын эшләү этаптары

1. Бәйләнгәнлектең тик бер осрағының феноменологик моделы бар,әгәр һүҙҙәрҙең һәм дескрипторҙарҙың аңлатмаһында бер генә дәйәм семантик ҡабатлаусы булһа

| dj wi | = 1; 1}{}{ ss ij w

x

d

x

2. K бәйләнгәнлектең феноменологик моделы бар,әгәр һүҙҙәрҙең һәм дескрипторҙарҙың аңлатмаһында К дөйөм семантик ҡабатлаусы булһа :

| dj wi | = K; K}{}{ ss ij w

x

d

x

3. Бәйләнгәнлектең ҡабатлаусылар йышлығын иҫәпкә алыусы моделы. ( Карауловтың селектив критерийы ).

;2K fD

x .6

Page 23: лекция 5 тема 1

КАРАУЛОВТЫҢ СЕЛЕКТИВ КРИТЕРИЙЫ

61}{}{

2}{}{

fK

K

Dx

iw

xjd

x

w

x

d

xwd

ss

ssa ij

ij

Әгәр һүҙ һәм дескриптор үҙ аңлатмаһында икенән күп семантик ҡабатлаусы тотһа,йәки уларҙың аңлатмаһында бер генә уртаҡ семантик ҡабатлаусы булып һәм уның йышлығы дескрипторҙар

күмәклегендә алтынан артһа улар бер-береһе менән семантик бәйләнештә тора.

Семантик майҙандар төҙөү процедуралары

1. Бәйләнгәнлектең тик бер осрағының моделы буйынса майҙан төҙөү.2. Тап килеүсе ҡабатлаусыларҙы иҫәпкә алыу юлы менән майҙанды

тарайтыу. 3. Семантик ҡабатлаусыларҙы иҫәпкә алыу юлы менән майҙанды

тарайтыу.

Dw ji

Әгәр

, була

Page 24: лекция 5 тема 1

ҮҘ-ҮҘЕҢДЕ ТИКШЕРЕҮ ӨСӨН ҺОРАУҘАР

Текстарҙан белем эҫтәүҙең логик-статистик ысулдарын һанап бирегеҙ.

Тексты анализлауҙың дистрибутив-статистик ысулын аңлатығыҙ

Тексты анализлауҙың йышлыҡ- семантик ысулын аңлатығыҙ.

Тексты анализлауҙың компонентлы ысулын аңлатығыҙ.