Teorie sítí v lingvistice - Murtra, B., Valverde, S ... „According our theory,...
Transcript of Teorie sítí v lingvistice - Murtra, B., Valverde, S ... „According our theory,...
Teorie sítí v lingvistice
Radek Čechwww.cechradek.cz
Redukcionismus vs. komplexita
„Viděli jste někdy dítě rozebírat svou oblíbenou hračku? A viděli jste pak toho mrňouse, jak brečí, protože zjistil, že součástky ne a ne složit zase dohromady? Tak tady máte tajemství, které se nikdy neobjeví na prvních stránkách novin: rozebrali jsme svět na části a nemáme představu, jak ho zase složit zpět...“ (Barabási 2005)
„Redukcionismus nám říká, že pokud chceme přírodu pochopit, musíme nejdříve rozšifrovat, z čeho se skládá. Předpokládá se, že jakmile pochopíme části, bude jednoduché pochopit celek.“ (Barabási 2005)
Redukcionismus vs. komplexita
„Ukázalo se, že skládání dílů dohromady je úkol mnohem těžší, než vědci předpokládali. (…) Poučili jsme se, že příroda není chytře vymyšlená skládačka, která se dá složit jen jedním způsobem. V komplexních systémech se součástky dají sestavit tolika různými způsoby, že by nám trvalo miliardy let, než bychom je všechny vyzkoušeli. A přece příroda skládá dílky s lehkostí a přesností, zdokonalovanou miliony let. Využívá při tom všeobsáhlé zákony samoorganizace, jejichž původ je pro nás stále do značné míry tajemstvím.“ (Barabási 2005)
Sítě
jednou z možností, jak zachytit a analyzovat vlastnosti jevů a vztahů mezi nimi, je analýza sítí
síť graf sestávající z bodů reprezentujících entity →a hran reprezentujících vztahy mezi entitami
Syntaktická síť
Syntaktická síť
Teorie komplexních sítí
konec 90. let 20. stol. rozvoj teorie grafů, →zejména tzv. teorie komplexních sítí (TKS)
odhaluje společné vlastnosti systémů nejrůznějšího původu internet, potravní řetězce, sexuální →vztahy, neurální sítě, vědecké citace, ekonomické vztahy... jazyk
tyto společné statistické vlastnosti jsou výsledkem struktury systémů vývoje systémů
Komplexní sítě
komplexní síť graf se specifickými vlastnostmi, →zejména
efektivnost (efficiency) zranitelnost (fragility, vulnerability)
tyto vlastnosti důsledkem tzv. efektu malého světa heterogennosti
distribuce hran u uzlů se řídí mocninným zákonem bezškálová síť
Heterogennost
Komplexní sítě
odkud se berou tyto vlastnosti? dynamika sytému růst→
nestejné vlastnosti jednotlivých uzlů preferenční →připojování
Jazyk & sítě
proč zkoumat jazyk prostřednictvím metod TKS? (jazykové) univerzálie vlastnosti jazyka jako komplexního systému
srov. redukcionismus vs. komplexita „Unless we know something about the structure of
these networks, we cannot hope to understand fully how the corresponding systems work.“ (M. Newman)
evoluce jazykového systému nové interpretace jevů/procesů, např.
akvizice dysfunkce – agramatismus typologie
Jazyk v síti
„jaký“ jazyk lze zkoumat prostřednictvím teorie sítí?
jazyk jako vlastnost souboru (mluvčích) jazyk jako projev chování
Jazyk & komplexní sítě
analýzy jazyka prostřednictvím TKS lze chápat jako test hypotézy, podle které je evoluce jazyka a jeho struktura výsledkem vlivu univerzálních mechanismů (růst, preferenční připojování) →nejazykové univerzálie
Jazyk & komplexní sítě
pokud hypotéza platí, jazyk musí vykazovat následující hodnoty
distribuce hran se musí řídit mocninným zákonem
fenomén malého světa malá průměrná vzdálenost mezi uzly
vysoký koeficient shlukování poměr mezi počtem hran, které existují mezi sousedy
daného uzlu, a počtem všech možných hran mezi sousedy daného uzlu
u náhodných sítí velmi malý pro celou síť se počítá jako aritmetický průměr
koeficientů celé sítě
P (k )≈k−γ
Jednotky & vztahy
kolokační sítě (cooccurence networks) uzel slovo→
hrana souvýskyt, tj. jsou spojena slova vyskytující →se ve vetě vedle sebe
syntaktické sítě uzel slovo→
hrana syntaktický vztah (dependence)→
Jednotky & vztahy sémantické sítě
uzel slovo→
hrana sémantický vztah (synonymie)→
fonologické sítě uzel foném→
hrana fonémy jsou spojeny, pokud se vyskytují ve →stejném slově
slabiční sítě uzel slabika→
hrana slabiky jsou spojeny, pokud se vyskytují ve →stejném slově
Výsledky
Důsledky výsledky odhalují
nový typ univerzálních vlastností jazyka nejsou zaměřeny na tradiční jazykové vlastnosti, jako
je slovosled či inventář fonémů statistické vlastnosti, které lze chápat jako výsledek
komunikačního procesu (v širokém slova smyslu) rozdělení konektivit podle mocninného zákona →
vztah k Zipf‘s principle of least effort jazyk podobným typem systému, jako systémy
sociálních vztahů, internet atd. předpoklad →obecných zákonů řídících chování tohoto typu systémů
Důsledky interpretace výsledků (syntaktické sítě)
fenomén malého světa ukazuje, jak „jednoduchá“ je mentální navigace →
vezmemeli libovolná 2 slova v síti, stačí nám několik málo kroků k tomu, abychom se dostali od jednoho k druhému (navzdory velikosti sítě)
heterogennost nejvyšší počet konektivit mají funkční slova →
odstranímeli je, síť se rozpadá...
Důsledky vlastnosti komplexních sítí výsledkem dynamiky
systému (růst) analýza→ ontogeneze (akvizice) evoluce
typologie mohou rozdíly vlastností sítí →reflektovat typologické rozdíly mezi jazyky?
Preferenční připojování
S. N. Dorogovtsev & J. F. F. Mendes: Language as an evolving word web (2001)
Preferenční připojování
Preferenční připojování – syntaktická síť (PDT 2.0)
in-degrees word in-degrees word
1 15044 a 15 1670 do
2 7441 být 16 1660 za
3 3935 v 17 1593 pro
4 3677 na 18 1570 že
5 3489 mít 19 1384 muset
6 3094 s 20 1333 stát
7 2832 z 21 1027 po
8 2447 o 22 969 od
9 2288 nebo 23 914 chtít
10 2167 moci 24 901 podle
11 2112 ale 25 899 říci
12 1936 k 26 794 při
13 1882 i 27 787 než
14 1704 či 28 772 však
Komplexní sítě & jazyková akvizice
CorominasMurtra, B., Valverde, S., & Solé, R. V. (2010). Emergence of scalefree syntax networks.
sledování jazykového vývoje u jedinců →modelování sítí v jednotlivých fázích vývoje jazyka jedince
Komplexní sítě & jazyková akvizice
jazykový materiál Manchester corpus spontánní řečové projevy dětí s dospělými analyzovány korpusy 2 dětí (kluci)
Komplexní sítě & jazyková akvizice
algoritmus vybrány pouze ty řečové projevy dětí, které nejsou
imitací, neberou se v potaz onomatopoeia a neidentifikovatelné lexikální jednotky
identifikace minimálních syntaktických konstrukcí word grammar (Hudson 2006 )→
slova spojena hranou, pokud je mezi nimi syntaktický vztah
izolovaná slova nebrána v potaz
Komplexní sítě & jazyková akvizice
22 měsíců 23 měsíců 25 měsíců
Komplexní sítě & jazyková akvizice
Komplexní sítě & jazyková akvizice
Komplexní sítě & jazyková akvizice
pokus vytvořit model který bude vykazovat ostrý přechod mezi grafy
(měřeno počtem konektivit) jehož výsledkem by bude bezškálová síť
modely založené na principu preferenčního připojování však nevykazují fázový přechod k stromového grafu k bezškálové síti nutnost →udělat „datadriven“ model
Komplexní sítě & jazyková akvizice
model z jednoho ze zkoumaných dětských korpusů využity
informace o frekvenci slov a frekvenci syntaktických konstrukce o délce s = <1,11>
algoritmus (nesyntaktický)1. náhodně vygenerováno číslo <1,11>
2. na základě Zipfova zákona vybrána „slova“
3. po sobě jdoucí slova spojena hranou
4. body 13 opakovány do té doby, dokud není naplněn počet syntaktických konstrukcí v pozorovaný v dětském korpusu
Komplexní sítě & jazyková akvizice
v modelu funguje změna topologie sítě (vzhledem k tomu, že nejsou
implementovány syntakt. vztahy, dají se vlastnosti syntakt. sítí vidět jako vedlejší produkt Zipfova zákona)
nefunguje podoba syntaktických vztahů u subgrafů změna hubs
Komplexní sítě & jazyková akvizice
vzhledem k tomu, že žádný dosavadní model vývoje sítí nevykazuje kvalitativní změnu, jak se projevuje při jazykovém vývoji, nelze vidět vznik syntaktické sítě jako pouze jako výsledek samoorganizace
změna hubs a podoba subgrafů nemohou být vysvětlena přidáním dalších pravidel předpokládá se vliv →vnitřního mechanismu podpora Miller & Chomsky →(1965)
Komplexní sítě & jazyková akvizice
Anat Ninio: Language and the Learning Curve. Oxford University Press, 2006.
“According to our model, children do not reinvent the linguistic network, nor they internalize it. Instead, when children begin to produce words of their own, they link into the linguistics network, becoming part of the system. Indeed, children acquiring language are just like new users ling into WorldWide web: by linking into Web, users become part of it.“
Komplexní sítě & jazyková akvizice
bipartite network uzly → a) mluvčí b) jazykové jednotky
Komplexní sítě & jazyková akvizice
„According our theory, children acquire lexicalist grammar in which information about the syntactic behaviour of individual predicates (e.g., verbs) is stored in their lexical entry, in form of valency information.“
proces modelovaní, např. VO syntaktické konstrukce
jakmile mluvčí vysloví VO konstrukci („dej čaj“), je zapojen do sítě
v jazykové části sítě se vytvoří uzel reprezentujíc lexikální jednotku verba
Komplexní sítě & jazyková akvizice
hypotéza: nové uzly (mluvčí) připojující se k síti by se měly chovat podle principu preferenčního připojování a výsledkem by měla být bezškálová komplexní síť
na příkladu tranzitivních konstrukcí sleduje podobu sítě
porovnává sítě matek a dětí děti okamžitě →vytvářejí síť se stejnou strukturou (srov. hodnoty exponentů), přestože vůbec nekopírují jazyk, který matky používají např. se zde nemá vliv →frekvence slov
Komplexní sítě & jazyková akvizice
matky
0
10
20
30
40
50
0 25 50 75 100 125 150 175 200 225 250
Rank order of verbs
Nu
mb
er
of
mo
the
rs
Figure 5.5 Rank-frequency Zipf curve of number of mothers producing VI sentences with each verb, as a function of the verb's rank.
Komplexní sítě & jazyková akvizice
děti
0
2
4
6
8
10
12
14
0 5 10 15 20 25 30 35 40 45 50 55 60 65
Rank order of verbs
Nu
mb
er
of
ch
ildre
n
1st 2 verbs
1st 3 verbs
1st 4 verbs
1st 5 verbs
1st 6 verbs
1st 7 verbs
1st 8 verbs
1st 9 verbs
1st 10 verbs
Power (1st 2 verbs)
Power (1st 3 verbs)
Power (1st 4 verbs)
Power (1st 5 verbs)
Power (1st 6 verbs)
Power (1st 7 verbs)
Power (1st 8 verbs)
Power (1st 9 verbs)
Power (1st 10 verbs)
Figure 5.7 Distribution of number of children by rank order of verbs, for the first 2, 3, 4, 5, 6, 7, 8, 9 and 10 different verbs in VI sentences.
Komplexní sítě & jazyková akvizice
2011
Syntaktické sítě
Ferrer i Cancho et. al (2004) první analýza →syntaktických sítí (Němčina, Rumunština, Čeština)
Syntaktické sítě
„One may argue that the regularities encountered here are not significant unless it is shown that they are not a trivial consequence of some pattern already present in the syntactic structure of isolated sentences.“
Syntax for free?(Solé 2005, Nature)
Role syntaxe v syntaktické síti
H. Liu & F. Hu: What role does syntax play in a language network? (2008)
If dependencies are built by randomly linking words in the same sentence, would the network still follow the properties similar to the syntactic one?
Can the local (micro) syntactic analysis in a sentence be reflected in the global (macro) properties of a language network?
Role syntaxe v syntaktické síti
analýza „náhodného“ parsingu algoritmus
ze syntaktického stromu reálné věty odstraněny všechny linky
náhodně vybrán kořenový uzel R1 náhodně generován každému uzlu jeho řídící →
uzel (kromě kořenového uzlu a sebe samého) R2 přidána podmínka projektivity→
Role syntaxe v syntaktické síti
R1
R2
Role syntaxe v syntaktické síti
Syntaktická síť vs. náhodné sítě
S R1 R2d 3.372 3.147 3.129D 10 9 9k 6.48 7.80 7.95C 0.128 0.185 0.175
Role syntaxe v syntaktické síti
„If nonsyntactic and syntactic networks are scalefree, perhaps we might not argue that syntactic rules are just a byproduct of scalefree networks (Solé 2005). Our findings probably are not enough to dismiss the claim in (Solé 2005), but they may show that the indicators of complex networks are not enough to study the syntax of human language.“
„Our study also shows that while the network analysis focuses on the global organization of a language, it may not reflect the subtle syntactic differences of the sentence structure. If we disregard the agency of the vertex (word) in a language network, it is difficult to study micro syntactic problems by macro means as a complex network.“
Role syntaxe v syntaktické síti
Jak zjistit, zda syntax má či nemá vliv na podobu syntaktické sítě?
východisko najít nějakou „silnou“ vlastnost, →která má výrazný vliv na podobu věty, která by mohla mít vliv i na podobu syntaktické sítě(Čech et al. 2011)
Role syntaxe v syntaktické síti
slovesná valence (resp. plná valence) hypotéza: lokální významnost sloves se projeví jako
globální významnost v syntaktické síti, tj. slovesa by měla patřit mezi „významné“ prvky syntaktické sítě
lokální významnost slovesná valence →významný vliv na strukturu věty
plná valence nerozlišuje komplementy a adjunkty, →více viz Čech, R., Pajas, P., Mačutek, J. (2010). Full Valency. Verb Valency without Distinguishing Complements and Adjuncts. Journal of Quantitative Linguistics, 17, 291302.
Role syntaxe v syntaktické síti
globální významnosta) počet konektivit
b) centralita dáno počtem cest, které procházejí →daným uzlem, když jsou počítány nejkratší cesty mezi všemi uzly v síti (používáno u sociálních sítí)
betweenness centrality →
c) hub/authority měření
Role syntaxe v syntaktické síti
proč by slovesa měla být globálně významná? alespoň jedno sloveso „nutně“ v každé větě →
relativně vysoká frekvence valence (resp. plná valence) si vynucuje doplnění →
roste počet konektivit
! námitka vysoký počet konektivit u sloves dán →volbou formalismu, kdy sloveso je kořenem syntaktického stromu, tudíž se dá očekávat, že bude mít relativně vysoký počet konektivit
Role syntaxe v syntaktické síti
PDT 2.0 z 54022 vět obsahujících jak podst. jméno, tak →sloveso měla podstatná jména vyšší počet konektivit v 4261 případů v každé 12. větě kořenové postavení →slovesa automaticky nezajistilo jeho nejvyšší počet konektivit
Data & metoda
6 jazyků Čeština, Holandština, Katalánština, Maďarština,
Portugalština, Italština (treebanky)
lemmatické orientované sítě (tvorba pomocí Pajek 2.00)
multigraf počítány pouze outdegrees lemmata seskupena podle klesajících outdegrees a
sledován poměr sloves a jiných slovních druhů
Syntaktické sítě & typologie
porovnání hodnot slovnětvarové (STS) a lemmatické sítě (LS)
východisko jazyky bez flexe nebudou vykazovat → žádné rozdíly mezi STS a LS
problém příčiny rozdílů mezi STS a LS a jejich →vliv na statistické charakteristiky (Čech & Mačutek 2009)
Vlastnosti syntaktických sítí → lemmata vs. slovní formy
jazykový materiál PDT 2.0→
uzel sítě lemma, resp. slovní forma→
hrana syntaktický vztah závislosti (dáno anotací →na arovině)
lemmatická dependenční síť otázka: vykazuje lemmatická síť vlastnosti komplexní
sítě? lemmata použita pouze 1x pro cooccurence síť
(Caldeira et al. 2006)
Vlastnosti LS
LS36037
k 13.34C 0.18
3.58
n
d
Vlastnosti sítí
konektivita (k) na základě čeho se projevují rozdíly k mezi STS a
LS?
STS LS73989 36037
k 8.19 13.34C 0.12 0.18
3.84 3.58
n
d
STS vs. LS
rozdíly v k způsobeny flexí realizací syntaktických vztahů
vliv jak gramatiky, tak užití jazyka možnosti pro →analýzy žánrů, autorství atd.
STS vs. LS
networks based on languages with no inflection (as a highly isolating language) will have zero discrepancy,
networks based on languages with low inflection (as English) will have zero discrepancy or higher average degree of WFN,
for networks based on highly inflectional languages it is not possible to make theoretical hypotheses; all the three potential kinds of discrepancy could appear because the discrepancy value is significantly influenced by language usage.
STS & LS koeficient shlukování (C)
u syntaktického vztahu slov bez flexe CSTS
= CLS
u syntaktického vztahu slova bez flexe a slova flektivního může nastat
CSTS
< CLS
CSTS
= CLS
CSTS
> CLS
Typologie Liu, H. & Xu, C. (2011). Can syntactic networks
indicate morphological complexity of a language? Europhysics Letters 93, 28005.
15 jazyků; STS & LS síť pro každý jazyk parametry
konektivita
koeficient shlukování
průměrná vzdálenost mezi dvěma uzly
největší vzdálenost mezi uzly
exponent
počet linek
determinační koeficient
STS
SLS
LS
Syntaktické sítě & synergetická lingvistika
synergetická lingvistika (Köhler 1986, 2005) snaha o vytvoření jazykové teorie
teorie chápána jako soubor univerzálních zákonů z →nichž je možné odvodit empiricky testovatelné hypotézy
jazyk jako samoregulující se systém navazuje na G. K. Zipfa (1935, 1949)
the principle of least effort
Hypotézy (synergetická lingv.)
vztah délky slova a počtu konektivit H: čím větší počet konektivit, tím kratší slovo
vztah polysémie a počtu konektivit H: čím větší počet konektivit, tím větší polysémie
vztah synonymie a počtu konektivit H: čím větší počet konektivit, tím má slovo více
synonym
References
Barabási, A. L. (2005) V pavučině sítí. Praha: Paseka.
Caldeira, S.M.G., Petit Lobão, T.C., Andrade, R.F.S., Neme, A., & Miranda, J.G.V. (2006). The network of concepts in written texts. European Physical Journal B 49, 523529.
CorominasMurtra, B., Valverde, S., & Solé, R. V. (2010). Emergence of scalefree syntax networks. In: "Evolution of Communication and Language in Embodied Agents", Nolfi, E. & Mirolli, M. (eds.), Springer, pp. 8399.
Čech, R. & Mačutek, J. (2009). Word form and lemma syntactic dependency networks in Czech: a comparative study. Glottometrics 19, 8598.
Čech, R., Pajas, P., Mačutek, J. (2010). Full Valency. Verb Valency without Distinguishing Complements and Adjuncts. Journal of Quantitative Linguistics, 17, 291302.
Čech, R., Mačutek, J., & Žabokrtský, Z. The role of syntax in complex networks: local and global importance of verbs in a syntactic dependency network, Physica A: Statistical Mechanics and its Applications 390 (20), 36143623.
Dorogovtsev, S. N. & Mendes J. F. F. (2001). Language as an evolving word web. Proceedings of the Royal Sociey of London B 268, 26032606.
References
Ferrer i Cancho, R. & Solé, R. V. & Köhler, R. (2004). Patterns in syntactic dependency networks. Physical Review E 69, 051915.
Hudson, R. (2006). Language networks. The new word grammar. New York: Oxford University Press.
Köhler, R. (1986). Zur linguistischen Synergetik. Struktur und Dynamik der Lexik. Bochum: Brockmeyer.
Köhler, R. (2005). Synergetic linguistics. In: Köhler, R., Altmann, G., Piotrowski, R.G. (eds.), Quantitative Linguistik. Ein internationales Handbuch. An International Handbook: 760774. BerlinNew York: de Gruyter.
Liu, H. & Hu, F. (2008). What role does syntax play in a language network? Europhysics Letters 83, 18002.
Liu, H. & Xu, C. (2011). Can syntactic networks indicate morphological complexity of a language? Europhysics Letters 93, 28005.
Miller, G. A. & Chomsky, N. (1963). Finitary models of language users. In R. D. Luce, R. Bush, and E. Galanter, editors, Handbook of Mathematical Psychology, volume 2, pages 419–491. Wiley, New York.
References
Ninio, A. (2006). Language and the learning curve: a new theory of syntactic development. Oxford: Oxford University Press.
Ninio, A. (2011). Syntactic development, its input and output. Oxford: Oxford University Press.
Solé, R.V. (2005) Syntax for free? Nature 434, 289.
Zipf, G.K. (1935/1968). The psychobiology of language. An introduction to dynamic philology. Cambridge, Mass: MIT.
Zipf, G.K. (1949). Human behaviour and the principle of least effort. Reading, Mass.: AddisonWesley.
vice viz: Bibliography on linguistic and cognitive networkshttp://www.lsi.upc.edu/~rferrericancho/linguistic_and_cognitive_networks.html