Analýza staročeské morfologie v Excelu
description
Transcript of Analýza staročeské morfologie v Excelu
![Page 1: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/1.jpg)
BORIS LEHEČKA, [email protected]ĚLENÍ VÝVOJE JAZYKA
ÚSTAV PRO JAZYK ČESKÝ AV ČR
LINGVISTIKA PRAHA 201411. DUBNA
16.00
Analýza staročeské morfologie
v Excelu
![Page 2: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/2.jpg)
Boris Lehečka
[email protected]ělení vývoje jazyka ÚJČ AV ČRprogramátor s lingvistickými základyVokabulář webový
<http://vokabular.ujc.cas.cz>materiály ke stažení
http://vokabular.ujc.cas.cz/informace.aspx?t=LP2014 http://bit.ly/1qmOjzD
![Page 3: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/3.jpg)
Obsah
Účel analýzy deklinace staročeských apelativ časové období vzory
Auditorium anketa
Excel Power Query
import a transformace datových zdrojů programovací jazyk
![Page 4: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/4.jpg)
Obsah
Excel PowerPivot
stamiliony položek tabulky relace
Kontingenční tabulky a grafyVstupy
výchozí po transformaci
pomůckyUkázka
![Page 5: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/5.jpg)
Účel analýzy
deklinace staročeských apelativ disertační práce Pavlíny Jínové
časové obdobívzory
lemmata koncovky
ověření výskytu tvaru/tvarů
![Page 6: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/6.jpg)
Anketa
Kdo používá Excel?Jakou verzi Excelu?
2010 2013 jinou (např. Office 365 pro vysokoškoláky)
Jakou edici Excelu? Home and Student Professional
Kdo zná PowerPivot?Kdo zná Power Query?Kdo zná vertikálu?Příprava dat, nebo kontingenční tabulky/grafy v Excelu?
![Page 7: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/7.jpg)
Vstupy
Staročeská textová banka Metadata
identifikátor zkratka období vzniku literární žánr atp. (podle potřeby)
Vertikála poznámky = metainformace
![Page 8: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/8.jpg)
Staročeská textová banka – metadata
![Page 9: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/9.jpg)
Staročeská textová banka – Word
![Page 10: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/10.jpg)
Vstupy
Slovníky ESSČ (Přib–ž, ž–ch) MSS (a–ž) StčS (n–při) GbSlov (a–netbanlivý) formát XML
![Page 11: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/11.jpg)
Úpravy vstupů
Vertikála kategorizace tokenů
jazyk torzo funkce (interpunkce, číslo) relevance
segmentace tokenů na fonogramy zakončení
1–3 fonogramy
![Page 12: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/12.jpg)
Fonogram
grafická jednotka korespondující s fonémem změna fonému v důsledku hláskoslovného vývoje, flexe
a/nebo slovotvorby znamená změnu fonogramu
d ie v k ad í v k a
m ú ch am ú š ěm ou š e
h o s t i eh o s t i í
h o s t ieh o s t í
![Page 13: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/13.jpg)
Úpravy vstupů
Metadata o textech výběr údajů datace
časová období převod z XML na CSV
Slovníky lemma slovní druh morfologická charakteristika
![Page 14: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/14.jpg)
Úpravy vstupů – nástroje
C# transformace
DOCX > XML XML > VERT
VERT > TAB Metadata > TAB
OpenRefine http://openrefine.org analýza vstupů
statistiky redefinice vlastností
![Page 15: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/15.jpg)
Excel – Power Query
Doplněk verze 2.10.3598.81 pro Excel 2010 a 2013 podmínky
Windows Vista až Window 8.1 Office 2010 Professional Plus + SA Office 2013 Professional Plus, Office 365 ProPlus, Excel
2013Princip
import dat z různých zdrojů nový programovací jazyk není třeba řešit zabezpečení maker
![Page 16: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/16.jpg)
Excel – PowerPivot
Microsoft SQL Server 2012 PowerPivot for Excel
Doplněk pro Excel 2010 od Excelu 2013 je již součástí programu verze 11.0.3129.0
Podmínky Windows XP SP3 až Window 8 Office 2010 zdarma pro všechny edice v Excelu 2013 návrh pouze v edici Professional
64bitová verze (pro velké objemy dat)
![Page 17: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/17.jpg)
Excel – PowerPivot
Princip stamiliony záznamů tabulky relace
Nevýhody nerozlišuje velikost písmen relace
M : N text != jedinečný klíč
textová data velký objem bez redukce
![Page 18: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/18.jpg)
Excel – PowerPivot
Kontingenční tabulkyKontingenční grafyPrůřezy
![Page 19: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/19.jpg)
Excel – doporučení
Vstupní data textové soubory
rychlé generování lze i v Excelu identifikátory
relace tabulky v sešitě
ad hoc metadata aktualizace
v PowerPivotu v Excelu
Import v PowerPivotu nejprve nastavit parametry, pak vybrat soubor
první řádek jako názvy, až po výběru souboru
![Page 20: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/20.jpg)
Ukázka
Metadata XML TXT úpravy
Textová banka Word XML TEI P5 Vertikála
![Page 21: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/21.jpg)
Ukázka
PowerPivot import dat vytvoření relací počítané sloupce míry testovací data
malý objem kontingenční tabulka
vytváření interaktivita průřezy
pro více objektů kontingenční graf
vytváření interaktivita průřezy
![Page 22: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/22.jpg)
Ukázka
Power Query vytvoření dotazu opětovné spuštění dotazu
Sešit Tokeny reálná data připravené tabulky připravené grafy tabulka a graf na přání
![Page 23: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/23.jpg)
Analýza morfologie v Excelu
Plusy off-line není třeba korpusový manažer opakovatelnost (s jinými daty) ad hoc analýzy kontingenční přehledy zdarma (pro Excel 2010)
Minusy příprava vstupních dat chybí kontext bez pokročilých analýz
![Page 24: Analýza staročeské morfologie v Excelu](https://reader036.fdocument.pub/reader036/viewer/2022081421/56816741550346895ddbf452/html5/thumbnails/24.jpg)
Postupy
Míry Formátování čísel Velikost písmen
IdentifikátoryAktualizace
PowerPivot Kontingenční tabulky Propojené tabulky Power Query Soubory
Průřezy