Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

19
Nový český slovník pro kontrolu pravopisu LinuxDays 2019 Stanislav Horáček česká skupina kolem LibreOffice The Document Foundation 6. října 2019

Transcript of Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Page 1: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Nový český slovník pro kontrolu pravopisuLinuxDays 2019

Stanislav Horáček

česká skupina kolem LibreOfficeThe Document Foundation

6. října 2019

Page 2: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Úvod

český slovník pro kontrolu pravopisu

Hunspell

slovník pod licencí GNU GPL

Toto je cesky slovnik pro kontrolu pravopisu zalozeny na ceskem

slovniku pro ispell, verze z 29. 10. 2006, ktery vytvoril Petr Kolar

spolu s desitkami dalsich prispevatelu.

Page 3: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Úvod

český slovník pro kontrolu pravopisu

Hunspell

slovník pod licencí GNU GPL

Toto je cesky slovnik pro kontrolu pravopisu zalozeny na ceskem

slovniku pro ispell, verze z 29. 10. 2006, ktery vytvoril Petr Kolar

spolu s desitkami dalsich prispevatelu.

Page 4: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Úvod

Český tvarotvorný slovník slovní zásoba

• Masarykova univerzita

• únor 2019, licence public domain (= CC0)

• analýza jazykového korpusu

• podstatná jména, přídavná jména, slovesa

• ~60 000 základních tvarů

• github.com/plin/slovnik

Page 5: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Úvod

Slovníková data na Wikidatech rozhraní

• oddělený prostor

• databáze slovní zásoby

• lexémy – tvary, významy, příznaky

• ~3000 základních tvarů

• během roku 2018, licence CC0

• stabilní, univerzální

• www.wikidata.org/wiki/Wikidata:Lexicographical_data/cs

Page 6: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Úvod

Český tvarotvorný slovník

+ slovníková data z Wikidat

= české CC0 slovníky

experimentální!

Page 7: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Úvod

Český tvarotvorný slovník

+ slovníková data z Wikidat

= české CC0 slovníky

experimentální!

Page 8: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Jak vyzkoušet

rozšíření pro LibreOfficeextensions.libreoffice.org/extensions/czech-cc0-dictionaries-ceske-cc0-slovniky

Page 9: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Jak vyzkoušet

doplněk pro software Mozillygitlab.com/strepon/czech-cc0-dictionaries/tree/master/mozilla

Page 10: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Jak vyzkoušet

kontrola na ceskeslovniky.cz

Page 11: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Ukázky

Page 12: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Ukázky

Page 13: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Ukázky

Page 14: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Srovnání úspěšnosti

procentuální podíl slov označených jako chybná

2019.06 2019.08 2019.10 GNU GPL

Dobrodružství9,02 7,40 7,02 2,63

Sherlocka Holmese

Evangelium podle Jana 7,46 5,50 4,91 0,67

LibreOffice Writer:6,00 5,39 4,76 3,33

Praktický průvodce

R.U.R. 16,82 12,49 12,03 8,37

Ústava České republiky 7,89 6,52 6,23 0,90

program LinuxDays 34,05 33,12 32,97 29,10

Page 15: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Jak vylepšit

• doplňování slov na Wikidata

Page 16: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Jak vylepšit

nový lexém na Wikidatechwww.wikidata.org/wiki/Special:NewLexeme

Page 17: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Jak vylepšit

šablony pro různé slovní druhytools.wmflabs.org/lexeme-forms/

Page 18: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Jak vylepšit

• doplňování slov na Wikidata

• import z Tvarotvorného slovníku

• import z Wikislovníku, Wikidat

• vzory do Hunspellu

• nové šablony

• nahlášení ze softwaru

• kampaň pro určité texty

Page 19: Nový český slovník pro kontrolu pravopisu - LinuxDays 2019

Shrnutí

nový český slovník kontroly pravopisu

• licence CC0

• experimentální

• Tvarotvorný slovník a Wikidata

• budoucnost?

• ceskeslovniky.cz

• gitlab.com/strepon/czech-cc0-dictionaries

[email protected]