A teď si to zkuste sami

A teď si to zkuste sami

• rdaqwi bc dwefewq riwgdh, aegebjckbmn rkcobcoq bcocw sc bsc rkqhdsgc bqa q hcjw kdfswcmwc sgejkge bocwcge, tcf ai rkdrwdisqwd adfmca, qgef dn s gc fqgchuqwd bcdcacgbe banbwirwgdi bjdri. hcmqw gq jcwcFdgqj rkcfeocgjq tebjc sfoqwcgc fcac, gcjkrcwesc rkcaejqw, mon jcg fqjkqhcgn huwqr mdgchgc fqsdwq, q irdkgc bc bgqfew rdjwqhej gcrketcagc sfrdaegmn gq swcmwn, igqsgn q ddjefgn ocg. gq geh tegcud if ai s uwqsc rkqmjehmn gcfdnsqwd aebjd.

Text je v češtině v abecedě s 26 znaky (bez diakritiky)

Nejčastější znaky v obecném českém textu:

E 10,13%; A 8,99%; O 8,39%; I 6,92%; N 6,64%; S 5,74%; R 5,33%

Výskyt znaků v textu

a b c d e f g h i j k l m n o p q r s t u v w x y z

14 17 49 26 22 17 34 11 11 17 13 0 10 11 9 0 34 18 17 4 4 0 28 0 0 0

3,84,613,37,16,04,69,23,03,04,63,50,02,73,02,40,09,24,94,61,01,00,07,60,00,00,0

Nejčastější znaky• c frekvence 13,39%

• g a q 9,29%

• c se nikdy nevyskytuje samostatně ani na začátku slova ---- Hypotéza c odpovídá E

• q tvoří samostatné slovo, nebo druhé písmeno ve dvoupísmených slovech – Hypotéza q odpovídá A

• g se často vyskytuje na začátku slov (je to souhláska). Tvoří dvoupísmená slova s e a s a – Hypotéza g odpovídá N

Teď to vypadá takto rdaAwi bE dwefewA riwNdh, aeNebjEkbmn rkEobEoA

bEoEw sE bsE rkAhdsNE bAa A hEjw kdfswEmwE sNejkNe boEwENe, tEf ai rkdrwdisAwd adfmEa, ANef dn s NE fANEhuAwd bEdEaENbe banbwirwNdi

bjdri. hEmAw NA jEwEFdNAj rkEfeoENjA tebjE sfoAwENE fEaE, NEjkrEwesE rkEaejAw, mon jEN fAjkAhENn huwAr mdNEhNE fAsdwA, A irdkNE bE bNAfew rdjwAhej NErketEaNE sfrdaeNmn NA swEmwn, iNAsNn A ddjefNn oEN. NA Neh teNEud if ai s uwAsE rkAmjehmn NEfdnsAwd aebjd.

Další časté znaky jsou e a w. Vyskytují se často vedle sebe – právě jeden z nich je samohláska. E je často v okolí N – je to samohláska, praděpodobně I

rdaAwi bE dwIfIwA riwNdh, aINIbjEkbmn rkEobEoA bEoEw sE bsE rkAhdsNE bAa A hEjw kdfswEmwE sNIjkNI boEwENI, tEf ai kdrwdisAwd adfmEa, ANIf dn s NE fANEhuAwd bEdEaENbI banbwirwNdi bjdri. hEmAw NA jEwEFdNAj rkEfIoENjA tIbjE sfoAwENE fEaE, NEjkrEwIsE rkEaIjAw, mon jEN fAjkAhENn uwAr mdNEhNE fAsdwA, A irdkNE bE bNAfIw rdjwAhIj NErkItEaNE sfrdaINmn NA swEmwn, iNAsNn A ddjIfNn oEN. NA NIh tINEud if ai s uwAsE rkAmjIhmn NEfdnsAwd aIbjd.

Patrné je slovo ANIZ , tedy f odpovídá ZS tvoří samostatné slovo, dvoupísmené slovo s písmenem E – je to v

rdaAwi bE dwIZIwA riwNdh, aINIbjEkbmn rkEobEoA bEoEw VE bVE rkAhdVNE bAa A hEjw kdZVwEmwE VNIjkNI boEwENI, tEZ ai kdrwdiVAwd adZmEa, ANIZ dn V NE ZANEhuAwd bEdEaENbI banbwirwNdi bjdri. hEmAw NA jEwEFdNAj rkEZIoENjA tIbjE VZoAwENE ZEaE, NEjkrEwIVE rkEaIjAw, mon jEN ZAjkAhENn uwAr mdNEhNE ZAVdwA, A irdkNE bE bNAZIw rdjwAhIj NErkItEaNE VZrdaINmn NA VwEmwn, iNAVNn A ddjIZNn oEN. NA NIh tINEud iZ ai V uwAVE rkAmjIhmn NEZdnVAwd aIbjd.

Na vyznačeném místě se rýsuje spojení VE SVE PRACOVNE, tedyb je S, r je P, k je r, h je C, d je O

POaAwi SE OwIZIwA PiwNOC, aINISjERSmn rREoSEoA SEoEw VE SVE PRACOVNE SAa A CEjw ROZVwEmwE VNIjRNI SoEwENI, tEZ ai ROPwOiVAwO aOZmEa, ANIZ On V NE ZANECuAwO SEOEaENSI SanSwiPwNOi SjOPi. CEmAw NA jEwEFONAj PREZIoENjA tISjE VZoAwENE ZEaE, NEjRPEwIVE PREaIjAw, mon jEN ZAjRACENn uwAP mONECNE ZAVOwA, A iPORNE SE SNAZIw POjwACIj NEPRItEaNE VZPOaINmn NA VwEmwn, iNAVNn A OOjIZNn oEN. NA NIC tINEuO iZ ai V uwAVE PRAmjICmn NEZOnVAwO aISjO.Nyní již lze domyslet snadno i ostatní písmena,Slovo POMALU: a je M, w je L, I je USlovo MINISTERSKY: m je K, n je Y Slovo PREDSEDA: r je P, o je DSlovo VNITRNI: j je TSlovo JINEHO: t je J, u je H

POMALU SE BLIZILA PULNOC, MINISTERSKY PREDSEDA SEDEL VE SVE PRACOVNE SAM A CETL ROZVLEKLE VNITRNI SDELENI, JEZ MU ROPLOUVALO MOZKEM, ANIZ BY V NE ZANECHALO SEBEMENSI SMYSLUPLNOU STOPU. CEKAL NA TELEFONAT PREZIDENTA JISTE VZDALENE ZEME, NETRPELIVE PREMITAL, KDY TEN ZATRACENY CHLAP KONECNE ZAVOLA, A UPORNE SE SNAZIL POTLACIT NEPRIJEMNE VZPOMINKY NA VLEKLY, UNAVNY A OBTIZNY DEN. NA NIC JINEHO UZ MU V HLAVE PRAKTICKY NEZBYVALO MISTO.

Výsledkem je začátek českého překladu knihy Harry Potter a princ dvojí krve

Index koincidence

Metoda, která umožní zjistit bez dešifrování textu, zda byl text zašifrován monoalfabetickou šifrou, a

popřípadě v jakém jazyce byl text napsán.

Statistika výskytu znaků v češtině

0

2

4

6

8

10

12

Po použití Cézarovské šifry

0

2

4

6

8

10

12

Po použití monoalfabetické šifry

0

2

4

6

8

10

12

Graf vypadá pořád stejně

Jen sloupce jsou přeházené

Jak to vyjádřit číselně?Nabízí se rozptyl veličiny, tedy průměrná odchylka od střední hodnoty

Rozptyl

Var (X) = E (X - E(X))2

Pro výskyt znaků v textu

n*Var (p) = ∑(p(i)-1/n)2 =

= ∑p(i)2 - ∑2*p(i)/n + ∑1/n2 =

= ∑p(i)2 - 2/n + 1/n =

= ∑p(i)2 - 1/n

Index koincidence

• IC(T) = ∑p(i)2 = n*var(T)+1/n

• Vždy větší nebo roven 1/n = 1/26 = 0,03846.• Blízký hodnotě 0,03846 je pro náhodně generovaný text se stejnou hustotou výskytu jednotlivých znaků.• Čím větší, tím více nerovnoměrný je výskyt písmen.• Je zachován při monoalfabetické šifře.

Indexy koincidence vybraných jazyků

• Čeština 0,0577• Slovenština 0,0581• Angličtina 0,0676• Francouzština 0,0801• Němčina 0,0824• Italština 0,0754• Španělština 0,0769• Ruština 0,0470• Náhodný text 0,0385

Úkol

Najděte texty v • češtině (26 znaků), • „odborné počítačové“ češtině• angličtině • a ještě alespoň jenom jazyce a spočítejte jejich indexy koincidence.Zašifrujte tyto texty monoalfabetickou šifrou a ověřte, že se jejich index koincidence nemění.

A teď si to zkuste sami

Documents

Transcript of A teď si to zkuste sami