Gjeneza dhe nocioni i teorisë së informacionit• Teoria e informacionit synon analizimin e...

29
Literatura 1. ESSENTIALS OF ERROR-CONTROL CODING, Jorge Castiñeira Moreira, Patrick Guy Farrell, 2006 John Wiley & Sons Ltd. 2. Telecommunications Demystified, Carl Nassar, by LLH Technology Publishing, 2001. 3. Uvod u teoriju informacije i kodiranje, Alen Bažant ..., 2007 Zagreb. 3. Uvod u teoriju informacije i kodiranje, Alen Bažant ..., 2007 Zagreb. 4. DATA COMMUNICATIONS AND NETWORKING, FOURTH EDITION, Published by McGraw- Hill, 2007 Gjeneza dhe nocioni i teorisë së informacionit Marrë në përgjithësi ekzistojnë tri tipare të informacionit: Sintaksor që tregon ndërlidhjen ndërmjet simboleve që formojnë mesazhin (lajmin), Semantik që tregon domethënien e mesazhit, Pragmatik që ndërlidhet me përdorimin e mesazhit. • Tipari sintaksor kryesisht trajton formën e informacionit, ndërsa ai semantik dhe pragmatik ndërlidhen me përmbajtjen që e mbartë vetë informacioni. Shembulli 1: Shembulli 1: Le ti marrim në shqyrtim fjalitë e mëposhtme: (1) Bujari ka ardhur me taksi në teatër. (2) Bujarin në teatër e ka sjellë taksi. (3) Në rrugën Ferizaj – Prishtinë u shkaktua bllokim trafiku. (4) Rruga Ferizaj – Prishtinë është rrugë me trafik të lartë në Kosovë. Shihet që fjalitë 1) dhe (2) në pikëpamje sintaksore janë të ndryshme, por në pikëpamje semantike dhe pragmatike të njëjta: kanë rëndësi të njëjtë dhe të dyja janë njësojë informative. Fjalitë (3) dhe (4) nuk dallohen vetëm në pikëpamje sintaksore, por edhe për nga semantika e tyre. Fjalia (3) është shumë më informative se fjalia (4). Tipari pragmatik i informacionit kryesisht varet nga konteksti. Informacionet që ndodhen në fjalitë (3) dhe (4) janë relevante për dikë në Kosovë por jo edhe për dikë p. sh. në Angli. Gjeneza dhe nocioni i teorisë së informacionit Claude Shannon i pari e ka ndërlidh nocionin e informacionit me nocionin e gjasës ose pasigurisë (ang. uncertainty). Lidhja e tillë në esencë nuk është jologjike. Nëse marrim në shqyrtim bashkësinë e të gjitha ngjarjeve që paraqiten me gjasë të njëjtë, në atë rast ekziston pasiguri e madhe se cila ngjarje do të ndodhë, kështu që kur ndodh ndonjëra prej tyre ajo na sjellë shumë më tepër informacion në krahasim me rastin kur hapësira e ngjarjeve strukturohet ashtu që ndonjë ngjarje ka gjasë të madhe të probabilitetit. Pra, informacioni ndërlidhet me nocionin e gjasës përmes pasigurisë ose shkallës së befasisë. nocionin e gjasës përmes pasigurisë ose shkallës së befasisë. Nga këndvështrimi i teorisë së informacionit, informacioni nuk është njohuri, siç e konsiderojmë zakonisht, por ai ndërlidhet me gjasën ose probabilitetin e simboleve të shfrytëzuar për dërgimin e mesazheve ndërmjet burimit dhe destinacionit (cakut) përmes një kanali me zhurmë. Sasia kuantitative e informacionit të simboleve ndërlidhet me gjasën e paraqitjes së tyre, qoftë duke buruar nga burimi ose kur ato mbërrijnë në cakun e tyre. Me paraqitjen e simbolit të cilin si të tillë e shohim, pasiguria jonë zvogëlohet, dhe themi se kemi pranuar ca informacione. Pra, siç shihet, informacioni është zvogëlim i pasigurisë. Gjeneza dhe nocioni i teorisë së informacionit Teoria e informacionit synon analizimin e komunikimit ndërmjet dhënësit dhe marrësit përmes një kanali me zhurmë, dhe qasja e tillë, nga njëra anë, merret me analizën e burimit, në veçanti sasinë e informacionit të gjeneruar nga ai burim, dhe, nga ana tjetër, vendos kushtet për kryerjen e transmetimit të sigurt (me besnikëri sa më të madhe) nëpër një kanal me zhurmë. Ekzistojnë tri koncepte kryesore të kësaj teorie: 1. I pari është përkufizimi i sasisë që mund të jetë masë valide e informacionit, dhe do të ishte konsistente me kuptimin fizik të vetive të tij. informacionit, dhe do të ishte konsistente me kuptimin fizik të vetive të tij. 2. I dyti ka të bëjë me ndërlidhjen e informacionit dhe burimit që e gjeneron atë informacion, dhe konceptit të tillë do t’i referohemi si burimit i informacion. Teknikat e njohura të teorisë së informacionit si komprimimi (compression) dhe shifrimi (encryption) ndërlidhen me këtë koncept. 3. Koncepti i tretë ka të bëjë me ndërlidhjen ndërmjet informacionit dhe kanalit me zhurmë nëpër të cili transmetohet informacioni. Koncepti i tillë na shpie deri te përkufizimi i një parametri shumë të rëndësishëm të quajtur kapacitet i kanalit. Një teknikë e njohur e teorisë së informacionit e quajtur kodim për korrigjim ose kontrollim të gabimeve është ngushtë e lidhur me konceptin e tillë. Kodimi është njëra prej teknikave më të shfrytëzuara në teorinë e informacionit, dhe si i tillë synon optimizimin e transmetimit dhe shfrytëzimin në mënyrë efikase të kapacitetit të një kanali të dhënë.

Transcript of Gjeneza dhe nocioni i teorisë së informacionit• Teoria e informacionit synon analizimin e...

Literatura

1. ESSENTIALS OF ERROR-CONTROL CODING, Jorge Castiñeira Moreira, Patrick Guy Farrell, 2006 John Wiley & Sons Ltd.

2. Telecommunications Demystified, Carl Nassar, by LLH Technology Publishing, 2001.

3. Uvod u teoriju informacije i kodiranje, Alen Bažant ..., 2007 Zagreb.3. Uvod u teoriju informacije i kodiranje, Alen Bažant ..., 2007 Zagreb.

4. DATA COMMUNICATIONS AND NETWORKING, FOURTH EDITION, Published by McGraw-Hill, 2007

Gjeneza dhe nocioni i teorisë së informacionit

• Marrë në përgjithësi ekzistojnë tri tipare të informacionit:Sintaksor që tregon ndërlidhjen ndërmjet simboleve që formojnë mesazhin (lajmin),Semantik që tregon domethënien e mesazhit,Pragmatik që ndërlidhet me përdorimin e mesazhit.• Tipari sintaksor kryesisht trajton formën e informacionit, ndërsa ai semantik dhe pragmatik ndërlidhen me përmbajtjen që e mbartë vetë informacioni.Shembull i 1:Shembull i 1:Le ti marrim në shqyrtim fjalitë e mëposhtme: (1) Bujari ka ardhur me taksi në teatër. (2) Bujarin në teatër e ka sjellë taksi. (3) Në rrugën Ferizaj – Prishtinë u shkaktua bllokim trafiku. (4) Rruga Ferizaj – Prishtinë është rrugë me trafik të lartë në Kosovë. Shihet që fjalitë 1) dhe (2) në pikëpamje sintaksore janë të ndryshme, por në pikëpamje semantike dhe pragmatike të njëjta: kanë rëndësi të njëjtë dhe të dyja janë njësojë informative. Fjalitë (3) dhe (4) nuk dallohen vetëm në pikëpamje sintaksore, por edhe për nga semantika e tyre. Fjalia (3) është shumë më informative se fjalia (4). Tipari pragmatik i informacionit kryesisht varet nga konteksti. Informacionet që ndodhen në fjalitë (3) dhe (4) janë relevante për dikë në Kosovë por jo edhe për dikë p. sh. në Angli.

Gjeneza dhe nocioni i teorisë së informacionit

• Claude Shannon i pari e ka ndërlidh nocionin e informacionit me nocionin e gjasës ose pasigurisë (ang. uncertainty).

• Lidhja e tillë në esencë nuk është jologjike. Nëse marrim në shqyrtim bashkësinë e të gjitha ngjarjeve që paraqiten me gjasë të njëjtë, në atë rast ekziston pasiguri e madhe se cila ngjarje do të ndodhë, kështu që kur ndodh ndonjëra prej tyre ajo na sjellë shumë më tepër informacion në krahasim me rastin kur hapësira e ngjarjeve strukturohet ashtu që ndonjë ngjarje ka gjasë të madhe të probabilitetit. Pra, informacioni ndërlidhet me nocionin e gjasës përmes pasigurisë ose shkallës së befasisë.ngjarje ka gjasë të madhe të probabilitetit. Pra, informacioni ndërlidhet me nocionin e gjasës përmes pasigurisë ose shkallës së befasisë.

• Nga këndvështrimi i teorisë së informacionit, informacioni nuk është njohuri, siç e konsiderojmë zakonisht, por ai ndërlidhet me gjasën ose probabilitetin e simboleve të shfrytëzuar për dërgimin e mesazheve ndërmjet burimit dhe destinacionit (cakut) përmes një kanali me zhurmë.

• Sasia kuantitative e informacionit të simboleve ndërlidhet me gjasën e paraqitjes së tyre, qoftë duke buruar nga burimi ose kur ato mbërrijnë në cakun e tyre.

• Me paraqitjen e simbolit të cilin si të tillë e shohim, pasiguria jonë zvogëlohet, dhe themi se kemi pranuar ca informacione. Pra, siç shihet, informacioni është zvogëlim i pasigurisë.

Gjeneza dhe nocioni i teorisë së informacionit

• Teoria e informacionit synon analizimin e komunikimit ndërmjet dhënësit dhe marrësit përmes një kanali me zhurmë , dhe qasja e tillë, nga njëra anë, merret me analizën e burimit, në veçanti sasinë e informacionit të gjeneruar nga ai burim, dhe, nga ana tjetër, vendos kushtet për kryerjen e transmetimit të sigurt (me besnikëri sa më të madhe) nëpër një kanal me zhurmë.

• Ekzistojnë tri koncepte kryesore të kësaj teorie:1. I pari është përkufizimi i sasisë që mund të jetë masë valide e informacionit, dhe që do të ishte konsistente me kuptimin fizik të vetive të tij. informacionit, dhe që do të ishte konsistente me kuptimin fizik të vetive të tij. 2. I dyti ka të bëjë me ndërlidhjen e informacionit dhe burimit që e gjeneron atë informacion, dhe konceptit të tillë do t’i referohemi si burimit i informacion. Teknikat e njohura të teorisë së informacionit si komprimimi(compression) dhe shifrimi (encryption) ndërlidhen me këtë koncept.3. Koncepti i tretë ka të bëjë me ndërlidhjen ndërmjet informacionit dhe kanalit me zhurmë nëpër të cili transmetohet informacioni. Koncepti i tillë na shpie deri te përkufizimi i një parametri shumë të rëndësishëm të quajtur kapacitet i kanalit . Një teknikë e njohur e teorisë së informacionit e quajtur kodim për korrigjim ose kontrollim të gabimeve është ngushtë e lidhur me konceptin e tillë.

• Kodimi është njëra prej teknikave më të shfrytëzuara në teorinë e informacionit, dhe si i tillë synon optimizimin e transmetimit dhe shfrytëzimin në mënyrë efikase të kapacitetit të një kanali të dhënë.

Gjeneza dhe nocioni i teorisë së informacionit

Teoria e informacionit jep përgjigje në tri pyetjet e më poshtme:

• Sa bita janë të nevojshëm për paraqitjen e burimit të informacionit?

• Cila është shpejtësia më e madhe e transmetimit me të cilën kanali transmetues mund të transmetojë me besnikëri të dhënat digjitale?transmetues mund të transmetojë me besnikëri të dhënat digjitale?

• Me çfarë sigurie ose besnikërie mund të transmetojmë informacionin nëpër kanalin komunikues me zhurmë?

Çka është në të vërtetë informacioni?

• Informacioni është madhësi fondamentale që nuk është as materie as energji, dhe për të do të japim dy përkufizime:

• Në kuptimin më të përgjithshëm:– informacioni paraqet lajm që e japin gazetat, radiot dhe televizionet, si dhe mesazhet e ndryshme në telekomunikime.

• Në lëmin e kibernetikësis (shkencë për studim interdisiplinar të strukturës së sistemit rregullues):– informacioni është faktor kualitativ i cili përcakton gjendjen e ndonjë – informacioni është faktor kualitativ i cili përcakton gjendjen e ndonjë sistemi dhe ndikimin që sistemi i tillë ka në ndonjë sistem tjetër.

• Informacioni është bazë për shumë shkenca si: kibernetika, linguistika, biologjia, historia etj.

• Teorema themelore e Shannon-it vendos një ndërlidhje të ngushtë me gjasën e paraqitjes së simboleve me të cilat paraqiten mesazhet.

• Kur kemi parasysh se informacioni mund të memorizohet në procese materiale, p.sh. në CD, DVD, disqe magnetike etj., edhe pse me origjinë jometariale, ai kalon në botën materiale në formë të të dhënave dhe të komunikimit.

Burimet pa memorie dhe të Markovit

Burimet mund të ndahen në dy grupe:• (1) Burimet pa memorie, te të cilët nuk ka varshmëri ndërmjet simboleve, që

dmth. se çdo simbol i njëpasnjëshëm është një zgjidhje e rastit nga alfabeti – p.sh. “bpdign cusvgm”

• (2) Burime të Markovit – simbolet janë të koreluar ose të bashkëlidhur–p.sh.“na prift e mbara”. Çështja nuk konsiston në atë se vargu i tillë i kompozuar i simboleve ka kuptim, por në atë se mund të parashikojmë deri kompozuar i simboleve ka kuptim, por në atë se mund të parashikojmë deri në një masë çdo simbol duke u bazuar në njohuritë paraprake dhe duke shfrytëzuar rregullat e shqipes (në shembullin konkret). I njëjti informacion përmbahet edhe në “n prft e mbra”, përderisa marrësi merr parasysh se burimi ka shprehinë e heqjes së zanoreve.

• Burimet e Markovit i hasim më shpesh në praktikë se sa ato pa memorie.

Matja e sasisë së informacionit

• Duke pas parasysh se, siç u tha, informacioni është zvogëlim i pasigurisë, shtrohet pyetja se si do të matet kjo pasiguri. Mënyra më e thjeshtë është që, p. sh. për burimin që gjeneron tre simbole (A, B, dhe C) të themi se kemi një “pasiguri prej tre simbolesh”. Kjo do të vlente për këtë rast, por nëse një burim tjetër në të njëjtën kohë gjeneron dy simbole, p.sh. 1 dhe 2, burimi i tillë na jep një “pasiguri prej dy simbolesh”. Nëse i kombinojmë burimet e tilla në një burim, në atë rast fitojmë gjashtë kombinime, A1, A2, B1, B2, C1, C2, dhe burim i tillë ka një “pasiguri prej 6 simbolesh”. Kjo nuk përputhet me atë që ne zakonisht mendojmë për informacion, sepse nëse marrim dy libra, do të preferonim të themi se kemi marrë dy herë më tepër informacione se sa nga një libër. Pra do të dëshironim që matja jonë të jetë marrim dy libra, do të preferonim të themi se kemi marrë dy herë më tepër informacione se sa nga një libër. Pra do të dëshironim që matja jonë të jetë aditive.

• Kjo është lehtë të bëhet nëse marrim së pari logaritmin e numrit të simboleve sepse në atë rast në vend të shumëzimit të numrit të simboleve do të kemi mbledhjen e tyre. Në shembullin tonë, burimi i parë na bënë të pasigurt për log3, i dyti për log2 dhe ai i kombinuar për log3 + log2 = log6. Baza e logaritmit përcakton njësinë. Kur e përdorim bazën 2 njësia është bit (baza 10 jep njësinë digit (ose hartley ose dit nga decimal unit ose ban)dhe baza e logaritmit natyror, e, jep njësinë nat ose nit .

• Prandaj nëse një burim gjeneron një simbol, kemi pasigurinë prej log2 1 = 0 bit, dhe nuk jemi të pasigurt për atë se çka do të gjenerojë burimi në vazhdim. Nëse burimi gjeneron dy simbole me gjasë të barabartë, pasiguria do të jetë log2 2 = 1 bit, ndërsa për katër simbole me gjasë të barabartë, pasiguria është 2 bite.

Matja e sasisë së informacionit

• Shndërrimi prej njërës në njësinë tjetër bëhet thjeshtë duke shfrytëzuar shprehjen:

• Nga se u tha më lartë, del se shprehja për pasiguria është log2M, ku M paraqet numrin e simboleve. Hapi i ardhshëm është që të zgjerojmë shprehjen në mënyrë që të përfshijmë edhe rastet kur simbolet nuk kanë gjasë të barabartë të paraqitjes. Për shembull, nëse kemi 3 simbole të mundshme, dhe nëse njëri prej tyre paraqitet shumë më rrallë në

2log

log

2ln

lnlog2

aaa ==

mundshme, dhe nëse njëri prej tyre paraqitet shumë më rrallë në krahasim me dy të tjerët, pasiguria jonë do të jetë më e madhe se 1 bit, por jo edhe aq e lartë sa log23 bite. Të fillojmë me shtruarjen e shprehjes në formë tjetër, pra:

( ) ( ) ( )pM

MM 221

22 log1

logloglog −=

−=−= −

• Ku p =1/M është gjasa e paraqitjes së cilit do simbol. Nëse e përgjithësojmëkëtë për gjasa të ndryshme të simboleve, pi, të tilla që shuma e tyre të jetë:

∑=

=M

iip

1

1

Matja e sasisë së informacionit

• Shkalla e befasisë me rastin e vërejtjes së simbolit të tipit i quhet sasi e informacionit (ang. surprisal sipas Myron Tribus ), dhe në analogji me - log2p përkufizohet si:

( )ii pu 2log−=

• Nga shprehja e fundit shihet se nëse p i afrohet 0, në atë do të jemi • Nga shprehja e fundit shihet se nëse pi i afrohet 0, në atë do të jemi shumë të befasuar që shohin simbolin e i-të (sepse ai gati se nuk paraqitet kurrë), kështu që ui i afrohet . Nga ana tjetër, nëse pi = 1, atëherë nuk do të befasohemi aspak nëse shohim simbolin e i-të (sepse ai paraqitet gjithmonë) dhe ui = 0.

• Pasiguria është sasia mesatare e informacionit (average surprisal) për vargun pambarim të simboleve të gjeneruar nga burimi. Le të njehsojmë tash mesataren për vargun me gjatësi N që ka një alfabet me M simbole.

Matja e sasisë së informacionit

• Të supozojmë se simboli i tipit i paraqitet Ni herë, ashtu që

• Në atë rast do të kemi Ni raste kur sasia e informacionit është ui. Prandaj sasia mesatare për N simbole është:

• Duke zëvendësua N në emërues dhe duke shënuar atë brenda shumë së epërme, kemi:

Matja e sasisë së informacionit

• Nëse e bëjmë këtë matje për një varg pambarim të madh të simboleve, atëherë frekuenca Ni /N paraqet gjasën pi të simbolit të tipit i. Duke bërë këtë zëvendësim shihet se sasia mesatare e informacionit ose entropia (H) do të jetë:

−= ∑ = simb

biteppH

M

i ii1 2log

• Shembull i 2: Të supozojmë se kemi M = 4 simbole A, C, G, T me gjasat • Shembull i 2: Të supozojmë se kemi M = 4 simbole A, C, G, T me gjasat përkatëse: 1/2, 1/4, 1/8, 1/8. Të njehsohet sasia e informacionit dhe entropia.

Nga shprehja për sasinë e informacionit fitojmë respektivisht: uA= 1 bit, uc= 2 bite, uG= 3 bite, dhe uT= 3 bite, kështu që entropia, duke shfrytëzuar shprehjen e fundit entropia është H = 1.75 bite/simb.

Nëse simbolet kodohet me fjalë të koduara me gjatësi sa sasia e fituar e informacionit, pra A = 1, C = 01, G = 000, dhe T = 001, vargu ACATGAAC, që ka frekuencë të simboleve të barabartë me gjasat përkatëse, kodohet si 10110010001101. Pra kemi shfrytëzuar 14 shifra binare (“0” ose “1”) për kodimin e 8 simboleve të vargut, kështu që 14/8 = 1.75 bite/simb, paraqet entropinë e llogaritur paraprakisht.

Matja e sasisë së informacionit• Do të caktojmë dhe do të paraqesim në vazhdim entropinë e burimit binar

në rastin kur gjasa e paraqitjes së zeros është p(0) = p. Është e qartë se gjasa e paraqitjes së njëshit është p(1) = 1-p, ndërsa entropia në funksion të gjasës jepet me shprehjen

dhe është treguar në figurë. Nga figura, ku në absisë kemi gjasën e një simboli ndërsa në ordinatë entropinë, lehtë mund të shihet (por edhe të vërtetohet) se entropia ka vlerën maksimale për p = 0.5 (pra për ngjarje me gjasë të barabartë), dhe ka vlerën Hmax= 1bit/simb.

( ) ( ) ( )pppppH −−−−= 1log1log 22

me gjasë të barabartë), dhe ka vlerën Hmax= 1bit/simb.• Në rastin e përgjithshëm, për një burim me alfabet prej M simboleve,

entropia maksimale fitohet kur gjasat e simboleve janë të barabarta, pra kurp1= p2=….= pM = 1/M, dhe është e barabartë me Hmax = log2M bite/simb.

Matja e sasisë së informacionit

• Shihet se kur ndonjë ngjarje është e sigurt, pra kur p = 1, entropia (informacioni) është 0. Kjo përputhet me përvojën tonë se ngjarjet e sigurta nuk sjellin informacion. I njëjtë është rezultati për p = 0, kur gjasa e paraqitjes së ngjarjes tjetër është 1. Kur p = 1/2 të dy ngjarjet janë njësoj të mundshme, kështu që pasiguria është maksimale (shembull për këtë është hedhja e monedhës).

• Te burimi ternar entropia është funksion i dy variblave ose ndryshoreve,sepse variabla e tretë varet nga dy të tjerat. Pra kemi gjasat p , p dhe p = 1sepse variabla e tretë varet nga dy të tjerat. Pra kemi gjasat p1, p2 dhe p3= 1−(p1+ p2) dhe entropinë përkatëse H3(P) = H(p1, p2, 1 −p1−p2). Entropia maksimale fitohet kur p1= p2= p3= 1/3 dhe është e barabartë me log23 = 1.585 bita. Nëse njëra prej gjasave është zero (p.sh. p2= 0), burimi ternar shndërrohet në burim binar.

• Nëse simbolet emitohen nga burimi me shpejtësi ose debit prej rs simb/sek, në këtë rast mund të shfrytëzojmë këtë element kohor dhe të përcaktojmë shpejtësinë ose debitin mesatar të informacionit (R) si produkt i sasisë mesatare të informacionit ose entropisë dhe debitit të burimit, pra

R = rsH bite/sec

Modeli i sistemit komunikues

• Modeli themelor i komunikimit përbëhet nga burimi i informacionit i cili gjeneron informacionet të cilat duhet transmetuar deri në cak ose destinacion. Tek komunikimet theksi vihet në transmetimin e informacionit prej burimi deri në cak. Problemi themelor i komunikimeve është reproduktimi në një pikë në formë ekzakte ose përafërsisht ekzakte i një mesazhi të zgjedhur në një pikë tjetër.

• Edhe pse memorizimi i informacionit në një medium memorizues nuk është problem klasik i transmetimit të informacionit edhe ky mund të shqyrtohet duke u bazuar në modelin komunikues.

• Komunikimi realizohet ndërmjet dhënësit në anën e burimit dhe marrësit në anën e destinacionit (fig). Gjatë transmetimit të informacionit mund të anën e destinacionit (fig). Gjatë transmetimit të informacionit mund të shkaktohen gabime ose deformime si rezultat i ndikimit të pengesave (p.sh. zhurmave) në kanalin komunikues. Natyrisht, gjithmonë synohet që transmetimi të bëhet me një shkallë të caktuar të kualitetit të bartjes varësisht nga kërkesat e vendosura në marrës. Kështu për shembull, marrësi mund të korrigjojë gabimet serioze, ndërsa mund të tolerojë disa gabime tjera.

Burimi Dhënësi Kanali Marrësi Caku

Zhurmat

Modeli i sistemit komunikues

• Deri sa dhënësi ka për detyrë që informacionin nga burimi ta shndërrojë në një formë të përshtatshme për transmetim nëpër kanalin komunikues, detyra e marrësit është që të tentojë të heq deformimet dhe gabimet e shkaktuara gjatë transmetimit nëpër kanal, si dhe vazhdimisht të transformojë informacionin në një formë të përshtatshme për destinacion.

• Funksionin e dhënësit mund ta ndajmë në disa nënfunkcione. Në vazhdim do të përshkruhet katër funksionet më kryesoret.

• Duke ditur se të gjitha informacionet që gjeneron burimi nuk janë të rëndësishme për cakun, kështu që informacionet e tilla duhet hequr rëndësishme për cakun, kështu që informacionet e tilla duhet hequr menjëherë. Forma e tillë rëndom quhet reduktim i të dhënave , ndërsa pjesa tjetër e mbetur e informacionit quhet informacion efektiv .

• Informacioni efektiv shpesh përpunohet duke u shndërruar në një formë tjetër (p.sh. binar) që ka strukturë përkatëse interne të sajë. Me përdorimin e kodimit të burimit , që ndryshe quhet edhe komprimim i të dhënave ,informacioni efektiv paraqitet në formë sa të jetë e mundur më kompakte.

Modeli i sistemit komunikues

• Shpesh është shumë me rëndësi mbrojtja e informacionit nga përdorimi i paautorizuar, kështu që është e nevojshme mbrojtja shifrore (kriptimi ose shifrimi) , përmes kodeve për shifrim.

• Informacioni i mbrojtur nuk është imun ndaj gabimeve që mund të ndodhin në kanal. Prandaj dhënësi duhet të fusë informacion shtesë e cila do të shfrytëzohet me rastin e rikonstruktimit të informacionit burimor kur gjatë transmetimit ndodhin gabime. Për këtë kujdeset kodimi i kanalit ose kodimi për kontroll të gabimeve (error control coding) që shfrytëzon kode me mundësi detektimi dhe/ose korrigjimi të gabimeve.mundësi detektimi dhe/ose korrigjimi të gabimeve.

• Informacionin e tillë të përgatitur dhënësi e dërgon në kanal. Vetitë fizike të kanalit përshkruhen me kanalin e vazhdueshëm ose analog nëpër të cilin transmetohen sinjalet përkatëse (p.sh. elektrike). Kanal diskret konsiderojmë sistemin i cili në nivel simbolesh paraqet transmetimin e tyre nga hyrja deri në dalje të kanalit, shih fig. Shndërrimi i simboleve në sinjale përkatëse quhet modulim . Sinjalet e fituar me modulim i ekspozohen pengesave përkatësisht zhurmave të kanalit. “Përzierja” sinjal zhurmëshndërrohet përsëri në simbole gjatë demodulimit . Zhurma që është prezentë mund të shkaktojë që pas demodulimit simbolet e fituar të ndryshojnë nga ata të dërguar, pra të shkaktohen gabime në transmetim. Në marrës së pari kontrollohet saktësia e informacionit të pranuar në procesin e dekodimit të kanalit . Informacioni i fituar pastaj deshifrimet dekodohet , dhe mandej në rikonstruktimin e të dhënave shndërrohet në formë të përshtatshme për destinacion.

Modeli i sistemit komunikues

Hyrja në kanalin diskret

Burimi Shifrimi Kodimi i kanal.Komprimimi Kodimi i b.

DHËNËSI

Modulimi Kanali i vazhd. Demodulimi

KANALI DISKRET

Dalja nga kanali diskret

Hyrja në kanalin diskret

Modulimi Kanali i vazhd. Demodulimi

Zhurma

Dalja nga kanali diskret

Caku i infor. Rikon. i të dh. Dekodimi i bu. Deshifrimi Dekodimi i kan.

MARRËSI

Mesazhet, simbolet dhe sinjalet

• Burimi zgjedh ose selekton mesazhet nga një grup i mesazheve të mundshme, p.sh,. ju (në cilësi të burimit) zgjidhni “po” nga Përgjigjet e mundshme {po, jo, ndoshta}.

• Mesazhi përbëhet nga një sekuencë ose varg i simboleve (n-d-o-s-h-t-a) që i takojnë një alfabeti (a,b,….zh). Mund të ketë një ose më tepër simbole për mesazh, ndërsa alfabeti mund të konsiderohet si grup i simboleve.

• Burimi mund të jetë diskret: p.sh. kur simbole janë shkronjat e alfabetit, kodi • Burimi mund të jetë diskret: p.sh. kur simbole janë shkronjat e alfabetit, kodi Morse, sekuenca DNA, bitët ose bajtët, ose i vazhdueshëm: p.sh. zëri, tensioni, intensiteti i dritës

• Do të shqyrtojmë kryesisht burimet diskrete, duke pas parasysh shndërrimin e burimeve të vazhdueshme në burime diskrete.

• Sekuenca e mesazheve transformohet ose kodohet në sinjal për të transmetuar atë nëpër kanal si një seri e simboleve.

Roli themelor i sistemit komunikues – llojet e informacioneve

• Roli themelor i çdo sistemi komunikues është transmetimi efikas i informacioneve të ndryshme nga një objekt ose pjesëmarrës deri te tjetri.

• Efikasiteti i transmetimit i referohet transmetimit sa më të saktë të të dhënave në një interval të caktuar kohe.

• Informacionet sipas formës së tyre kryesisht ndahen në: informacione diskrete dhe të vazhdueshme , ndërsa ngandonjëherë hasim edhe në kombinimin e tyre.

• Informacionet diskrete paraqitet me vargun që përbëhet nga numri i • Informacionet diskrete paraqitet me vargun që përbëhet nga numri i kufizuar i simboleve elementare – shenjave alfanumerike siç është rasti i telegrafisë (dy ose me tepër impulse elementare), telemetrisë (të dhënave numerike), paraqitjes binare ose digjitale etj.

• Informacionet e vazhdueshme paraqiten me funksione kohore që marrin numër pambarim të vlerave, siç është rasti i transmetimit të të folurit, muzikës, video sinjalit, telemetrisë (kur transmetohen të dhëna vlerat e të cilave ndryshojnë në mënyrë të vazhdueshme ose analoge).

• Shndërrimi i informacioneve analoge në ato digjitale bëhet përmes mostrimit, kuantizimit dhe kodimit (shembull: transmetimi i të folurit me anë të sistemit PCM).

Disa veti të gjasës

Le të jetë:

• p(A) – gjasa e paraqitjes së ngjarjes A,• 1-p(A) – gjasa që ngjarja A të mos paraqitet (gjasa e komplementit),• p(A,B) – gjasa e paraqitjes së dy ngjarjeve (gjasa e unionit),• p(A/B) – gjasa e paraqitjes së ngjarjes A, nëse është paraqitur ngjarja B • p(A/B) – gjasa e paraqitjes së ngjarjes A, nëse është paraqitur ngjarja B (gjasa me kusht i ngjarjes B në lidhje me ngjarjen A),Duke u nis nga rregulla e njohur e Bajesit në teorinë e probabilitetit, vlejnë

këto barazime:

Ngjarjet e rastit dhe sasia e informacionit

• Informacionin e pranojmë nëse njoftohemi për ngjarjen e cila nuk ka qenë paraprakisht e përcaktuar.

• Përcaktueshmëria e ndonjë ngjarjeje mund të matet me gjasën e paraqitjes; sa më e madhe të jetë gjasa e paraqitjes së ngjarjes aq më e vogël është sasia e informacionit të pranuar pasi të ketë ndodhur ngjarja.

Le të jetë dhënë sistemi i informacionit me numër të fundmë të mesazheve Le të jetë dhënë sistemi i informacionit me numër të fundmë të mesazheve të mundshëm në hyrje dhe në dalje të sistemit.

• Paraqitja e cilitdo mesazhi konsiderohet si ngjarje e rastit e cila paraqitet me një gjasë të caktuar.

• Bashkësinë e të gjitha mesazheve të ndryshme elementare në hyrje të ndonjë sistemi diskret të informacionit do ta shënojmë me X, xi, i=1,2,…,n, ndërsa bashkësinë e të gjitha mesazheve elementare në dalje të sistemit të njëjtë me Y, yj, j=1,2,…,m. , ku xi, yj – mesazhet elementare në hyrje/dalje.

Modeli i sistemit

Zhurma

DaljaHyrja

SISTEMI DISKRET KOMUNIK.

X YX Y

Modeli i sistemit

• Në bazë të simbolit të pranuar yj është e nevojshme të caktohet cili simbol xiështë dërguar në hyrje të sistemit

• Shumica e informacioneve që shfrytëzohet shprehen me ndonjë gjuhë në të cilën ekziston një varshmëri e caktuar statistikore

• Do të shqyrtojmë informacionin e shprehur përmes n simboleve xi, frekuencat relative të paraqitjes së të cilëve janë statistikisht të pavarur dhe

ifrekuencat relative të paraqitjes së të cilëve janë statistikisht të pavarur dhe plotësisht të përcaktuar me bashkësinë e gjasave në hyrje ose gjasave apriore p(x i), ose gjasave të paraqitjes së simboleve të një bashkësie pavarësisht nga paraqitja e simboleve të bashkësisë tjetër.

• Është evidente se bashkësia e të gjitha simboleve është e plotë – pra shuma e gjasave hyrëse duhet të plotësojë barazimin:

Modeli i sistemit

• Tek sistemet reale kemi ndikimin e zhurmës që është prezente në kanal, kështu që nuk kemi pasqyrim të njëvlershëm të të gjithë simboleve xi, yj

• Për këtë arsye mund të shqyrtojmë paraqitjen e njëkohshme të çiftit (xi, yj), duke shfrytëzuar gjasën e përbashkët (joint probability) p(xi,yj), e cila sipas rregullës së Bajesit ose e shumëzimit të probabiliteteve është

Modeli i sistemit

• Sistemi informativ jep lidhjen ndërmjet paraqitjes së simboleve në hyrje dhe atyre në dalje, dhe nëse dihet mekanizmi fizik i transformimit/transmetimit të simboleve xi në yj, mund të njehsohen gjasat me kusht p(yj/xi)

• Në këtë mënyrë, duke njohur gjasat apriore p(xi), do të jetë e mundur të caktohet gjasat e përbashkëta p(xi,yj)

• Gjasa e paraqitjes së simboleve është shumë e gjasave të paraqitjes së të gjitha çifteve në të cilat paraqitet simboli i tillëgjitha çifteve në të cilat paraqitet simboli i tillë

Modeli i sistemit

• Nga pikëvështrimi i subjektit që vështron ngjarjet Y në dalje, paraqitja e rezultatit konkret yj, rezulton me atë që pasiguria paraprake në lidhje me paraqitjen e ngjarjes xi, e cila karakterizohet me gjasën apriore p(xj) zëvendësohet me pasigurinë e cila mbetet pas paraqitje së ngjarjes yj – eqë paraqet gjasën aposteriore (gjasa kur dihet se cili simbol yj pranohet)

• Gjasat aposteriore p(x /y ) fitohen nga shprehjet (2) dhe (3)• Gjasat aposteriore p(xi/yj) fitohen nga shprehjet (2) dhe (3)

• Gjasat e tilla aposteriore quhen ndryshe edhe gjasa të kalimit xi në yj ose gjasa me kusht, dhe mund t’i paraqesim në formë të matricës me dimensione m x n. Matrica e tillë quhet matricë e gjasave të kalimit.

Informacioni reciprok

• Tash kemi mjaftë elemente që nga pikëvështrimi i teorisë së informacionit të tregohet se si transmetohet informacioni nëpër kanal, dhe kuantitativisht të caktohet sasia e informacionit që transmetohet.

• Mund të supozohet se ekziston vrojtuesi ideal i cili ka mundësi të vështrimit të hyrjes, daljes, si dhe hyrjes dhe daljes së kanalit njëkohësisht.

• Në këtë rast ai le të vështrojë vetëm daljen e kanalit për një simbol të • Në këtë rast ai le të vështrojë vetëm daljen e kanalit për një simbol të caktuar xi.

• Sasia e informacionit që do të pranojë vrojtuesi nga pranimi i këtij simboli siç dihet është log(1/p(xi).

Informacioni reciprok

• Le të jetë pranuar simboli yj. Masa e pasigurisë së vrojtuesit për simbolin xi tash ka ndryshuar dhe është: log(1/p(xi/yj).

• Prandaj, sasia e informacionit e transmetuar me këtë çift të simboleve ështëe barabartë me ndryshimin e pasigurisë fillestare dhe përfundimtare, pra:

• Me zgjedhjen e bazës së logaritmit caktohet njësia e sasisë së informacionit– Më i përshtatshëm është përdorimi i logaritmit me bazë 2 (sistemet binare ose digjitale) ose logoaritmi dual (ld), dhe në këtë rast njësia është bit (binary digit).

Informacioni reciprok

• Nëse shprehjen (5) e shumëzojmë dhe pjesëtojmë me p(yj), kemi:

• Është funksion simetrik ndaj listës së simboleve X dhe Y, pra nuk ndryshon kur X dhe Y ndryshojnë vendet: I(xi;yj)= I(yj;xi) – pra njëra variabël për variablën tjetër sjellë informacion të njëjtë (informacioni i cili është rezultat i variablën tjetër sjellë informacion të njëjtë (informacioni i cili është rezultat i paraqitjes së ngjarjes yj, e që bënë fjalë për ngjarjen xi, është i barabartë me informacionin të cilin e sjellë paraqitja e ngjarjes xi, kundrejt ngjarjes yj). Kjo është edhe arsyeja që ky informacion quhet informacion reciprok.• Nëse xi dhe yj janë statistikisht të pavarura ndërmjet veti

Prej nga del se:

• Pra nuk ka kurrfarë varshmërie statistikore ndërmjet dy ngjarjeve xi dhe yj

Informacioni reciprok

• Për vlerë fikse të p(xi) informacioni reciprok I(xi;yj) do të ketë vlerë maksimale kur është p(xi/yj) = 1, pra kur yj me siguri të plotë dhe njëvlerësisht përcakton xi.

• Madhësia I(x ) quhet informacion vetjak për të cilën vlen:

)();();();( jjiiji yIyxIxIyxI ≤≤

• Informacioni vetjak është gjithmonë madhësi pozitive, sepse:

1)(0 ≤≤ ixp

• Madhësia I(xi) quhet informacion vetjak për të cilën vlen:

Informacioni reciprok

• Nga shprehja (6) shihet se informacioni reciprok mund të ketë edhe vlera pozitive edhe vlera negative.

• Ka vlera pozitive kur gjasa e paraqitjes së përbashkët e çiftit të ngjarjeve xidhe yj, p(xi,yj) është më e madhe se produkti i gjasave pa kusht p(xi)·p(yj), dhe e kundërta, për vlera negative të informacionit reciprok

• Duke u nis nga shprehja (5), informacioni reciprok paraqitet përmes informacionit vetjak me shprehjeninformacionit vetjak me shprehjen

• Ndërsa nga shprehja (6) kemi:

• I(xi,yj) është informacioni vetjak i paraqitjes së përbashkët të çiftit të ngjarjeve xi dhe yj

Informacioni reciprok

• Informacioni vetjak i paraqitjes së përbashkët të çiftit të ngjarjeve I(xi,yj) është:

ose nga shprehja (10) kemi:ose nga shprehja (10) kemi:

Informacioni reciprok

• Shuma mesatare e informacionit reciprok I(xi;yj), që i përket bashkësisë së të gjitha ngjarjeve X = {xi} i = 1,2,…,n, dhe që e sjellë paraqitja e ndonjë ngjarje yj është I(X;yj) është:

njësoj fitohet:

Informacioni reciprok

• Shuma e tërësishme e informacionit reciprok në bashkësinë e ngjarjeve Yqë ndërlidhet me bashkësinë e ngjarjeve X është

Entropia dhe vetitë e entropisë

• Informacioni vetjak i ngjarjes xi është ajo sasi e informacionit, që është e nevojshme për përcaktimin e njëvlershëm të asaj ngjarjeje

• Në analogji me informacionin reciprok mesatar mund të caktojmë edhe informacionin vetjak mesatar në formën:

(17)(17)

• Informacioni vetjak mesatar I(X) është mesatarisht ajo sasi e informacionit,e cila është e nevojshme për të caktuar cilin do mesazh nga bashkësia X ngamesazhet e mundshme që dërgohen me ndonjë sistem• Madhësinë I(X) rëndom e quajmë entropi e madhësisë diskrete të rastit Xdhe, siç kemi thënë, e shënojmë me H(X)• Entropinë mund ta konsiderojmë si masë kuantitative të pasigurisë së ndonjë mesazhi para se ai të pranohet, që në fakt paraqet sasinë e informacionit mesatar e cila dërgohet për të njohur cilin do mesazh nga bashkësia X

Entropia dhe vetitë e entropisë

• Entropia nuk mund të jetë madhësi negative sepse informacioni vetjak

(18)

(19)(19)

• Entropia H(X) do të jetë e barabartë me 0 vetëm në rastin kur njëra prej gjasave p(xi), i = 1,2,…,n, është e barabartë me një, ndërsa të gjitha gjasat tjera janë të barabarta me zero.

Entropia – masë e pasigurisë

• Kur gjasa e ndonjë ngjarjeje është e barabartë me 1, ndërsa të gjitha gjasat tjera janë të barabarta me 0, atëherë mund të dërgohet vetëm ai mesazh (i cili është sigurisht i njohur që më parë)

• Pas pranimit të mesazhit të tillë (të sigurt) nuk pranohet kurrfarë sasie e re e informacionit

• Entropia H(X) plotëson pabarazimin:

(20)

ku n është numri i të gjitha ngjarjeve të mundshme xi (mesazheve, shenjave, simboleve…)

Entropia maksimale

• Shenja e barazimit vlen nëse të gjitha ngjarjet janë njësoj të mundshëm (pra janë me gjasë të barabartë të paraqitjes).

i = 1,2,….n (21)

Entropia në këtë rast do të ketë vlerë maksimale të barabartë me

ku xi janë simbolet elementare të alfabetit.

• Pra nga barazimi i fundit shihet se sasia mesatare e informacionit që e sjellë një simbol nga një alfabet i dhënë do të jetë maksimale dhe ebarabartë me logaritmin dual të numrit të simboleve të alfabetit, dhe për rastin më të thjeshtë të alfabetit me dy simbole, sasia mesatare e informacionit, siç kemi thënë, është 1 bit.

Entropia me kusht

• Vlera mesatare e informacionit vetjak me kusht është:

(22)

• Madhësinë I(Y/X) mund ta quajmë entropi me kusht të bashkësisë së ngjarjeve Y nga bashkësia e ngjarjeve të dhëna X

• Entropia e bashkësisë së çifteve të ngjarjeve X,Y është

(23)H(X,Y)

Entropia me kusht

• Duke përdorë shprehjen për gjasë të përbërë p(x,y)= p(x)p(y/x), kemi:

H(X,Y)= H(X) + H(Y/X) (24)

• Për entropinë me kusht vlen pabarazimi:• Për entropinë me kusht vlen pabarazimi:

(25)

• Shenja e barazimit vlen vetëm në rastin kur ngjarjet yj dhe xi janë statistikisht të pavarura, pra kur p(yj/xi) = p(yj), për të gjitha indekset e mundshëm i dhe j.

Entropia me kusht

• Në transmetimin e informacionit rëndësi të madhe ka informacioni reciprok mesatar të cilin e shprehim në formë të përshtatshme përmes entropisë në formën:

(26)

(27)(27)

(28)

• Një formë e përshtatshme mnemoteknike (mbajtjes në mend) përrelacionet e tilla është paraqitja përmes diagramit të Venit

Formalisht I(X;Y) mund të shprehet edhe në formën I(X;X) = H(X) – H(X/X) = H(X). Pra, informacioni reciprok i ndryshores së rastit me vetveten është në të vërtetë entropia e ndryshores së rastit, së këndejmi entropia disa herë quhet vetinformacion .

Entropia me kusht – Diagrami i Venit

H(X/Y) H(Y/X)I(X;Y) = I(Y;X)

(29)

H(X,Y)

H(X) H(Y)

Interpretimet e diagramit të Venit

• Mund të bëhen tri interpretime të informacionit reciprok mesatar:1. Nga (26) del se informacioni reciprok mesatar është i barabartë me

ndryshimin ndërmjet informacionit mesatar të nevojshëm për përcaktimin e bashkësisë së ngjarjeve X dhe Y veç e veç (si të ishin statistikisht të pavarura) dhe informacionit mesatar të nevojshëm për përcaktimin e bashkësisë së çiftit të ngjarjeve X,Y.

• Nga (24) del se për ngjarje të pavarura: H(X,Y) = H(X) + H(Y), ndërsa kjo nënkupton që I(X;Y) = 0.nënkupton që I(X;Y) = 0.

• Prandaj madhësia I(X;Y) e karakterizon masën e varësisë së lidhjes statistikore ndërmjet bashkësive X dhe Y.

• Duke u bazuar në shprehjet (27) dhe (28), nëse xi dhe yj i vështrojmë si simbole elementare në dërgim dhe në pranim, në sistemin në të cilin veprojnë pengesat, është e dukshme natyra fizike e transmetimit të informacionit.

• Madhësia I(X;Y) është e qartë se merr kuptimin e transinformacionit HT, sepse pikërisht kjo është pjesë e sasisë së informacionit që e gjeneron burimi (entropia e burimit), dhe e cila arrin në pranim – pjesa e transmetuar.

• Transmetimin e informacionit mund ta vështrojmë nga ana e dhënësit dhe nga ana e marrësit:

Interpretimet e diagramit të Venit

2. Nëse e vështrojmë nga ana e marrësit – I(X;Y) = HT (transinformacioni) është i barabartë me ndryshimin ndërmjet sasisë së informacionit të nevojshëm për të përcaktuar bashkësinë e simboleve X para pranimit të simboleve Y dhe sasisë së nevojshme pas pranimit të simboleve Y. Është evidente se entropia H(X) karakterizon sasinë mesatare të informacionit të dërguar, madhësia I(X;Y) = HT karakterizon sasinë mesatare të informacionit të pranuar që ndërlidhet me mesazhin e dërguar, ndërsa entropia me kusht H(X/Y),karakterizon sasinë mesatare të informacionit të humbur (të larguar nga kanali – shih fig. në vazhdim) për shkak të ndikimit të pengesave. H(X/Y)kanali – shih fig. në vazhdim) për shkak të ndikimit të pengesave. H(X/Y)karakterizon pasigurinë në lidhje me bashkësinë X, e cila mbetet pas pranimit të bashkësisë Y, dhe quhet “ ekuivokacion ” (shumëkuptueshmëri).

3. Nëse e vështrojmë nga ana e dhënësit – për shkak të ndikimit të zhurmave marrësi nuk mundet të përcaktojë me siguri të plotë se cili simbol në pranim i referohet simbolit në dërgim. Shprehja (28) jep sasinë mesatare të informacionit të transmetuar I(X;Y) = HT si ndryshim të sasisë mesatare të cilën marrësi vërtetë e pranon dhe të sasisë mesatare të informacionit që ndodhet në simbolet e pranuar, me kusht që informacionet e dërguara të jenë të njohura paraprakisht. Madhësia H(Y/X), e cila shpesh quhet edhe entropi e zhurmës , përcaktohet nga struktura e pengesave dhe nga karakteri i interakcionit të tyre me sinjal.

Kanali komunikues

Shembulli 3: Kanali binar simetrik

• Në dalje të sistemit komunikues të treguar në fig. mund të paraqiten dy vlera të ndryshores së rastit Y: y1=0 i y2=1

Shembulli 3: Kanali binar simetrik

• Nga fig. shihet se gjasa e pranimit të gabuar është e njëjtë për të dy simbolet dhe e barabartë me Pg, kështu që:

• Sistemi sipas të cilit informacioni transmetohet sipas këtij modeli quhet kanal binar simetrik (binary symmetric channel - BSC)• Për të njehsuar transinformacionin duhet njehsuar gjasat p(y1) dhe p(y2):

Shembulli 3: Kanali binar simetrik

• Së këndejmi fitohet:

• Entropia do të arrijë vlerën maksimale për p = 1/2, dhe do të jetë 1 bit/simbol, pa marrë parasysh madhësinë e Pg.

Entropia me kusht është

Shembulli 3: Kanali binar simetrik

• Me zëvendësimin e vlerave fitojmë:

• Prej nga shihet se entropia me kusht e kanalit BSC nuk varet nga gjasa apriore p

[ ]gggg ldPPPldPXYH +−−−= )1()1()/(

• Transinformacioni është

• Nëse është p = 0.5, H(Y) = 1 bit/simbol��

[bite/simbol]

[ ]ggggggggggggT ldPPPldPPpPpldPpPpPpPpldPpPpHYXI +−−+++−−+−++−+−−== )1()1()21()21()2()2();(

Paraqitja grafike e HT=f(Pg) Kapaciteti i kanalit

• Kapaciteti i kanalit është njëri prej nocioneve themelore të teorisë së informacionit, dhe përkufizimin së bashku me rëndësinë e tij do ta bëjmë duke u nis nga teorema themelore e kanalit me zhurmë.

• Do të marrim në shqyrtim transmetimin e informacionit përmes kanalit komunikues në hyrje të të cilit paraqiten simbolet xi, me gjasat përkatëse p(xi).

• Nga shqyrtimet paraprake dihet se sasia mesatare e informacionit të • Nga shqyrtimet paraprake dihet se sasia mesatare e informacionit të transmetuar është e barabartë me transinformacionin I(X;Y) (bit/simbol), i cili varet nga karakteristikat e kanalit dhe nga shpërndarja e gjasave në hyrje p(xi), siç mund të shihet nga shprehja (15).

• Kapaciteti i kanalit përkufizohet si vlerë maksimale e transinformacion, në ç’rast maksimalizimi bëhet me ndryshimin e të gjitha shpërndarjeve tëmundshme të gjasave të paraqitjes së simboleve në hyrje:

{ }.]/[);(max

)(

simbolbitYXICixp

=

Kapaciteti i kanalit - teorema themelore e kanalit me zhurmë

• Pra kapaciteti i kanalit i përgjigjet transinformacionit, i cili do të arrihej në rastin e shpërndarjes ideale të gjasave të paraqitjes së simboleve në hyrje të kanalit.

• Nga përkufizimi i tillë shihet se është e pamundur të arrihet transinformacion më i madh për kanalin e dhënë, prandaj thënë ndryshe kapaciteti i kanalit është sasia maksimale e informacionit për simbol e cila mesatarisht mund të transmetohet nëpër kanal.

• Do të supozojmë kapacitetin e kanalit C [bit/simbol] dhe burimin që • Do të supozojmë kapacitetin e kanalit C [bit/simbol] dhe burimin që karakterizohet me entropi H [bit/simbol]. Nëse H C, atëherë ekziston sistem i tillë i kodimit që mesazhet nga burimi mund të transmetohen ndërmjet të kanalit me shpeshtësi ose me gjasë arbitrarisht të vogël të gabimeve (pra me ekuivokacion arbitrarisht të vogël).

• Nëse është H > C, atëherë mund të kodojmë mesazhin ashtu që ekuivokacioni të jetë më i vogël se H - C + ε [bit/simbol], ku ε është madhësi arbitrarisht e vogël.

• Nuk ekziston metodë e kodimit me të cilën do të arrihej ekuivokacion më i vogël se H – C [bit/simbol].

Kapaciteti i kanalit - teorema themelore e kanalit me zhurmë

• Kjo teoremë është ilustruar me grafikun në fig. i cili tregon vlerat e mundshme të ekuivokacionit (humbjeve në kanal të shkaktuara për shkak të pengesave) në bit/simbol, në funksion të entropisë së burimit ose sasisë mesatare të informacionit që e gjeneron burimi.

• Deri sa entropia H është më e vogël ose e barabartë me kapacitetin e kanalit, humbjet mund të jenë arbitrarisht të vogla (afër zeros).

• Por kur entropia e burimit është me e madhe se kapaciteti i kanalit, humbjet • Por kur entropia e burimit është me e madhe se kapaciteti i kanalit, humbjet nuk mund të zvogëlohen në zero, dhe kufiri i poshtëm në këtë regjion është drejtëza H(X/Y) = H – C.

Regjioni i mundshëm

H(X/Y)

HC

Kapaciteti i kanalit - teorema themelore e kanalit me zhurmë

• Teorema e tillë është njëra prej teoremave më të rëndësishme të teorisë së informacionit.

• Edhe para paraqitjes së teorisë së informacionit ka qenë e qartë se pengesat shkaktojnë humbje, por nuk ka qenë e qartë se në çfarë mënyreato ndikojnë në mundësinë e transmetimit të informacionit.

• Teoria e informacionit ka treguar se me rritjen e shpeshtësisë ose të gjasëssë gabimeve në kanal, kapaciteti i kanalit bie gradualisht, kështu që së gabimeve në kanal, kapaciteti i kanalit bie gradualisht, kështu që teoritikisht është i mundur transmetimi i sasisë së informacionit të barabartë me kapacitetin e kanalit me gjasë arbitrarisht të vogël të gabimit.

• Në esencë, teoria e informacionit nuk bënë fjalë për mënyrën se si duhet arritur kjo praktikisht, por ajo ka hapur shtigjet drejtë zgjidhjeve ose metodave praktike që shërbejnë për kodimin e informacionit ashtu që të jetë e mundur detektimi dhe/ose korrigjimi i gabimeve të shkaktuara për shkak të pengesave.

• Metodat e tilla janë teknika të njohura të kodimit për kontroll të gabimeve(error-control coding).

Shembulli 4: Kapaciteti i kanalit binar simetrik

• Duke shfrytëzuar përkufizimin e dhënë me shprehjen (15) dhe të kapacitetit të kanalit në formë të përgjithshme, kapaciteti i kanalit binar simetrik me zhurmë është:

{ } { })]./()([max);(max

)()(XYHYHYXIC

ii xpxp−==

• Pasi që vlera maksimale e transinformacionit ose e kapacitetit të kanalit arrihet për p(0) = p(1) = 0.5, në ç’rast H(Y) = 1 bit/simbol, duke shfrytëzuar rezultatet nga shembulli 3, fitojmë shprehjen e njëjtë për kapacitetin e kanalit të këtillë, që është e njëjtë me shprehjen përfundimtare nga shembulli 3 për HT. Nga shprehja e tillë shihet se identike është edhe lakorja e varshmërisë së kapacitetit të kanalit në funksion të gjasës me lakoren nga shembulli 3, HT = f(Pg).

Shembulli 4: Kapaciteti i kanalit binar simetrik

• Kapaciteti i kanalit bie në zero kur gjasa e gabimit është 0.5, sepse në atë rast për ndonjë vlerë në hyrje, mund të fitojmë 0 dhe 1 në dalje me gjasë të njëjtë, kështu që në bazë të simboleve në dalje, nuk mund të nxjerrim përfundim se cili simbol ka qenë në hyrje.

• Kapaciteti maksimal i kanalit, siç do të • Kapaciteti maksimal i kanalit, siç do të pritnim, arrihet kur nuk ka gabime, por edhe kur gjasa e gabimit është 1, pra kur gabimi ndodh gjithmonë, që do të thotë se kanali është “invertuar” – zeroja në hyrje jep njësh në dalje dhe e kundërta, kështu që nga simbolet në dalje me siguri të plotë edhe më tutje mund të caktohen simbolet në hyrje.

Kodimi dhe entropia

• Kodimi është njëri prej nocioneve më themelore si në teorinë ashtu edhe në praktikën e teknologjive informative dhe komunikuese.

• Për të dhënë përkufizimin e thjeshtë dhe të përgjithshëm për kodim të përkujtojmë se mesazhin në sistemin komunikues e kemi përkufizuar si një varg simbolesh të zgjedhur nga alfabeti, i cili është bashkësi e fundme e simboleve elementare.

• Kodimi është veprim ose proces i caktimit të fjalëve të koduara (kodeve) për • Kodimi është veprim ose proces i caktimit të fjalëve të koduara (kodeve) për simbolet e mesazhit, duke shndërruar mesazhet (vargun e simboleve nga një alfabet) në një formë tjetër, dhe të paraqitura me vargun e simboleve tënjë alfabeti tjetër.

• Çdo fjalë e koduar përbëhet nga një ose më tepër simbole të një alfabetitjetër, kështu që me kodim mesazhet (vargu i simboleve) shndërrohet në varg të fjalëve të koduara.

• Arsyeja e kodimit është shndërrimi i mesazhit në formë e cila ka disa veti më të mira për transmetim, kontrollim nga gabimet ose për memorizim.

Kodimi dhe entropia

• Kështu për shembull, komprimimi është formë e kodimit ku mesazhi i koduar është më i shkurtër se mesazhi burimor; kriptografia është kodim ku mesazhi i koduar ka disa veti të caktuara të sigurisë; kodimi për kontrollim i jep mesazhit veti të cilat lehtësojnë detektimin dhe/ose korrigjimin e gabimeve të shkaktuara nga pengesat gjatë transmetimit.

• Në përdorimet praktike në lëmin e teknologjive informative dhe atyre komunikuese, alfabeti për ndërtimin e fjalëve të koduara është gati komunikuese, alfabeti për ndërtimin e fjalëve të koduara është gati gjithmonë binar , kështu që çdo fjalë e koduar është varg i një ose më tepër shifrave binare, duke paraqitur kështu mesazhin e koduar në formë të vargut të shifrave binare (0 dhe 1).

• Kur bëhet kodimi me qëllim të komprimimit të të dhënave, është e qartë se duhet të ekzistojë një kufi i ngjeshjes pa humbje, dhe ky kufi është në të vërtetë entropia, sipas të cilës përdoret edhe emri (kodim entropik).

Shembulli 5: Kodimi

• Të supozojmë burimin i cili gjeneron simbole nga bashkësia X = {1, 2, 3, 4}, me gjasat e paraqitjes të dhëna në tabelë.

Simboli (xi) Gjasa e paraqitjes (p(xi)= pi)

Fjala e koduar (Ci)

Gjatësia e fjalës së

koduar (li)

1 1/2 0 1

2 1/4 10 2

3 1/8 110 3

4 1/8 111 3

• Me zëvendësimin e vlerave të pi në shprehjen për entropi, llogaritet vlera e saj: H(X) = 1.75 [bit/simbol].

Shembulli 5: Kodimi

• Në kolonën e tretë të tabelës paraprake është dhënë një kod imundshëm për këtë burim, duke shoqëruar simbolet (1,2,3,4) me fjalët përkatëse të koduara.

• Kështu për shembull, vargut të simboleve 134213 i përgjigjet kodi 0110111100110.

• Pasi që dihen gjasat e paraqitjes së simboleve, lehtë mund të njehsojmë

[ ]∑=

=⋅+⋅+⋅+⋅==n

iii simbolbitlpL

1

/75.13125.03125.0225.015.0

• Pasi që dihen gjasat e paraqitjes së simboleve, lehtë mund të njehsojmë gjatësinë mesatare të fjalëve të koduara (duke supozuar se mesazhi është i gjatë, ose gjatësia e mesazhit tenton në pambarim)

• Pra, në mënyrë që të kodojmë informacionin nga ky burim, për këtë kod janë të nevojshëm mesatarisht 1.75 bita (shifra binare) për simbol, dhe kjo vlerë është e barabartë me entropinë e burimit.

Shembulli 5: Kodimi

• Nuk është e mundur të gjendet ndonjë bashkësi e fjalëve të koduara me të cilat simbolet nga burimi mund të paraqiteshin njëvlersisht, dhe gjatësia mesatare e fjalëve të koduara do të ishte më e vogël se 1.75 bita për simbol.

• Kështu për shembull, nëse do të tentonim (pa sukses) të shkurtonim fjalën e koduar C4, dhe do të shfrytëzonim 11, në vend të 111, kodimi nuk do të ishte më tutje i njëvlershëm sepse vargu i koduar 110 do të nuk do të ishte më tutje i njëvlershëm sepse vargu i koduar 110 do të mund të dekodohej ose si simbol “3” ose si dy simbole “41”.

• Në rastin e përgjithshëm, mund të vërtetohet se është e pamundur të kodohen njëvlersisht simbolet e ndonjë burimi me gjatësi mesatare të kodit më të vogël se entropia e burimit.

• Së këndejmi del konkludimi se entropia është kufiri i komprimimit pa humbje, fakt ky i rëndësishëm i cili tregon për rëndësinë praktike të entropisë.

Kodimi entropik

• Kodimi entropik përfshin një numër metodash të kodimit me të cilat kryhet komprimimi i mesazheve pa humbje, kështu që kur konteksti është i qartë, nocionet kodim dhe komprimim shpesh shfrytëzohen si sinonime.

Burimi Kod. i inform. Kod. i kanalit Kanali Dek. i kanalit Dek. i infor. Caku

Dhënësi Marrësi

Zhurma

• Në modelin e përgjithshëm të sistemit komunikues komrimimi bëhet në koduesin e informacionit (fig.), i cili mund të jetë shumë kompleks dhe të përfshijë më tepër metoda të komprimimit.

• Karakteristikat themelore të cilës do metode të komprimimit ndërlidhen me atë se a kemi të bëjmë me komprimim me humbje apo pa humbje, si dhe me herësin e komprimimit.

Metodat e komprimimit

• Te komprimimi pa humbje pas dekodimit fitohet simbole të mesazhit plotësisht të njëjtë me ata para kodimit, pa u dalluar madje edhe në një bit.

• Si e tillë kjo metodë e kodimit është reverzibile dhe përdoret p.sh. në incizimet medicinale radiologjike ku kërkohet kualitet i lartë (sepse mund të ndodhë që të nevojitet zmadhimi i ndonjë detaji), në incizimet satelitore të cilat mund të përpunohen dhe hulumtohen me metoda të përpunimit të figurës (dhe kjo nuk do të ishte e mundur nëse figura paraprakisht i është përshtatur syrit të njeriut). Përveç këtyre dy përdorimeve, shembuj të përditshëm janë komprimimi i teksteve dhe dokumenteve.përshtatur syrit të njeriut). Përveç këtyre dy përdorimeve, shembuj të përditshëm janë komprimimi i teksteve dhe dokumenteve.

• Por, te disa lloje tjera të të dhënave (p.sh. figura, video, zëri) mund të jetë e pranueshme madje edhe shmangie qenësore nga sinjali origjinal, qoftë për shkak se organi perceptues i njeriut deri në një kufi nuk mund të vërejëndryshimet, ose për shkak se shfrytëzuesit në disa raste janë të gatshëm të pranojnë kualitet më të ulët të sinjalit të dekoduar (p.sh. videokonferenca pa pagesë nëpërmjet Internetit).

• Metodat e komprimimit te të cilat mesazhi i dekoduar nuk është plotësisht i njëjtë me mesazhin e burimit janë metoda të komprimimit me humbje.

Metodat e komprimimit

• Parametri i rëndësishëm i komprimimit është herësi i komprimimit, i cili paraqet raportin ndërmjet numrit të bitëve të mesazhit të komprimuar dhe atij origjinal (p.sh. 1:10).

• Metodat e komprimimit ndahen në dy grupe kryesore: kodimi entropik dhe kodimi burimor.

• Bllok diagrami i mëposhtëm tregon një klasifikim të mundshëm të metodave të kodimit.

• Metodat e kodimit entropik bëjnë komprimimin pa humbje dhe mbështeten • Metodat e kodimit entropik bëjnë komprimimin pa humbje dhe mbështeten vetëm në vetitë statistikore të burimit të informacionit, kështu që nga ndonjë herë quhen edhe metoda statistikore.

• Metodat e kodimit burimor më shpesh bëjnë komprimimin me humbje, që do të thotë se në procesin e dekodimit nuk mund të bëhet rikonstruktimi i saktë i mesazhit burimor.

• Si të tilla këto metoda mbështeten në njohjen e karakteristikave të medieve që kodohen (p.sh., figura, zëri), si dhe perceptimet e tyre nga njeriu.

• Në praktikë rëndom shfrytëzohet kodimi hibrid, me të cilin në fillim një medium i caktuar kodohet duke shfrytëzuar një ose më tepër metoda të kodimit burimor, dhe pastaj në rezultatet nga hapi i tillë i parë, përdoret kodimi entropik (p.sh. JPEG, MPEG, MP3, dhe të gjitha metodat tjera të kodimit të figurës dhe të zërit punojnë duke u bazuar në këtë princip themelor).

Metodat e komprimimit

Kodimi

K. burimor K. hibridKodimi entropik

K. i Hafmanit

K. aritmetikor

Metodat e fjalorit

Shkurtimi i vargut

LZ77

LZ78

LZW

Ngjeshja e zerove

Kodimi vargor

Nënmostrimi

Kuantizimi

Skalar

Vektorial

Kodimi i bazuar në modele

Kodimi transformues K. Diferencial dhe prediktiv

Kodimi nënbrezor

Vetitë e metodave të kodimit entropik

• Parimi themelor e cilës do metode të kodimit entropik është paraqitja e shkurtuar e simboleve të shumëfishtë (simboleve që përsëriten) ose e vargut të simboleve nga mesazhi burimor.

• Të gjitha metodat e kodimit entropik kanë këto veti të përbashkëta :– mbështeten drejtpërdrejtë në teorinë e informacionit;– bëjnë kodim pa humbje;– herësi i komprimimit varet vetëm nga vetitë statistikore të burimit të – herësi i komprimimit varet vetëm nga vetitë statistikore të burimit të

informacionit;– mesazhi konsiderohet vetëm si varg i vlerave të rastit;– nuk merren parasysh vetitë e medieve (për dallim nga kodimi burimor),

kështu që metodat e tilla nuk marrin parasysh se a kodohet figura, zëri ose teksti, duke konsideruar mesazhin si varg të vlerave të rastit të cilat i gjeneron burimi, ndërsa paraqitja e tyre përcaktohet me vetitë statistikoretë burimit, përkatësisht me gjasat e paraqitjes së simboleve veç e veç.

Karakteristikat e burimit të informacionit

• Në teorinë e informacionit burimi i informacionit modelohet si proces stohastik ose i rastit në formë të ndryshoreve ose të variablave të rastit X1, X2 , …, Xi , …, Xn, prej të cilave secila mund të merr vlera nga alfabeti i fundmë {x1, x2, .., xn}.

• Procesi i tillë karakterizohet me shpërndarjen e gjasave të përbashkëta të paraqitjes së ndonjë vargu të variablave të rastit: P{(X1, X2, …, Xn) = (x1, x , …, x )} = p(x , x , …, x , …, x ), për çfarëdo vargu të vlerave (x , x , …, x2, …, xn)} = p(x1, x2, …, xi, …, xn), për çfarëdo vargu të vlerave (x1, x2, …, xi, …, xn), dhe për çfarëdo n N.

• Duke u nisur nga përshkrimi i tillë i burimit të informacionit, do të përkufizojmë dy burime të rëndësishme të informacionit: burimetstacionare dhe burimet ergodike.

Burimi stacionar

• Burimi është stacionar nëse vetitë e tij statistikore nuk ndryshojnë me kohën, dhe kjo veti e stacionaritetit të burimit matematikisht paraqitet si:P{(X1, X2, …, Xn) = (x1, x2, …, xn)} = P {(X1+l, X2+l, …, Xn+l) = (x1, x2, …, xn)},

l N, (x1, x2, …, xn) Xn, n N.• Pra, marrim në shqyrtim burimin si varg i variablave të rastit, dhe brenda

këtij vargu shqyrtojmë dy nënvargje me gjatësi të njëjtë n, të larguar njëri nga tjetri për l vende të vargut.

∀ ∈ ∈ ∈

nga tjetri për l vende të vargut.• Burimi është stacionar nëse cilët do prej dy nënvargjeve të tilla kanë

shpërndarje të njëjtë të gjasave të paraqitjes së variablave të rastit.• Shembulli 6: Do të shqyrtojmë burimin stacionar, i cili gjeneron

alternativisht simbole A dhe E, pra: AEAEAEAEAEAR…Nëse në çdo hap burimi shton nga një simbol më tepër, do të fitohet:AEAAEEAAAEEEAAAAEEEEAAAAAEEEEE….Shihet se vetitë statistikore të burimit të këtillë gjithmonë ndryshojnë, kështu që burimi i tillë nuk është stacionar.

Burimi stacionar

• Shihet se burimin mund ta konsiderojmë si bashkësi e të gjitha vargjeve të simboleve që ai mund t’i gjenerojë, dhe nëse burimi është stacionar, shpërndarja e simboleve në cilindo vend në këto vargje do të jetë e njëjtë.

• Do të shqyrtojmë këtë në shembullin e burimit i cili gjeneron alternativisht simbolet A dhe E, dhe mund të fillojë vargun me A ose me E me gjasë të barabartë.

• Pra, bashkësia e vargjeve të cilat ky burim mund ti gjenerojë është:• Pra, bashkësia e vargjeve të cilat ky burim mund ti gjenerojë është:AEAEAEAEAEAEAE…..EAEAEAEAEAEAEA…..Pa marrë parasysh se cilin vend shqyrtojmë në këto vargje, në njërin varg është simboli A, ndërsa në të njëjtin vend në vargun e dytë simboli E.

• Nëse shqyrtojmë çiftin e simboleve të njëpasnjëshme, në cilin do vend në njërin varg gjejmë AE, ndërsa në tjetrin EA. Njësoj vlen edhe për nënvargjet prej tre, katër dhe n simbolesh.

Burimi ergodik

• Në shembullin paraprak u pa se për burim stacionar shpërndarja e simboleve ndër ato vargje është e barabartë për cilin do vend në vargje, dhe shpërndarja e tillë quhet mesatare sipas bashkësisë.

• Prandaj, pasi që burimi është stacionar mund të konstatojmë se mesatarja sipas bashkësisë është 0.5 (pra shpeshtia e paraqitjes së A, AE, AEA në cilin do vend të vargjeve është e njëjtë dhe e barabartë me 50%).

• Përveç kësaj mesatareje ekziston edhe mesatarja sipas kohës për cilin do • Përveç kësaj mesatareje ekziston edhe mesatarja sipas kohës për cilin do varg të simboleve nga bashkësia e vargjeve të mundshme, kështu që kjo mesatare për ndonjë simbol është shpeshtia e paraqitjes së atij simboli në një varg të caktuar.

• Njësoj mund të përkufizohet mesatarja sipas kohës edhe për çiftin e simboleve, si dhe për nëvargun prej tre, katër ose n simboleve.

• Burimi është ergodik nëse është stacionar dhe nëse për çdo simbol, si dhe për çdo nëvarg prej n simbolesh, mesatarja sipas bashkësisë është e barabartë me mesataren sipas kohës.

Burimi ergodik

• Shembulli 7 : Të shqyrtojmë burimin i cili në 1/3 e rasteve fillon vargun me simbolin A, në 1/3 e rasteve me simbolin B dhe në 1/3 e rasteve me simbolin E, ashtu që nëse fillon me A ose B, kemi përsëritjen alternative të pafund të këtyre dy simboleve, ndërsa nëse fillon me E, kemi përsëritjen e pafund të E-së.

• Prandaj, bashkësie e vargjeve të cilat ky burim mund t’i gjenerojë duket:– Vargu 1: ABABABABABAB.… – Vargu 2: BABABABABABA….– Vargu 2: BABABABABABA….– Vargu 3: EEEEEEEEEE.... Mesataret sipas bashkësisë dhe sipas kohës për këtë burim janë në Tab.

Simbolet Mes. sipas kohës për vargun 1

Mes. sipas kohës për vargun 2

Mes. sipas kohës për vargun 3

Mes. sipas bashkësisë

A 1/2 1/2 0 1/3

B 1/2 1/2 0 1/3

E 0 0 1 1/3

Burimi ergodik

• Nga tab. shihet se ky burim është stacionar, pra vetitë e tij nuk ndryshojnë në funksion të kohës, por nuk është ergodik sepse mesataret sipas bashkësisë dhe sipas kohës janë të ndryshme.

• Nëse bëhet tabelë e ngjashme për burimin nga shembulli paraprak (që fillon me A ose E me gjasë të njëjtë, dhe vazhdon alternativisht), lehtë mund të shihet se burimi i tillë bëhet burim ergodik.

• Ergodiciteti është veti e rëndësishme sepse ajo dmth. se cili do varg, të cilin • Ergodiciteti është veti e rëndësishme sepse ajo dmth. se cili do varg, të cilin e prodhon burimi, do të ketë veti të njëjta statistikore, dhe vetitë e tilla nuk ndryshojnë në kohë (pra brenda vargut).

• Kjo veti në masë të madhe thjeshton shqyrtimet mbi kodimin e mesazheve që gjenerohen nga burimet e tilla.

• Metodat e kodimit entropik supozojnë që burimi të je të ergodik .

Burimi ergodik

• Mund të vërejmë menjëherë se burimet e vërteta të informacionit (p.sh. njeriu si burim i sinjaleve të të folurit ose i tekstit, kamera e cila gjeneron figura…), nuk përmbushin përkufizimin e ergodicitetit dhe të stacionaritetit.

• Kështu, te sinjali i të folurit ndryshojnë dukshëm vetitë statistikore si në kohë(për shkak të karakteristikave të tingujve të zëshëm dhe të pazëshëm) ashtu edhe ndërmjet folësve të ndryshëm (për shkak të karakteristikave të ndryshme të zërit)ndryshme të zërit)

• Por, me disa përafrime të caktuara burimet e vërteta të informacionit janë mjaftë afër këtyre vetive, kështu që për ato të mund të përdoren metoda osemodele përkatëse matematikore, që janë rezultat i shqyrtimit të burimeve ideale ergodike.

Burimet me memorie

• Për dallim nga burimet pa memorie, te burimet me memorie gjasa e paraqitjes së simboleve varet nga një ose më tepër simbole që janë paraqitur paraprakisht, dhe së këndejmi ka vargje të simboleve që janë me gjasë më të madhe të paraqitjes se vargjet tjera.

• Kështu për shembull, nëse tekstin në ndonjë gjuhë e konsiderojmë si varg (sekuencë) e shkronjave (simboleve), atëherë për disa fjalë – vargjet e simboleve – paraqiten me shpesh, tjetërkund më rrallë, por ka edhe vargje të simboleve që nuk u përgjigjen fjalëve në atë gjuhë, kështu që gjasa e paraqitjes së atyre fjalëve është e neglizhueshme.paraqitjes së atyre fjalëve është e neglizhueshme.

• Nëse e marrim në konsiderim të folurit si varg i mostrave të digjitalizuara të amplitudave të sinjalit të zërit, (p.sh. me 8000 mostra në sekondë), do të hasim në vargje të gjata të vlerave të vogla të amplitudave të cilat u përkasin pauzave ndërmjet fjalëve ose fjalive.

• Nëse figurën e digjitalizuar e vështrojmë si varg të pikave, ndërsa ngjyrën e çdo pike e konsiderojmë si një simbol, përsëri vërejmë vargje relativisht të gjata të simboleve të njëjta ose të ngjashëm të cilat u takojnë sipërfaqeve të ndonjë objekti njëngjyrësh në figurë.

• Në tehet e objektit në figurë kemi kërcim të vlerës së ngjyrës, por kërcimet e tilla janë relativisht të rralla në krahasim me gjithë sipërfaqen e figurës, kështu që mund të thuhet se gjasa e ndryshimeve të mëdha të vlerave të ngjyrës ndërmjet pikave fqinje është e vogël.

Burimet e Markovit

• Burimet me memorie shpesh mund të përshkruhen me anë të proceseve të Markovit, dhe si të tilla i quajmë burime të Markovit, të cilat i paraqesim përmes gjendjeve dhe të gjasave të kalimit nga një gjendje në tjetrën.

• Gjatë kalimit nga një gjendje në tjetrën mund të gjenerohet simboli, dhe në këtë mënyrë burimi i

X;0.9

Z;0.5

A B

U;0.5

V;0.5

W;0.5

Y;0.1

gjenerohet simboli, dhe në këtë mënyrë burimi i Markovit gjeneron vargun e simboleve.

• Rëndom proceset e Markovit paraqiten me grafin e gjendjeve dhe të gjasave të kalimit.

• Shembulli 8: Në fig. është treguar një proces i Markovit në formë të grafit të gjendjeve dhe të gjasave të kalimit, në nyjat e të cilit janë paraqitur gjendjet: A, B, C dhe D, ndërsa me shigjeta janë treguar kalimet e mundshme ndërmjet gjendjeve dhe simbolet (x,y,z,u,…) që ky burim gjeneron gjatë kalimit me gjasat përkatëse.

C D

t;0.9

S;0.1

Burimet e Markovit

• Aty ku nuk ka shigjetë ndërmjet dy gjendjeve, gjasa e kalimit është zero (p.sh. nuk ka kalim nga B në A).

• Procesi fillon nga ndonjë gjendje, p.sh. gjendja A, dhe në çdo hap të procesit kalohet në gjendjen tjetër sipas gjasave të kalimit, në ç’rast gjenerohet simboli përkatës, p.sh. nëse procesi ka filluar nga gjendja A, në hapin e parë gjasa e kalimit në

X;0.9

Z;0.5

A B

U;0.5

V;0.5

W;0.5

Y;0.1

gjendja A, në hapin e parë gjasa e kalimit në gjendjen B është 0.1, ndërsa kalimi përsëri në gjendjen A me gjasë 0.9.

• Të konsiderojmë se procesi përsëri ka kaluar në gjendjen A, në ç’rast është gjeneruar simboli x, duke vazhduar kështu më tutje në të njëjtën mënyrë.

C D

t;0.9

S;0.1

Shembulli 9: Burimi binar i Markovit me memorie prej dy simbolesh

• Në fig. është treguar procesi i Makovit i ngjashëm me shembullin paraprak, me dallim që në këtë rast çdo gjendje tregon dy simbole paraprake, dhe simbolet që gjenerohen janë 0 dhe 1 (burimi është binar).

• Nëse gjendja 11 (dy simbolet paraprake janë 11), kalon në gjendjen 10 gjeneron simbolin 0, ashtu që gjendja momentale përsëri paraqet me dy simbolet e fundit, tash 10, por nëse mbetet në të njëjtën gjendje

00 01

1;0.5

0;0.5

1;0.5

1;0.10;0.9

0;0.5

fundit, tash 10, por nëse mbetet në të njëjtën gjendje (fig. poshtë), gjendja e ardhshme është përsëri 11.

• Në këtë shembull gjasat janë të mëdha që të gjenerohet i njëjti simbol, kështu që sekuenca tipike do të ishte: 00000000011111111000111111000000.

10 11

1;0.9

0;0.1

Simboli i ri Gjendja e ardhshme

Simbolet paraprake që gjithashtu paraqiten edhe në rrathë të gjendjeve

Llojet e kodeve: kodet josingular, të njëvlershëm dhe kodet parashtesorë (momentalë)

• Kodimi do të mund të përkufizohej edhe si pasqyrim nga bashkësia e simboleve X në bashkësi të fjalëve të koduara D*, ku çdo fjalë e koduar përbëhet prej një numri të caktuar të simboleve nga alfabeti prej dsimbolesh.

• Pra, kodimi është proces me të cilin çdo simboli xi i caktohet fjala e koduar C(xi), në ç’rast çdo fjalë e koduar C(xi), është bashkësi e kufizuar e simboleve nga alfabeti prej d simbolesh:e simboleve nga alfabeti prej d simbolesh:

}{ ni xxxxX ,...,,....,, 21=

)( iKODIMI

i xCXx →∈

{ },,,...,,,)( 21*

di aaaDDxC =∈

ku D është alfabeti prej d simbolesh.

• Në përdorimet praktike në lëmin e teknologjive komunikuese dhe informative, alfabeti D është gati gjithmonë binar, pra d =2, ndërsa D = {0,1}.

Gjatësia mesatare e fjalëve të koduara

• Gjatësia e fjalëve të koduara C(xi) është numri i simboleve që e përbëjnë atë fjalë të koduar dhe shënohet me l(xi) ose shkurt li.

• Gjatësia mesatare e fjalëve të koduara, L, për ndonjë kod është:

( ) ( ) [ ]∑∑==

=⋅=n

iiii

n

ii simbolbitlpxlxpL

11

./

• Në rastin e ndonjë mesazhi prej N simbolesh, për mesazhe të gjata, kur Nështë i madh, numri i pritur i paraqitjes së simboleve xi, e me te edhe i fjalës përkatëse të koduar C(xi), është proporcional me gjasën e paraqitjes pi, pra Npi.

• Kur numri i pritur i paraqitjeve të çdo fjale të koduar shumëzohet me gjatësinë e fjalës së koduar, dhe këto mblidhen sipas të gjitha fjalëve të koduara, numri i pritur i simboleve në mesazhin e koduar është NL, pra sa gjatësia e mesazhit të koduar.

• Prandaj, gjatësia mesatare e fjalëve të koduara ose, më shkurtë, gjatësia mesatare e kodit është masë e mirë e efikasitetit të kodit.

Shembulli 10

• Do të marrim përsëri në shqyrtim shembullin 5 ku burimi gjeneron simbole nga bashkësia X = {1, 2, 3, 4} me gjasat përkatëse: 1/2, 1/4, 1/8, 1/8.Për kodin e përdorur (0, 10, 110, 111) në shembullin 5 kemi njehsuar gjatësinë mesatare të fjalëve të koduara L = 1.75 bit/simbol, e cila ka qenë e barabartë me entropinë e këtij burimi, kështu që konstatojmë se nuk ekziston kod me gjatësi mesatare më të vogël të fjalëve të koduara.

• Shembulli i tillë qartë tregon përdorimin e drejtë të fjalëve të koduara me gjatësi të ndryshme, sepse nëse do të përdornim mënyrën më të thjeshtë të kodimit të fjalëve duke përdorur dy bite për simbol, në formën: 00, 01, 10, 11, do të fitonim gjatësi mesatare të fjalës së koduar (të barabartë me 2) më të madhe se 1.75 bit/simbol.

Shembulli 11

• Të marrim burimin që gjeneron simbole nga bashkësia X = {1, 2, 3},me gjasë të njëjta të paraqitjes, të barabartë me 1/3, dhe me fjalë të koduara: 0, 10, 11.Mund të llogarisim entropinë e këtij burimi, si dhe gjatësinë mesatare për kodin e dhënë:

,]/[58.13/1)( ∑ =−=−=n

simbolbitldldppXH ,]/[58.13/1)(1∑

==−=−=

iii simbolbitldldppXH

}./[66.123

12

3

11

3

1

1

simbolbitlpLn

iii =⋅+⋅+⋅=⋅=∑

=

• Shihet se në këtë rast gjatësia mesatare e fjalëve të koduara është më e madhe se entropia, por akoma është mjaftë më e vogël se në rastin e përdorimit të fjalëve të koduara me gjatësi të njëjtë, sepse në atë rast do të ishte e nevojshme të përdoren 2 bite për simbol.

Llojet e kodeve

• Përkufizimi i kodimit nuk vendos kufizime për mënyrën e fjalëve të koduara.

• Kështu p.sh., caktimi i një fjale të njëjtë (p.sh. “1”) për çdo simbol të mesazhit, me çka për cilën do mesazh të burimit fitojmë mesazhin e koduar të formës së njëjtë (“1111…”), është një formë e mundshme e kodimit, e cila si e tillë është e papërdorshme në praktikë.cila si e tillë është e papërdorshme në praktikë.

• Prandaj do të përkufizojmë disa veti të cilat kodet i bëjnë të përdorshëm në praktikë.

• Me shtimin e vetive shtesë kodet klasifikohen në lloje të kodeve që janë nënbashkësi gjithnjë e më të ngushta të të gjitha kodeve (fig.).

• Kështu kodet josingulare janë nënbashkësi e të gjitha kodeve; kodet njëvlerësisht të dekodueshëm janë nënbashkësi e kodeve josingular me disa veti shtesë, ndërsa kodet parashtesorë (momentalë) janë nënbashkësi e kodeve njëvlerësisht të dekodueshëm.

Kodet josingular

• Kodi është josingular nëse çdo simboli i caktohet fjalë e ndryshme e koduar:

).()( jiji xCxCxx ≠⇒≠• Josingulariteti i kodit nuk është garanci që ai të jetë njëvlerësisht i dekodueshëm, pra që çdo varg i fjalëve të koduara të mundet të dekodohet njëvlerësisht.njëvlerësisht.

• Shembulli 12 : Të marrim në konsiderim alfabetin prej tre simbolesh, A, B, C, të koduar me fjalët: C(A) = 0, C(B) = 01 dhe C(C) = 1.

Këto tri fjalë të koduara janë të ndryshme, pra kodi është josingular, por vargun e koduar me kodin e këtillë nuk mund ta dekodojmë njëvlerësisht. Kështu p.sh., vargun e simboleve “ABC” do ta kodonim me mesazhin e koduar “0011”, por gjatë dekodimit do të ishte e pamundur të caktohet se a ka qenë mesazhi i burimit “ABC” ose “AACC”. Problemi konsiston në atë se nuk dihet se si të ndahen fjalët e koduar pa ndonjë simbol të veçantë që ndan ato. Simboli i tillë pas çdo fjale të koduar do të ishte shumë joefektiv, por fatmirësisht ekzistojnë lloje të kodeve të cilat këtë problem e zgjidhin në mënyrë elegante.

Kodet njëvlerësisht të dekodueshëm

• Duke u nisur nga fakti se kodi paraqet pasqyrimin e simboleve në fjalë të koduara, kodim i zgjeruar është pasqyrim nga vargu i simboleve në varg të fjalëve të koduara, ashtu që çdo simbol i vargut kodohet në një fjalë të koduar, pra:

)(xCx KODI →

).()...()()....(... 21212 nnZGJERUARIKODIM

ni xCxCxCxxxCxxx = → ⋅⋅ ).()...()()....(... 21212 nnni xCxCxCxxxCxxx = →

• Kodimin e zgjeruar mund ta kuptojmë si kod të përkufizuar në alfabetin e zgjeruar, ku elementet e alfabetit të zgjeruar janë të gjitha vargjet e mundshëm të simboleve bazë.

• Përkufizimi i kodit të zgjeruar është i nevojshëm për të përkufizuar kodet njëvlerësisht të dekodueshëm.

• Kodi është njëvlerësisht i dekodueshëm nëse zgjerimi i tij është josingular.

• Pra, kodi është njëvlerësisht i dekodueshëm nëse për cilat do dy mesazhe të ndryshme gjeneron dy mesazhe të ndryshme të koduara, dhe kodin e tillë gjithmonë është e mundur t’a dekodojmë njëvlerësisht.

Shembulli 13: Kodi njëvlerësisht i dekodueshëm

• Do ta marrim përsëri në shqyrtim shembullin e mëparshëm të alfabetit me tre simbole, A, B, C, por tash me fjalët e koduara C(A) =0, C(B) = 01 dhe C(C) = 011.

• Vargjet e koduar me kodin e këtillë gjithmonë mund t’i dekodojmë njëvlerësisht. Për shembull, vargu i simboleve “ABC” do të kodohej me mesazhin e koduar “001011”. Ky mesazh është i njëvlershëm, pra nuk mund të dekodohet kurrsesi ndryshe por vetëm si “ABC”.mund të dekodohet kurrsesi ndryshe por vetëm si “ABC”.

• Por, është e rëndësishme të thuhet se është e domosdoshme të kemi mesazhin e tërë në mënyrë që ai të mund të dekodohet njëvlerësisht, sepse në momentin e pranimit të tre simboleve të para “001”, nuk mund të jemi të sigurt se mund t’a dekodojmë si “AB”, për arsye se nëse simboli i ardhshëm është 1, do të kemi “0011”, pra “AC”.

• Pra kodet e këtilla nuk mundet gjithmonë të dekodohen momentalisht, para pranimit të fjalëve të koduara që pasojnë (prandaj kodet e tilla quhen edhe kode jomomentale ).

Kodet parashtesorë (momentalë)

• Kodi parashtesor është kod te i cili asnjë fjalë e koduar nuk është parashtesë (prefiks) e ndonjë fjale tjetër të koduar. Në këtë mënyrë zgjidhet problemi nga shembulli paraprak dhe arrihet vetia që çdo fjalë e koduar të mund të dekodohet momentalisht pa pritur ardhjen e fjalëve të koduara që pasojnë. Prandaj kodet e këtilla quhen edhe kode momentale. Kjo veti e dobishme është rezultat i drejtpërdrejtë i përkufizimit të kodit parashtesor.

• Në momentin kur e dallojmë një fjalë të koduar, e dimë se ajo nuk është parashtesë e asnjë fjale tjetër, kështu që është e pamundur që cili do simbol i ardhshëm së bashku me fjalën e dekoduar të formojnë ndonjë fjalë tjetër të parashtesë e asnjë fjale tjetër, kështu që është e pamundur që cili do simbol i ardhshëm së bashku me fjalën e dekoduar të formojnë ndonjë fjalë tjetër të koduar.

• Prandaj, dekodimi i fjalëve të koduara është i menjëhershëm (momental) dhe përfundimtar.

• Nëse përsëri marrim në shqyrtim shembullin paraprak, shohim që fakti se fjalët e koduara janë parashtesë e njëra tjetrës (0 është prefiks i 01, ndërsa 01 i 011) është pikërisht shkak i pamundësisë së kodimit momental.

• Në momentin kur pranojmë “01” nuk dihet a është fjala e koduar 01 ose tek fillimi i fjalës së koduar 011.

• Te kodet parashtesorë kjo nuk mund të ndodh, sepse nga vetë përkufizimi,fjala e koduar nuk mund të jetë fillim i ndonjë fjale tjetër.

SIMBOLI LLOJI I KODIT

Shembulli 14: Llojet e kodeve

• Tabela e mëposhtme jep shembuj të të gjitha llojeve të kodeve për alfabetin prej katër simbolesh. Tri rreshtat e fundit në tabelë tregojnë se si e kodon çdo kod vargun “1234”, si dekodohet mesazhi i koduar, dhe se si do të dekodoheshin 6 simbolet e para të mesazhit të koduar. Shembulli i kodit singular jep të njëjtat fjalë të koduara për të katër simbolet, duke koduar “1234” si “0000” kështu që si i tillë nuk është njëvlerësisht i dekodueshëm.

SIMBOLI(xi)

LLOJI I KODIT

Singular Josingular Njëvlerësisht i dekodueshëm

Parashtesor

1 0 0 10 0

2 0 010 00 10

3 0 01 11 110

4 0 10 110 111

“1234” 0000 00100110 100011110 010110111

I dekoduar pas pranimit të të gjithë simboleve

? ? 1234 1234

I dekoduar pas pranimit të 6 simboleve të para

? ? ?(123 ose 124) 123

Shembulli 14: Llojet e kodeve

• Te kodi josingular çdo fjale të koduar i caktojmë fjalë të ndryshme të koduar, por kjo akoma është e pamjaftueshme për dekodim të njëvlershëm –mesazhi i koduar “00100110” mund të dekodohet në disa mënyra të ndryshme, p.sh., “12434”, “13134”, etj. Kodi i njëvlershëm mund të dekodohet njëvlerësisht kur është në dispozicion mesazhi i plotë, por gjatë dekodimit të 6 simboleve të para nuk dihet se a është fjala për vargun 123 ose 124 deri në momentin kur të arrijë simboli i ardhshëm. Vetëm kodin parashtesor mund ta dekodojmë njëvlerësisht pas çdo fjale të koduar.

SIMBOLI(xi)

LLOJI I KODIT

Singular Josingular Njëvlerësisht i dekodueshëm

Parashtesor

1 0 0 10 0

2 0 010 00 10

3 0 01 11 110

4 0 10 110 111

“1234” 0000 00100110 100011110 010110111

I dekoduar pas pranimit të të gjithë simboleve

? ? 1234 1234

I dekoduar pas pranimit të 6 simboleve të para

? ? ?(123 ose 124) 123

Kodimi optimal

• Nga ajo që u tha deri tash shihet se për përdorim praktik më të përshtatshëm janë kodet parashtesorë (momentalë).

• Do të shqyrtojmë gjatësinë minimale të fjalëve të koduara të nevojshme për realizimin e kodit parashtesor, dhe do të gjejmë sa duhet të jenë gjatësitë e tilla për t’u realizuar kodim optimal për ndonjë burim, ashtu që mesazhet e burimit të tillë të kodohen me numrin më të vogël të mundshëm.

• Për t’u përgjigjur në pyetjet e tilla së pari do të njihemi me teoremën për • Për t’u përgjigjur në pyetjet e tilla së pari do të njihemi me teoremën për gjatësinë minimale të fjalëve të koduara të nevojshme për realizimin e kodit parashtesor, të njohur si jobarazim i Kraftit, për të shtruar pastaj kushtin e përgjithshëm për optimalizim të kodit, nga i cili del gjatësia mesatare e fjalëve të koduara që mund të arrihet me kodin optimal.

Jobarazimi i Kraftit

• Për çdo kod parashtesor me alfabet prej d simbolesh (baza e kodit) dhe gjatësi të fjalëve të koduara l1, l2,…, ln vlen:

11

≤∑=

−n

i

l id

• Vlen edhe e kundërta, për çfarëdo bashkësie të gjatësive të fjalëve të koduara • Vlen edhe e kundërta, për çfarëdo bashkësie të gjatësive të fjalëve të koduara li të cilat e përmbushin këtë jobarazim, ekziston kodi parashtesor me gjatësi të tilla të fjalëve të koduara.

• Kjo teoremë, vërtetimi i të cilës është i lehtë, dhe është bërë në shumë referenca, quhet jobarazim i Kraftit dhe përcakton gjatësinë minimale të fjalëve të koduara të nevojshme për realizimin e kodit parashtesor.

Shembulli 15: Jobarazimi i Kraftit

• Do të shqyrtojmë shembullin paraprak të kodit parashtesor për katër simbole. Fjalët e koduara janë {0, 10, 110, 111}, pra gjatësitë e tyre janë 1, 2, 3, 3. Alfabeti me të cilin i realizojmë fjalët e koduara është binar, pra d=2. Shihet se është plotësuar jobarazimi i Kraftit:

∑=

− ≤n

i

li

1

,12=i 1

• Pasi që në këtë rast shuma është e barabartë pikërisht me 1, çdo tentim i shkurtimit të kodit, pra i shkurtimit të njërës prej fjalëve të koduara, do të rriste shumën mbi 1, me çka jobarazimi i Kraftit nuk do të përmbushej, kështu që është e pamundur të gjendet kod parashtesor me gjatësi më të shkurtër të fjalëve.

.12222 3321 =+++ −−−−

Shembulli 16: Jobarazimi i Kraftit

• Si shembull tjetër, do të shqyrtojmë rastin e tre simboleve, për të cilat duhen tri fjalë të koduara, duke shfrytëzuar edhe më tutje alfabetin binar për fjalët e koduara. Jobarazimin e Kraftit mund ta përmbushim në këtë mënyrë:

.1222 221 =++ −−−

• Prej nga del se duhet të ekzistojë kodi parashtesor me gjatësi të fjalëve të koduara 1, 2, 2, dhe në shembullin e këtillë gjejmë se kodet e këtilla janë: {0, 10, 11} dhe {1, 01, 00}.

• Sikurse në shembullin paraprak, nuk mund të gjendet kod më i shkurtër, sepse çdo tentim i shkurtimit rezulton me mospërmbushjen e jobarazimit të Kraftit, dhe si i tillë nuk është parashtesor, p.sh. kodi {0, 1, 11}, i cili nuk është kod parashtesor sepse fjala e dytë e koduar (1) është parashtesë e fjalës së tretë (11), kështu që kodi i tillë nuk mund të dekodohet njëvlerësisht.

Kodet optimale

• Jobarazimi i Kraftit vendos kushtin për gjatësinë e fjalëve të koduara që janë të nevojshme për realizimin e kodit parashtesor, i cili mund të dekodohet momentalisht dhe njëvlerësisht.

• Por për një bashkësi të caktuar të simboleve mund të ekzistojnë numër më i madh i kodeve të cilat përmbushin jobarazimin e Kraftit.

• Në shembullin 15 koduam katër simbole me fjalët e koduara {0, 10, 110, 111}; mundësia tjetër për caktimin e fjalëve të koduara do të ishte p.sh. {111, 0, 10, 110}.110}.

• Dy kodet e tilla, si dhe disa të tjerë, janë kode të rregullt parashtesorë, kështu që shtrohet pyetja si të gjendet kodi optimal.

• Pra, është qartë se dëshirojmë që kodi të jetë sa më i shkurtër, kështu që kod optimal është kodi parashtesor me gjatësi të fjalëve të koduara mesatare më të vogël të mundshme.

• Pra, gjatësitë optimale e fjalëve të koduara li* janë të tilla që minimizojnë gjatësinë mesatare të fjalëve të koduara, në ç’rast përmbushin jobarazimin e Kraftit:

∑∑=

=

⋅=n

i

ln

iii

idkushtmelpL11

.1min

Kodet optimale

• Principi i zgjidhjes së këtij problemi të optimizimit jepet në referenca të ndryshme, ndërsa këtu do të japim vetëm zgjidhjen për gjatësinë optimale të fjalëve të koduara li*:

).(loglog1

XHppLpl i

n

idiidi =−=⇒−= ∑

=

• Por, kjo zgjidhje nuk përfillë kufizimin se l duhet të jenë numra të plotë, • Por, kjo zgjidhje nuk përfillë kufizimin se li duhet të jenë numra të plotë, kështu që me përdorimin e drejtpërdrejtë të kësaj zgjidhjeje në rastin e përgjithshëm fitojmë gjatësi të fjalëve të cilat nuk janë numra të plotë, dhe si të tilla nuk mund t’i përdorim.

• Vetëm në rastin ideal të “shpërndarjes së mirë” të gjasave, të gjitha vlerat log pi do të jenë numra të plotë, kështu që do të jetë e mundur të realizohet kod me gjatësi mesatare të fjalëve të koduara të barabartë me entropinë.

• Në rastin e përgjithshëm, gjatësia mesatare e fjalëve të koduara mund të jetë më e madhe ose e barabartë me entropinë, dhe së këndejmi shihet rëndësia e entropisë si kufi i komprimimit pa humbje, siç është thënë paraprakisht.

Kodet optimale

• Është e pamundur të kodohet informacioni me numër më të vogël se entropie e tij, pra

).(XHL ≥• Kur gjatësitë e fjalëve të koduara nuk do të duhej të ishin numra të plotë, do të mund të arrihej gjithmonë L = H, por për shkak të kufizimit në gjatësi të plota të fjalëve të koduara, nuk mundet gjithmonë të arrihet ai minimum, por mund të fjalëve të koduara, nuk mundet gjithmonë të arrihet ai minimum, por mund të arrihet gjatësia mesatare brenda entropisë prej një biti.

• Për kodet optimale gjatësia mesatare e fjalëve të koduara është më e madhe se entropia maksimalisht për një bit, dhe në këtë mënyrë fitojmë kriterin ose kushtin sipas të cilit caktohet që një kod të jetë optimal:

H(X) ≤ L < H(X) + 1.

• Efikasiteti i kodit përkufizohet si herës i entropisë dhe i gjatësisë mesatare të fjalëve të koduara:

.1)( ≤=

L

XHε

(30)

Metodat e kodimit entropik

• Metodat themelore të kodimit entropik janë:– Kodimi i Shanon-Fanos;– Kodimi i Hafmanit;– Kodimi aritmetikor;– Medotat e fjalorit (LZ77, LZ78, LZW);– Metodat e shkurtimit të vargut (ngjeshja e zerove dhe kodimi vargor).– Metodat e shkurtimit të vargut (ngjeshja e zerove dhe kodimi vargor).

• Metodat e tilla shfrytëzohen brenda algoritmeve dhe normave komplekse, dhe lista e tillë nuk është definitive, sepse këtu janë zgjedhur ato metoda të kodimit entropik të cilat përdoren më tepër në përdorimet praktike.• Përjashtim bënë metoda e Shanon-Fanos, e cila kryesisht nuk përdoret në praktikë, por paraqet një prej hapave në zhvillimin e metodave të kodimit dhe thjeshtësia e sajë lehtëson përvetësimin e principeve themelore të kodimit. • Kodimi i Hafmanit është metodë relativisht e thjeshtë dhe shpesh përdoret për gjetjen e kodit optimal kur dihen vlerat e e gjasave të paraqitjes së simboleve.

Metodat e kodimit entropik

• Kodimi aritmetikor e shndërron mesazhin e tërë në një fjalë të koduar; është dukshëm më i komplikuar por në përgjithësi mund të japi rezultate më të mira se kodi i Hafmanit.

• Metodat e fjalorit kanë përparësi sepse gjasat e paraqitjes së simboleve nuk duhet të jenë të njohura paraprakisht, dhe janë të përshtatshme për burimet me memorie.

• Metodat e shkurtimit të vargut janë metodat më të thjeshta se të gjitha • Metodat e shkurtimit të vargut janë metodat më të thjeshta se të gjitha metodat tjera të përmendura paraprakisht, dhe shfrytëzohen kur brenda mesazhit paraqiten vargje të gjata të simboleve të njëjta.

Kodimi i Shanon-Fanos

• Kodimi i Shanon-Fanos është njëri prej algoritmeve të parë të kodimit e bazuar në teorinë e informacionit, i cili, pasi që nuk jep gjithmonë kod optimal, përdoret shumë rrallë në praktikë, por është i dobishëm si hyrje në kodim për shkak se është i thjeshtë.

• Kodimi i Shanon-Fanos bazohet në karakteristikat e këtilla të dëshirueshme të kodit:

(1) Asnjë fjalë e koduar nuk mund të jetë prefiks (parashtesë) i ndonjë (1) Asnjë fjalë e koduar nuk mund të jetë prefiks (parashtesë) i ndonjë fjale tjetër të koduar.

(2) Dëshirojmë që në mesazhin e koduar shifrat binare 0 dhe 1 të paraqiten me gjasa të barabarta.

• Kërkesa (1) në të vërtetë është përkufizimi i kodit parashtesor, ndërsa nëse plotësohet kërkesa (2), atëherë entropia e mesazhit të koduar në atë mënyrë do të jetë afër maksimumit, sepse entropia maksimale arrihet me shpërndarjen e njëtrajtshme të gjasave të simboleve.

Kodimi i Shanon-Fanos

• Nëse zerot dhe njëshat në mesazh paraqiten me gjasë të njëjtë , atëherë çdo shifër binare e mesazhit bartë mesatarisht një bit të informacionit, gjë që teoritikisht paraqet maksimumin që mund të arrihet.

• Metoda e Shanon-Fanos për kodim i plotëson kërkesat (1) dhe (2) në këtë mënyrë:

• Simbolet e alfabetit renditen sipas gjasave në rënie të paraqitjes, për tu ndarë pastaj në dy grupe, ashtu që shuma e gjasave të paraqitjes së simboleve të njërit dhe të grupit tjetër të jenë të njëjta.simboleve të njërit dhe të grupit tjetër të jenë të njëjta.

• Simboleve të njërit grup u caktohet shifra binare 0 si fillim i fjalës së koduar, ndërsa simboleve të grupit të dytë shifra binare 1.

• Procedura më tutje përsëritet brenda çdo grupi, deri sa grupet nuk mbesin me një simbol, shih shembullin e mëposhtëm.

Shembulli 17: Kodimi i Shanon-Fanos

x i p(x i) Hapi 1 Hapi 2 Hapi 3 Hapi 4 Fjala e koduar

Gjatësia e fjalës së koduar

• Kodohen simbolet xi gjasat e paraqitjes p(xi) e të cilëve janë dhënë në tabelë, ku janë treguar hapat e kodimit dhe fjalët përfundimtare për çdo simbol.

• Në hapin e parë simbolet janë ndarë me vijë të trashë në tabelë në dy grupe – dy simbolet e parë në njërën, ndërsa gjashtë të tjerët në grupin e dytë.

• Simboleve të grupit të parë u caktohet shifra binare 0, ndërsa të dytës 1.

koduar

x1 0.25 0 0 00 2

x2 0.25 0 1 01 2

x3 0.125 1 0 0 100 3

x4 0.125 1 0 1 101 3

x5 0.0625 1 1 0 0 1100 4

x6 0.0625 1 1 0 1 1101 4

x7 0.0625 1 1 1 0 1110 4

x8 0.0625 1 1 1 1 1111 4

Gjatësia mesatare e fjalëve të koduara 2.75

Shembulli 17: Kodimi i Shanon-Fanos

• Në hapin e dytë procedura përsëritet për çdo nëngrup të formuar si në hapin e parë, kështu që pas këtij hapi simbolet x1 dhe x2 formojnë grupin prej një simboli, dhe si të tillë nuk mund të ndahen më tutje, prandaj procedura për ta përfundon, ndërsa për të tjerët përsëritet.

• Të marrim në shqyrtim përsëri hapin 2, pas të cilit simbolet x1 dhe x2 kanë fjalë të gatshme të koduara prej dy shifrash binare, ndërsa simbolet tjerë në hapat e ardhshëm fitojnë shifra shtesë binare.

• Pasi që simbolet x1 dhe x2 nuk mund të jenë parashtesë e asnjë fjale tjetër të koduar, plotësohet kushti (1), ndërsa kushti (2) plotësohet duke ndarë

1 2të koduar, plotësohet kushti (1), ndërsa kushti (2) plotësohet duke ndarë simbolet në grupe me gjasë të barabartë të paraqitjes.

• Në këtë shembull mund të llogaritet entropia e burimit, e cila është H = 2.75bit/simbol, e që është e barabartë me gjatësinë mesatare për kodin e tillë L = 2.75 bit/simbol, prandaj kodi i tillë sipas kriterit (30) është kod optimal dhe ka efikasitet të barabartë me 1 – pra nuk mund të ketë kod më efikas se ky.

• Shembulli i tillë është rast ideal për kodimin e Shanon-Fanos, ku në çdo hap është e mundur ndarja e simboleve në grupe me gjasa të barabarta të paraqitjes, që në situata reale kjo shpesh nuk është rast, prandaj kjo metodë nuk jep rezultate aq të mira, por as kodi i fituar nuk është gjithmonë kod optimal.

Kodimi i Hafmanit

• Ky algoritëm i njohur e ka marrë emrin sipas autorit të tij D. A. Huffman, sipas të cilit simbolet kodohen me fjalë të koduara me gjatësi të ndryshueshme, varësisht nga gjasat e paraqitjes së tyre.

• Është me rëndësi të theksohet se gjasat duhet të dihen paraprakisht për të realizuar kodin e Hafmanit, i cili është kod optimal, pra kod me gjatësi mesatare më të vogël të mundshme të gjatësisë së fjalës, brenda entropisë prej një biti.entropisë prej një biti.

• Kodimi i Hafmanit bazohet në këto dy teorema:(1) Te kodi optimal, simbolet me gjasë më të madhe të paraqitjes nuk

mund të kenë fjalë më të gjata të koduara në krahasim me simbolet me gjasë më të vogël të paraqitjes.

(2) Te kodi optimal, dy simbole me gjasa më të vogla të paraqitjes kanë fjalë të koduara me gjatësi të barabartë (vlen për kodin parashtesor).Vërtetësia e teoremës (1) është evidente: nëse do të ishte e kundërta, gjatësia mesatare e fjalëve të koduara do të ishte më e madhe, kështu që kodi nuk do të ishte optimal.

Kodimi i Hafmanit

• Teorema (2) mund të vërtetohet thjeshtë duke supozuar të kundërtën, pra se ekziston kodi optimal parashtesor ku dy fjalë të koduara me gjasë më të vogël të paraqitjes nuk kanë gjatësi të njëjtë, p.sh., fjala e koduar A ka k bitamë tepër se fjala e koduar B.

• Pasi fjala është për kod parashtesor, B sigurisht nuk është parashtesë e A, kështu që nëse nga fjala e koduar A i heqim k bitët e fundit, A dhe B do të jenë edhe më tutje të ndryshme.

• Njëkohësisht, pasi që fjalët tjera të koduara nuk mund të jenë më të gjata se • Njëkohësisht, pasi që fjalët tjera të koduara nuk mund të jenë më të gjata se sa fjala e shkurtuar A, sepse kanë gjasë më të madhe të paraqitjes (pra në kodin optimal duhet të jenë më të shkurtra), nuk ka rrezik që fjala e shkurtuar A të jetë parashtesë e ndonjë fjale tjetër.

• Prandaj, kodi i ri me fjalën e shkurtuar A është kod i vërtetë parashtesor, gjatësia mesatare e të cilit është më e vogël se te kodi fillestar me gjatësi të ndryshme të fjalëve të koduara A dhe B.

• Nga një shqyrtim i tillë shihet se nuk ekziston kod optimal te i cili dy fjalët e koduara me gjasë më të vogël nuk kanë gjatësi të barabartë, kështu që vlen pohimi ose teorema (2).

• Rezultat i caktimit të fjalëve më të shkurtra të koduara për simbolet me gjasë më të madhe është paraqitja më e ngjeshur (p.sh., teksti tipik ngjishet ose komprimohet për 45%).

Kodimi i Hafmanit

• Procedura e kodimit të Hafmanit është rezultat i vetive të përmendura (1) dhe (2) për kodet optimale.

• Gjejmë dy simbole me gjasat më të vogla, të cilat pasi që duhet të kenë fjalë të koduara me gjatësi të njëjtë mund t’i realizojmë ashtu që njëri të përfundojë me 0 ndërsa tjetri me 1.

• Këto dy simbole (0 dhe 1) i përshkruajmë, kombinojmë këto dy simbole në një simbol të ri (duke mbledhur gjasat përkatëse), dhe përsërisim një simbol të ri (duke mbledhur gjasat përkatëse), dhe përsërisim procedurën.

• Me këtë procedurë të degëzimit fitojmë pemën; dhe duke u kthyer nëpër pemë lexojmë kodet për të gjitha simbolet.

• Për dekodim, dekoduesit i shërben e njëjta tabelë e fjalëve të koduara, të cilën e ndërtojmë në procedurë të njëjtë sikurse te koduesi, me ç’rast është e nevojshme që edhe te dekoduesi të dihen gjasat e paraqitjes së simboleve.

Kodimi i Hafmanit

• Procedura e kodimit të Hafmanit është treguar në gjashtë hapat e mëposhtëm.

1. Simbolet renditen sipas gjasave në rënie (duke filluar nga më e madhja);

2. Gjenden dy simbole me gjasa më të vogla;3. Njërit prej tyre i caktohet shifra “0”, tjetrit shifra “1”;3. Njërit prej tyre i caktohet shifra “0”, tjetrit shifra “1”;4. Kombinohen dy simbolet e tilla në një simbol të ri, gjasa e të cilit është

e barabartë me shumën e gjasave të paraqitjes së dy simboleve prej të cilëve është fituar, dhe shënohen si dy degë të pemës binare, ndërsa simbolin e ri si degëzim mbi ato degë;

5. Përsëriten hapat (1) deri në (4) deri sa nuk fitohet vetëm një simbol i ri;6. Duke u kthyer nëpër pemë lexohen kodet.

Shembulli 18: Kodimi i Hafmanit

• Për burimin i cili gjeneron simbolet nga bashkësia {A, B, C, D, E} me gjasat e paraqitjes p(A) = 0.16, p(B) = 0.51, p(C) = 0.09, p(D) = 0.13, p(E) = 0.11, nëse shfrytëzojmë kodin me gjatësi të njëjtë të fjalëve të koduara, do të duhej shfrytëzuar tre bita, sepse me 2 bita mund të formojmë vetëm 22=4 fjalë të koduara ndërsa në shembull janë pesë simbole, kështu që gjatësia mesatare e fjalëve të koduara do të ishte 3 bita për simbol.

• Me zëvendësimin e gjasave të paraqitjes në shprehjen për entropi, fitohet vlera e entropisë së burimit të këtillë e barabartë me 1.96 bita për simbol, e vlera e entropisë së burimit të këtillë e barabartë me 1.96 bita për simbol, e cila siç dihet është edhe kufiri i poshtëm i gjatësisë mesatare të kodit.

• Është e qartë se kodimi me gjatësi të fjalës së koduar të barabartë për të gjitha simbolet do të ishte relativisht joefikas, kështu që do të përdorim algoritmin e Hafmanit për të gjetur kodin optimal.

• Simbolet së pari renditen sipas gjasave në rënie, dhe dy simbole me gjasa më të vogla të paraqitjes E dhe C u caktojmë shifrat 1 dhe 0, për ti kombinuar në vazhdim në një simbol të ri.

• Me simbolet E dhe C paraqesim dy degë të pemës së ardhshme ku shënojmë shifrat e caktuara 1 dhe 0, dhe në ndarje të degëve të tilla shënojmë shumën e gjasave të simboleve E dhe C, 0.20, që paraqet simbolin e ri.

Shembulli 18: Kodimi i Hafmanit

• Të gjitha këto hapa janë treguar në fig.

• Procedura pastaj vazhdon me grupin e zvogëluar prej tre simboleve fillestare dhe me simbolin e ri.

• Vlerat më të vogla të gjasave të

p(B) = 0.51

p(A) = 0.16

p(D) = 0.13

p(E) = 0.11 10.20

• Vlerat më të vogla të gjasave të paraqitjes tash kanë simbolet A dhe D, të cilëve u caktojmë shifrat 1 dhe 0 dhe degët përkatëse, duke fituar simbolin e ri me gjasën përkatëse prej 0.29, që është shumë e gjasave të simbolit A dhe D, shih fig poshtë.

p(C) = 0.09 0

p(B) = 0.51

p(A) = 0.16

p(D) = 0.13

p(E) = 0.11

p(C) = 0.09

0.51

0

0.16

0.13

10.20

0.291

0

Shembulli 18: Kodimi i Hafmanit

• Ka mbetur simboli B dhe dy simbolet e rinj të fituar, të cilët gjithashtu kanë edhe vlerat më të vogla të gjasave, kështu që për ato përsërisim procedurën, shih fig.

p(B) = 0.51

p(A) = 0.16

p(D) = 0.13

p(E) = 0.11

p(C) = 0.09

0.20

0.13

0.16

0.51

0.20

0

10.51

0.29 1

0

0.49

p(C) = 0.09 0.20 0

Shembulli 18: Kodimi i Hafmanit

• Përfundimisht, duke u caktuar shifrat 1 dhe 0, dhe duke i bashkuar në një simbol të ri me shumën e gjasave të barabartë me 1.00.

• Mbetet të lexojmë fjalët e koduara, të shënuara në anën e majtë të fig, duke filluar nga maja e pemës, pra nga e djathta në të majtë, prej nga shihet se simboli B, ashtu siç është pritur, është koduar me fjalë më të shkurtër të koduar, sepse ka gjasë më të madhe të paraqitjes.

B….1 p(B) = 0.51

A….011 p(A) = 0.16

D….010 p(D) = 0.13

E….001 p(E) = 0.11

C….000 p(C) = 0.09 0

10.20

0.51

0.16

0.13 0

10.29

0.20

0.51

0

1

0.49

0.51

0

1

1.00

Shembulli 18: Kodimi i Hafmanit

• Me shprehjen e njohur njehsojmë gjatësinë mesatare të fjalëve të koduara për kodin e tillë të fituar të Hafmanit:

,]/[98.1151.03)16.013.011.009.0(∑∈

=⋅+⋅+++=⋅=Xx

xx simbolbitlpL

ku x janë simbolet, px është gjasa e paraqitjes së simbolit x, ndërsa lx gjatësia ku x janë simbolet, px është gjasa e paraqitjes së simbolit x, ndërsa lx gjatësia e fjalës së koduar x.

• Shihet se gjatësia mesatare e fjalëve të koduara për këtë kod është shumë afër vlerës së njehsuar paraprakisht për entropi H = 1.96 bit/simbol.

• Kur dihet se entropia është kufiri absolut i komprimimit pa humbje, përfundojmë se ky kod është i mirë.

• Gjithashtu pasi që plotësohet kushti (30), pra: 1.96 < 1.98 < 1.96 + 1, kodi i tillë është kod optimal.

Vetitë e kodimit të Hafmanit

• Kodimi i Hafmanit jep rezultate ideale në rastin kur gjasat e paraqitjes së simboleve shpërndahen në formën 1/2, 1/4,…, 1/2n, 1/2n (p.sh. {1/2, 1/4, 1/4} ose {1/2, 1/4, 1/8, 1/8}), për të cilën gjatësia mesatare e kodit të Hafmanit është e barabartë me entropinë.

• Është e qartë sa në përdorimet praktike kjo rëndom nuk ndodh, kështu që rezultati varet nga gjasat e paraqitjes së simboleve.

• Përparësi e kodimit të Hafmanit qëndron në atë se përveç realizimit të • Përparësi e kodimit të Hafmanit qëndron në atë se përveç realizimit të thjeshtë, jep rezultate të mira të kodimit, sidomos kur shpërndarja e gjasave të paraqitjes së simboleve është e përshtatshme.

• E metë e këtij algoritmi është se në këtë rast gjasat duhet të njihen paraprakisht, si dhe se për shpërndarje të gjasave që shmangen shumë nga shpërndarja ideale fitohen kode që janë larg kodeve optimale.

Shembulli 19: Kodimi i Hafmanit për shpërndarje të papërshtatshme

• Në tab. është dhënë grupi i simboleve që kanë shpërndarje jo të përshtatshme për kodim të Hafmanit.

• Njëra prej gjasave është relativisht e madhe, kështu që entropia është shumë e vogël (0.335 bit/simbol), sepse, siç dihet, gjasa shumë e madhe e një simboli do të thotë që nuk ka pasiguri të madhe dhe kemi paraqitje të vargjeve të gjata të simboleve a1.

• Por me përdorimin e kodimit të Hafmanit nuk ka

Simb--oli

Gjasa Fjala e koduar

a1 0.95 1

a2 0.02 01• Por me përdorimin e kodimit të Hafmanit nuk ka mënyrë që ata të ngjishen, sepse për çdo simbol duhet harxhuar së paku një bit, kështu që nuk mund të fitojmë më pak se 1 bit/simbol.

• Në këtë rast me kodimin e Hafmanit fitojmë 0.92·1+0.02·2+0.03·2=1.05 bit/simbol, gjë që është për 0.715 bit/simbol (1.05 - 0.335 = 0.715), ose për 213% më tepër se entropia (0.715/0.335=0.213), pra larg optimales, përkundër faktit se gjatësia e fjalëve të koduara është brenda 1 bit/simbol të entropisë, sepse entropia është larg nën 1 bit/simbol, kështu që rritja prej 0.715 bit/simbol është relativisht e lartë.

a3 0.03 00

Kodi i zgjeruar i Hafmanit

• Në shembullin paraprak mesazhi tipik do të ketë përsëritje të plotë të të njëjtit simbol a1 në formën: 111111111111111111111111111011111 11111111111110111111111111101111111111111011111111111111111

• Intuitivisht, mund të pritet se duhet të ekzistojë mundësi e kodimit të mesazhit të këtillë me më pak se një bit për simbol.

• Nga ana tjetër, kodimi i Hafmanit është optimal, që do të thotë se nuk ka kod me gjatësi më të vogël mesatare të fjalëve të koduara, pra nuk ekziston kod me gjatësi më të vogël mesatare të fjalëve të koduara, pra nuk ekziston kod më i mirë sa kodi i Hafmanit.

• Kjo është vërtet ashtu nëse i përmbahemi rregullës që çdo simbol të paraqitet si një fjalë e koduar, por nëse më tepër simbole i kodojmë së bashku si një fjalë e koduar, mund të fitojmë rezultate më të mira.

• Kodin e zgjeruar të Hafmanit e fitojmë duke formuar grupin e simboleve si një bashkësi të të gjitha kombinacioneve të mundshme prej m simboleve bazë, dhe për çdo kombinacion të simboleve bazë fitojmë gjasa të paraqitjes duke shumëzuar gjasat e simboleve bazë.

• Në këtë mënyrë fitojmë bashkësinë e re të simboleve dhe gjasave të tyre të paraqitjes, ashtu që nëse bashkësia bazë ka pas n simbole, bashkësia e re ka nm simbole.

Shembulli 20: Kodi i zgjeruar i Hafmanit

• Formojmë tabelë të re të simboleve duke kombinuar simbolet bazë, që në këtë rast janë të gjitha kombinacionet e mundshme prej dy simbolesh bazë (m=2), dhe pasi që kemi pas tre simbole bazë, fitojmë 32 = 9 simbole të reja: a1a1, a1a2,…,a3a3, me gjasat përkatëse të treguara në tab.

• Në këtë mënyrë shpërndarja e gjasave është përmirësuar dhe kodimi i Hafmanit jep rezultate më

Simboli Gjasa Fjala e koduar

a1a1 0.9025 1

a1a3 0.0285 011

a3a1 0.0285 010

a a 0.0190 000përmirësuar dhe kodimi i Hafmanit jep rezultate më të mira.

• Gjatësia mesatare e fjalëve të koduara e fituar me algoritmin e Hafmanit për simbolet e zgjeruar është 1.222 bit/simbol, por me çdo simbol të ri kemi koduar dy simbole bazë, kështu që këtë gjasë e pjesëtojmë me dy për të fituar numrin e bitëve për simbolet bazë, që mund t’i krahasojmë me rezultatin paraprak.

• Shihet se gjatësia e tillë mesatare e fituar e kodit prej 0.611 bit/simbol, është dukshëm më e vogël se gjatësia mesatare për kodin themelor të Hafmanit (që ishte 1.05 bit/simbol).

a1a2 0.0190 000

a2a1 0.0190 0011

a3a3 0.0009 001011

a2a3 0.0006 001010

a3a2 0.0006 001001

a2a2 0.0004 001000

Shembulli 20: Kodi i zgjeruar i Hafmanit

• Shembulli i tillë na shpie në një përfundim shumë të rëndësishëm sipas të cilit është më efikas kodimi i mesazhit si bllok i simbole ve.

• Nëse marrim blloqe më të mëdha, prej, p.sh., tre, katër ose më tepër simbolesh, do të fitojmë rezultate edhe më të mira.

• Por për të gjeneruar kodin e Hafmanit për blloqet me gjatësi m, është e nevojshme të gjenerohen të gjitha vargjet me gjatësi m dhe fjalët e tyre të koduara, e që siç dihet janë nm.koduara, e që siç dihet janë n .

• Pra, numri i kodeve të gjeneruar rritet eksponencialisht, kështu që shumë shpejtë arrijmë deri te kufijtë e përdorimit praktik të këtij algoritmi.

Përdorimi i kodimit të Hafmanit

• Kodimi i Hafmanit përdoret shpesh si komponent brenda algoritmeve komplekse të komprimimit, siç janë p.sh., disa norma për transmetimin e të dhënave me telefaks, si dhe norma për kodimin e figurës së palëvizshme JPEG.