Jakoś ć obraz dla zaśośowań z y ko- wyćh: defińićje ...qoe.kt.agh.edu.pl/publ/pjp9.pdf ·...

12
Page 1 of 12 Jakość obrazu dla zaśtośowań uzytko- wyćh: defińićje, badańia, śtańdaryzaćja i aktualńe treńdy Dr inż. Mikołaj LESZCZUK Akademia Górniczo-Hutnicza, Katedra Telekomunikacji Streszczenie Monitoring bezpieczeństwa publicznego (ruch uliczny, skrzyżowania, imprezy masowe, dworce, lotni- ska i inne publiczne obszary miejskie) z użyciem transmisji i analizy treści wideo zyskuje w ostatnim okresie czasu na znaczeniu z powodu ogólnego wzrostu przestępczości oraz aktów terroryzmu (ataki na WTC, komunikację publiczną w Londynie i Madrycie). Jakość odbioru wideo wykorzystywanego w celach użytkowych (monitoring) istotnie różni się od jakości odbioru treści wideo używanego w ce- lach rozrywkowych. Zasady oceny, a zwłaszcza maksymalizacji jakości wideo użytkowego, są stosun- kowo nową dziedziną. Dotychczasowe rozwiązania sprowadzały się głównie optymalizacji parame- trów sieciowych QoS, względnie, dla wideo w zastosowaniach użytkowych, podejmowane były próby przeniesienia metod klasycznych (stworzonych dla treści rozrywkowych), typu PSNR (ang. Peak Sig- nal-to-Noise Ratio) czy też SSIM (ang. Structural SIMilarity). Artykuł przedstawia aktualne trendy w obszarze jakości obrazu dla zastosowań użytkownych, istotną uwagę poświęcając pracom jednego z najbardziej wpływowych ciał w tym zakresie, jakim jest Grupa VQiPS (ang. Video Quality in Public Safety), finansowana przez U. S. Department of Homeland Security, powołana do życia w 2008 roku. W artykule dostrzeżono również problem ochrony obywateli przed „permanentną inwigilacją” w stylu orwellowskim, jako, że monitoring publiczny jest nierozerwalnie powiązany z ingerencją w pry- watność obywateli. 1 Wprowadzenie Monitoring bezpieczeństwa publicznego (ruch uliczny, skrzyżowania, imprezy masowe, dworce, lotni- ska i inne publiczne obszary miejskie) z użyciem transmisji i analizy treści wideo zyskuje w ostatnim okresie czasu na znaczeniu z powodu ogólnego wzrostu przestępczości oraz aktów terroryzmu (ataki na WTC – Rysunek 1, komunikację publiczną w Londynie – Rysunek 2 i Madrycie – Rysunek 3). Jakość odbioru treści wideo (QoE – Quality of Experience) używanego w celach rozrywkowych (telewizja cyfrowa, w tym HDTV, a także multimedia w Internecie) istotnie różni się od jakości odbioru wideo wykorzystywanego w celach użytkowych (monitoring CCTV), ponieważ w tym ostatnim przypadku, nad subiektywne zadowolenie odbiorcy przedkłada się skuteczność w realizacji zadanych funkcji (de- tekcja zdarzeń, rozpoznawanie obiektów). Co więcej, jakość wideo użytkowego, akceptowalna z su- biektywnego punktu widzenia (monitoring z użyciem operatora), jest w dużej mierze odrębna od obiektywnej jakości wideo użytkowego w przetwarzaniu komputerowym (ang. Computer Vision). Każdy kto doświadczył zniekształcenia lub zablokowania odtwarzania podzas oglądania w telewizji filmu akcji lub wydarzenia sportowego na żywo, zna frustrację towarzyszącą brakowi (spowodowa-

Transcript of Jakoś ć obraz dla zaśośowań z y ko- wyćh: defińićje ...qoe.kt.agh.edu.pl/publ/pjp9.pdf ·...

Page 1 of 12

Jakoś ć obrazu dla zaśtośowań uz ytko-wyćh: defińićje, badańia, śtańdaryzaćja

i aktualńe treńdy

Dr inż. Mikołaj LESZCZUK

Akademia Górniczo-Hutnicza, Katedra Telekomunikacji

Streszczenie Monitoring bezpieczeństwa publicznego (ruch uliczny, skrzyżowania, imprezy masowe, dworce, lotni-

ska i inne publiczne obszary miejskie) z użyciem transmisji i analizy treści wideo zyskuje w ostatnim

okresie czasu na znaczeniu z powodu ogólnego wzrostu przestępczości oraz aktów terroryzmu (ataki

na WTC, komunikację publiczną w Londynie i Madrycie). Jakość odbioru wideo wykorzystywanego w

celach użytkowych (monitoring) istotnie różni się od jakości odbioru treści wideo używanego w ce-

lach rozrywkowych. Zasady oceny, a zwłaszcza maksymalizacji jakości wideo użytkowego, są stosun-

kowo nową dziedziną. Dotychczasowe rozwiązania sprowadzały się głównie optymalizacji parame-

trów sieciowych QoS, względnie, dla wideo w zastosowaniach użytkowych, podejmowane były próby

przeniesienia metod klasycznych (stworzonych dla treści rozrywkowych), typu PSNR (ang. Peak Sig-

nal-to-Noise Ratio) czy też SSIM (ang. Structural SIMilarity). Artykuł przedstawia aktualne trendy w

obszarze jakości obrazu dla zastosowań użytkownych, istotną uwagę poświęcając pracom jednego z

najbardziej wpływowych ciał w tym zakresie, jakim jest Grupa VQiPS (ang. Video Quality in Public

Safety), finansowana przez U. S. Department of Homeland Security, powołana do życia w 2008 roku.

W artykule dostrzeżono również problem ochrony obywateli przed „permanentną inwigilacją” w

stylu orwellowskim, jako, że monitoring publiczny jest nierozerwalnie powiązany z ingerencją w pry-

watność obywateli.

1 Wprowadzenie Monitoring bezpieczeństwa publicznego (ruch uliczny, skrzyżowania, imprezy masowe, dworce, lotni-

ska i inne publiczne obszary miejskie) z użyciem transmisji i analizy treści wideo zyskuje w ostatnim

okresie czasu na znaczeniu z powodu ogólnego wzrostu przestępczości oraz aktów terroryzmu (ataki

na WTC – Rysunek 1, komunikację publiczną w Londynie – Rysunek 2 i Madrycie – Rysunek 3). Jakość

odbioru treści wideo (QoE – Quality of Experience) używanego w celach rozrywkowych (telewizja

cyfrowa, w tym HDTV, a także multimedia w Internecie) istotnie różni się od jakości odbioru wideo

wykorzystywanego w celach użytkowych (monitoring CCTV), ponieważ w tym ostatnim przypadku,

nad subiektywne zadowolenie odbiorcy przedkłada się skuteczność w realizacji zadanych funkcji (de-

tekcja zdarzeń, rozpoznawanie obiektów). Co więcej, jakość wideo użytkowego, akceptowalna z su-

biektywnego punktu widzenia (monitoring z użyciem operatora), jest w dużej mierze odrębna od

obiektywnej jakości wideo użytkowego w przetwarzaniu komputerowym (ang. Computer Vision).

Każdy kto doświadczył zniekształcenia lub zablokowania odtwarzania podzas oglądania w telewizji

filmu akcji lub wydarzenia sportowego na żywo, zna frustrację towarzyszącą brakowi (spowodowa-

Page 2 of 12

nemu słabym obrazem) kluczowego momentu. Jednak dla praktyków z zakresu bezpieczeństwa pu-

blicznego korzystających z usług wideo, niewyraźny obraz (patrz Rysunek 4 – przykład zniekształceń i

zbyt silnej kompresji) może oznaczać różnicę między życiem i śmiercią.

Jeżeli bywa, że jakość obrazu jest nie do zaakceptowania, naturalnie powstaje pytanie: jak to się dzie-

je? Źródła problemów mogą być wielorakie (Rysunek 5). Pierwsza grupa zniekształceń (1) może rodzić

się już w momencie akwizycji obrazu. Najczęstszymi problemami jest szum, brak ostrości czy zbyt

duża albo zbyt mała ekspozycja. Kolejne zniekształcenia (2) pojawiają się w dalszych procesach kom-

presji i przetwarzania. Problemy mogą pojawiać się w przypadku skalowania sekwecji wizyjnych w

domenach jakości, czasu i przestrzeni, a także, na przykład, przy wprowadzaniu cyfrowych znaków

wodnych (ang. digital watermarking). Następnie (3), w przypadku przesyłania przez sieć, pojawić się

mogą artefakty związane z utratą pakietów. Na końcu zaś (4) pojawiają się problemy związane z po-

szczególnymi parametrami odbioru sekwencji wizyjnych przez użytkownika.

Powyższe przekonuje, że konieczna jest ciągła ocena jakości obrazu i jej optymalizacja (Rysunek 6).

Optymalizacja taka jest niezbędna dla zapewnienia odpowiedniej jakości sekwencji wizyjnych. Pod

pojęciem „odpowiedniej” jakości, rozumie się jakość wystarczająco dobrą, aby wykryć np. liczbę twa-

rzy lub samochodów. Pierwszym krokiem w kierunku optymalizacji jest wykrywanie korzeni degrada-

cji: co jest głównym problemem wzdłuż łańcucha dostarczania sekwencji wizyjnych. Następnie, jak

tylko jest to możliwe, zniekształcenia są usuwane lub kompensowane. Reasumując, koniczny jest

pełny i wiarygodny system kontroli jakości sekwencji wizyjnych!

Dalsza część tego artykułu przestawia się następująco. Sekcja 2 prezentuje szerzej tematykę związaną

z oceną i optymalizacją jakości. Sekcja 3 traktuje o standaryzacji. W Sekcji 4 omówiono pokrótce

etyczne kwestie monitoringu. Artykuł podsumowuje Sekcja 5, zaś w Sekcji 6 umieszczono podzięko-

wania.

2 Ocena i optymalizacja jakości Pierwszym krokiem w procesie budowy systemu monitorowania jakości sekwencji wizyjnych musi być

zapewnienie niezawodnego wykrywania źródeł degradacji. Pod uwagę należy wziąć stworzenie

obiektywnych wskaźników jakości, obejmujących wszystkie możliwe zakłócenia i biorących pod uwa-

gę czynnik ludzki! W celu uwzględnienia tego ostateniego, należy uruchomić serię eksperymentów

psychofizycznych i zwrócić się do testerów z pytaniami na temat jakości. Następnie, konieczny jest

trening charakterystyk ze względu na wyniki eksperymentów psychofizycznych. Użyć można też in-

formacji pochodzących z algorytmów rozpoznawania! W drugim kroku, wykonać można działania

optymalizacyjne. Skorzystać można z informacji pochodzących z parametrów jakości. Jeśli to możliwe,

spowodować to może usunięcie szkodliwego wpływu zniekształceń przez dostosowanie parametrów

urządzenia przechwytywania lub dostosowanie parametrów kodeka wideo. Jeśli zaś zniekształceń nie

da się usunąć, próbować można je kompensować, na przykład, w przypadku strat pakietów, przez

zastosowanie FEC (ang. Forward Error Correction).

Zasady oceny, a zwłaszcza maksymalizacji jakości wideo użytkowego, są stosunkowo nową dziedziną.

Dotychczasowe rozwiązania sprowadzały się głównie optymalizacji parametrów sieciowych QoS

(przepustowość, prawdopodobieństwo straty pakietu), względnie, dla wideo w zastosowaniach użyt-

kowych, podejmowane były próby przeniesienia metod klasycznych (stworzonych dla treści rozryw-

kowych), typu PSNR (ang. Peak Signal-to-Noise Ratio) [3] czy też SSIM (ang. Structural SIMilarity) [4].

Zagadnienia pomiarów jakości wideo użytkowego znajdują częściowe odzwierciedlenie w nielicznych,

niezbyt nowych standardach i zaleceniach (w tym: ITU-T P.910: „Subjective video quality assessment

Page 3 of 12

methods for multimedia applications”, 1999 r. [1] i ITU-T P.912: „Subjective video quality assessment

methods for recognition tasks”, 2008 r. [2], [10]), wprowadzających przede wszystkim podstawowe

definicje, metody przeprowadzania testów i eksperymentów psychofizycznych (Multiple Choice Met-

hod, Single Answer Method, Timed Task Method), rozróżnienie pomiędzy Real-Time Viewing a Vie-

wer-Controlled Viewing, pojęcia grupy scenariuszy.

Metody oceny subiektywnej oceny jakości sekwencji wizyjnych do zadań rozpoznawania, wiążą się

nierozłącznie z pojęciem celu rozpoznawania. „Cel” odnosi się do czegoś w sekwencji wizyjnej, co

widz musi określić, czyli np. do twarzy, obiektu, lub numeru. Tego typu sekwencja wizyjna określana

jest mianem TRV (ang. Target Recognition Video). Jest to sekwencja stosowana do wykonywania

określonego celu przez zdolność rozpoznawania celów. Wyróżnia się trzy kategorie celów: identyfika-

cja człowieka (w tym rozpoznawanie twarzy), identyfikacja obiektów i Identyfikacja alfanumeryczna.

Istotnym pojęciem w omawianym obszarze badań jest pojęcie klasa dyskryminacyjnej – DC

(ang. Discrimination Class). Jest to jeden z czterech poziomów wizualnej dyskryminacji, w której cele

mogą być analizowane:

1. Elementy akcji – w sensie bardzo szerokim i ogólnym, określenie szeregu wydarzeń, które

miały miejsce.

2. Obecność celu – rozpoznawanie/wykrywanie obecności lub braku ważnych celów.

3. Cechu celu – rozpoznawanie unikalnych cech celu (np.: znaki szczególne, blizny, tatuaże,

wgniecenia, kolor).

4. Pozytywne rozpoznawanie celu – rozpoznawanie szczególnych przypadków celu (np. rozpo-

znawanie danej osoby, szczególnego przedmiotu lub dokładnego ciągu alfanumerycznego).

Celem metod badań TRV jest ocena zdolności testera (uwarunkowanej jakością) do rozpoznania od-

powiednich informacji w sekwencjach wizyjnych, niezależnie od postrzeganej przez testera jakości

obrazu. Metody oceny poziomu jakości TRV, unikając dwuznaczności i osobistych preferencji: zmniej-

szają udział czynników subiektywnych, i zdolności rozpoznawania charakterystycznych dla danego

uczestnika testu

2.1 Podstawowe metody prowadzenia eksperymentów psychofizycznych Podsekcja ta omawia metody przeprowadzania eksperymentów psychofizycznych (testów subiek-

tywnych). Omówiono trzy podstawowe metody: Multiple Choice Method, Single Answer Method i

Timed Task Method.

2.1.1 Multiple Choice Method

Metoda wielokrotnego wyboru jest odpowiednia dla wszystkich poziomów DC i dla wszystkich kate-

gorii celów. W metodzie tej, testerowi prezentuje się sekwencje wizyjne oraz listę słownych etykiet

reprezentujących możliwe odpowiedzi (Rysunek 7). Tester wybiera etykiety najbardziej zbliżone do

rozpoznanych w sekwencji wizyjnej. Stosowanie ustalonego zbioru wielu etykiet umożliwia wyelimi-

nowanie ewentualnych niejasności i pozwala na bardzo precyzyjne pomiary.

2.1.2 Single Answer Method

Metoda pojedynczej odpowiedzi pozwala uzyskiwać jednoznaczne wyniki dla pytań identyfikacyj-

nych. Jest ona odpowiednia dla scenariuszy alfanumerycznych, gdyż zwraca się do testera z prośbą o

określenie znaków występujących w sekwencji wizyjnej (Rysunek 8). Testy typu „Tak lub Nie”, rów-

nież klasyfikują się do tej metody. W takim przypadku, pyta się testera czy obecney w sekwencji wi-

zyjnej był dany obiekt albo niebezpieczeństwo. Odpowiedzi ocenia się jako prawidłowe albo niepra-

widłowe.

Page 4 of 12

2.1.3 Timed Task Method

W metodzie zadania czasowego, tester jest proszony o stwierdzenie czy dane działanie lub przedmiot

są rozpoznawalne w sekwencji wizyjnej. Tester wciska przycisk, gdy stwierdza, że miał miejsce zadany

cel. Eksperymentator jest w stanie określić, czy czas odpowiedzi mieści się w dopuszczalnych ramach

czasowych dla podejmowania decyzji. Te ramy czasowe określone są przez scenariusz, w którym bada

się dane sekwencje wizyjne. Takimi scenariuszami mogą być przykładowo: określenie, w przypadku

zamieszek, czy w tłumie nie ma (prawdziwej) broni albo określenie (odczytanie) tablic rejestracyjnych

w czasie pościgu samochodowego.

2.2 Inne aspekty przeprowadzania eksperymentów psychofizycznych W trakcie przeprowadzania eksperymentów psychofizycznych, istotne jest zadecydowanie, czy intee-

suje nas scenariusz, w którym tester musi podjąć decyzję w czasie rzeczywistym (ang. Real-Time Vie-

wing), czy też czas ten jest determinowany przez samego testera (ang. Viewer-Controlled Viewing). W

zależności od charakteru zadania, metody testu TRV korzystać powinna z podejścia oceny w czasie

rzeczywistym, bez możliwości przewinięcia do przodu lub do tyłu, albo z podejścia z brakiem

uwzględnienia analizy w czasie rzeczywistym. Eksperyment powinien naśladować prawdziwe, realne

zastosowanie sekwcji wizyjnych. W szczególności, jeśli sekwencje wizyjne przeznaczone są do analizy

kryminalistycznych, tester musi mieć możliwość pełnego sterowania odtwarzaniem badanej sekwen-

cji wizyjnej.

Kolejnym istotnym aspektem jest pojęcie grupy scenariuszy – SG (ang. Scenario Group). Grupa scena-

riuszy to biblioteka sceny z takim samym scenariuszem, ale z bardzo niewielkimi różnice między sce-

nami. Sceny takie powinny zawierać cele zgodne z badanym scenariuszem. Podstawowym powodem,

dla którego pojedyncze sceny mogą być zastępowane przez zestaw scen zawierających wiele wersji,

jest dążenie do zminimalizowania zapamiętywania wyników rozpoznań przez testerów. Różnice mię-

dzy wersjami (SG) powinny być świadomie kontrolowane, ich liczba – wystarczająco duża, zaś w skład

SG powino wchodzić wiele sekwencji wizyjnych przedstawiających różne osoby lub użycie różnych

przedmiotów. Przykładem może być scenariusz z osobą spacerującą w polu widzenia z przedmiotem

w ręce (Rysunek 9).

3 Standardyzacja Od wielu lat, bardzo wiele Zaleceń ITU, w zakresie jakości sekwencji wizyjnych, opartych jest na pracy

grupy VQEG (ang. Video Quality Experts Group) [5]. Jest to grupa ekspertów z różnych środowisk.

Stanowią ją uczestnicy z wielu organizacji działających w zakresie oceny jakości sekwencji wizyjnych.

Zespół powstał w 1997 r. na spotkaniu ekspertów wideo wysokiej jakości. Wielu uczestników działa w

ramach ITU (Międzynarodowej Unii Telekomunikacyjnej). Członkowe VQEG łączą wiedzę i zasoby z

licznymi Study Groups ITU do pracy na rzecz wspólnego celu.

Grupa VQEG jednakże, póki co skupiała swe zainteresowanie głównie na jakości odbioru treści wizyj-

nych używanych w celach rozrywkowych. Dlatego też, aktualnie jedną z najbardziej zaawansowanych

w badaniach grup w zakresie jakości wideo użytkowego jest inna grupa – Grupa VQiPS (ang. Video

Quality in Public Safety) [6], finansowana przez U. S. Department of Homeland Security, powołana do

życia w 2008 roku. Dotychczasowy dorobek VQiPS obejmuje koordynację prac różnych organizacji,

których celem jest tworzenie standardów dla wideo użytkowego. Obecne prace koncentrują się na:

edukacji użytkowników oraz tworzeniu specyfikacji dla jakości wideo użytkowego. Korzysta się przy

tym z faktu, iż nawet zróżnicowane zastosowania wideo użytkowego mogą łączyć wspólne elementy,

Page 5 of 12

które wpływają na specyfikację jakości obrazu. W konsekwencji, VQiPS tworzy zbiór przypadków uży-

cia niezależnych od aplikacji, wzbogacając je jednocześnie o instrukcje dla użytkowników, pozwalają-

ce dostosować standardy VQiPS do konkretnych zastosowań. VQiPS tworzyć też będzie spójną termi-

nologię pojęć związanych z jakością wideo użytkowego i związanym z nią sprzętem.

4 Kwestie etyczne Monitoring publiczny jest nierozerwalnie powiązany z ingerencją w prywatność obywateli. Problem

ten dostrzegają liczne ciała chroniące obywateli przed „permanentną inwigilacją” w stylu orwellow-

skim. Wśród nich należałoby wymienić grupę Liberty (zajmującą się prawami człowieka), organizację

Open Europe, Electronic Frontier Foundation czy też Ethics Board projektu INDECT [7]. Problematyka

ta stała się też jednym z głównych tematów („Citizens Security Needs Versus Citizens Integrity”), zor-

ganizowanej przez Komisję Europejską, czwartej konferencji Security Research Conference (wrzesień

2009) [8]. Mimo tego, wiele badań sugeruje, że opinia publiczna na temat CCTV staje się coraz bar-

dziej przychylna [9] (patrz Rysunek 10). Trend ten nasilił się po 11 września 2001 r.

W praktyce, rozwiązania pozwalające na choćby częściowe zabezpieczenie prywatności, oprzeć moż-

na na selektywnym monitorowaniu jedynie figurantów, automatycznym wymazywaniu twarzy/tablic

rejestracyjnych niezwiązanych z danym dochodzeniem czy też technikach ukrywania danych przy

pomocy cyfrowych znaków wodnych.

Bardzo istotne jest także przestrzeganie podstawowych zasad etycznych w trakcie nagrywania ma-

triału testowego, przeprowadzania eksperymentów psycho-fizycznych i innych badań w omawianym

zakresie. Badania ukierunkowane powinny być na osiągnięcie właściwego poziomu balansu pomiędzy

bezpieczeństwem a prywatnością. Nadzór nad problematycznymi etycznie badaniami powinien byc

prowadzony pod kontrolą specjalnych paneli etycznych, złożonych ze światowej sławy specjalistów,

celem ustawicznego kontrolowania kwestii etycznych. Same osoby biorące udział w testach (na przy-

kład monitoringu), powinny być świadome udziału w badaniach związanych z bezpieczeństwem, co

potwierdzone powinno byc podpisanymi przez nie specjalnymi oświadczenia. Przeprowadzana też

powinna być drobiazgowa selekcja uczestników testów, aby zapobiec sytuacjom nieprawidłowego

wyboru obserwowanych grup, takich jak np.: więźniowie czy dzieci.

5 Podsumowanie W artykukle przedstawiono aktualne trendy w obszarze jakości obrazu dla zastosowań użytkownych

oraz wprowadzono czytelników w rodzącą się tematykę metod oceny i maksymalizacji jakości użyt-

kowych sekwencji wizyjnych. Wyjaśniono fundamentalne różnice pomiędzy jakością odbioru wizyjne-

go (QoE) w zastosowaniach rozrywkowych, a jakością wideo w zastosowaniach użytkowych. Następ-

nie, zademonstrowano przesłanki motywujące do podjęcia badań w tytułowym zakresie. Jako przy-

kład, zademonstrowano przykład złego jakościowo obrazu z kamer monitoringu CCTV. Artykuł poru-

szył temat odrębności pomiędzy jakością akceptowalną z subiektywnego punktu widzenia oraz z

punktu przetwarzania komputerowego (ang. Computer Vision), przykładowo dla celów identyfikacji

osób pojawiających się w polu widzenia kamery. Zaprezentowano też podstawowe źródła zniekształ-

ceń obrazu.

Istotną uwagę poświęcając pracom jednego z najbardziej wpływowych ciał w tym zakresie, jakim jest

Grupa VQiPS. W artykule dostrzeżono również problem ochrony obywateli przed „permanentną in-

Page 6 of 12

wigilacją” w stylu orwellowskim, jako, że monitoring publiczny jest nierozerwalnie powiązany z inge-

rencją w prywatność obywateli.

Należy jeszcze raz podkreślić, że zasady oceny, a zwłaszcza maksymalizacji jakości wideo użytkowego,

są stosunkowo nową dziedziną. Wciąż wiele pytań pozostaje otwartych. Jakie scenariusze oceny se-

kwencji wizjnych powinny być brane pod uwagę? Jakiego rodzaju zadania rozpoznawania należy roz-

ważać? Jakie rodzaje sekwencji wizyjnych powinny być oceniane? Co o rozpoznawaniem kompute-

rowym (ang. Computer Vision)? Kim powinni być testerzy?

6 Podziękowania Badania prowadzące do tych wyników otrzymały finansowanie z Siódmego Programu Ramowego

(FP7/2007-2013) w ramach umowy o dotację n° 218086 (INDECT).

Spis literatury [1] ITU-T P.910: „Subjective video quality assessment methods for multimedia applications”,

1999 r.

[2] ITU-T P.912: „Subjective video quality assessment methods for recognition tasks”, 2008 r.

[3] A. M. Eskicioglu and P. S. Fisher, “Image quality measures and their performance,” IEEE

Transactions on Communications, vol. 43, no. 12, pp. 2959–2965, December 1995.

[4] Z. Wang, L. Lu, and A. C. Bovik, “Video quality assessment based on structural distortion

measurement,” Signal Processing: Image Communication, vol. 19, no. 2, pp. 121–13, 2004.

[5] VQEG, The Video Quality Experts Group, http://www.vqeg.org/.

[6] VQiPS, Video Quality in Public Safety Working Group,

http://www.safecomprogram.gov/SAFECOM/currentprojects/videoquality/.

[7] INDECT Project, Welcome to INDECT Homepage, http://www.indect-project.eu/.

[8] European Security Research Conference (SRC09), http://www.src09.se/, wrzesień 2009.

[9] T. Honess, E. Charman, “CCTV in Public Places: Its Acceptability and Perceived Effectiveness”,

Police Reseach Group, Crime Prevention Unit Series: Paper No. 35, London: Home Office Po-

lice Department.

[10] Carolyn G. Ford; Mark A. McFarland; Irena W. Stange, “Subjective video quality assessment

methods for recognition tasks”, SPIE Proceedings Vol. 7240, Human Vision and Electronic Im-

aging XIV, Bernice E. Rogowitz; Thrasyvoulos N. Pappas, Editors, 72400Z, 10 February 2009,

DOI: 10.1117/12.805371.

Abstract Surveillance Image Quality for Recognition Tasks: definitions, testing, standardization, and current

trends

Mikołaj LESZCZUK, PhD

AGH University of Science and Technology, Department of Telecommunications

Monitoring of public safety (traffic, intersections, mass events, stations, airports and other public

urban areas) using the transmission and analysis of video content gains in the recent period on the

importance of the overall increase in crime and acts of terrorism (attacks on the WTC, public

transport in London and Madrid). Quality of Experience (QoE) of video content used for entertain-

ment (digital TV, including HDTV, and multimedia on the Internet) differs materially from the QoE of

Page 7 of 12

surveillance video used for recognition tasks in CCTV monitoring, because in the latter case, the sub-

jective satisfaction of the consignee shall recede in achieving the given function (event detection,

object recognition). What’s more, the quality of surveillance video, acceptable from a subjective

point of view (using the operator’s monitoring), is largely separate from the objective video quality

useful in computer processing (Computer Vision).

Assessment principles, and especially maximization of the surveillance video quality, are a relatively

new field. State-of-the-Art solutions were limited mainly to optimizing the network QoS parameters

(bandwidth, packet loss probability), eventually, for surveillance video, classical methods (created for

entertainment content), like the PSNR (Peak Signal English-to-Noise Ratio) or SSIM (Structural SIMi-

larity) were applied. Issues of quality measurements for surveillance video are partly reflected in the

few, quite outdated standards and recommendations (including ITU-T P.910, “Subjective video quali-

ty assessment methods for multimedia applications”, 1999 and ITU-T P.912: “Subjective video quality

assessment methods for recognition tasks”, 1998), mainly introducing basic definitions, methods of

testing and psychophysical experiments (Multiple Choice Method, Single Answer Method, Timed

Task Method), the distinction between the Real-Time Viewing and Viewer-Controlled Viewing, the

concept of the scenarios.

The most influential body in the surveillance video quality is VQiPS (Video Quality in Public Safety)

Workgroup, funded by the U.S. Department of Homeland Security, set up in 2008. So far VQiPS

achievements include coordination of the various organizations whose goal is to create standards for

surveillance video. The current work focuses on: education of users and the development of specifi-

cations for surveillance video quality. It has been observed that even different surveillance video

applications can combine common elements that affect image quality specification. As a conse-

quence, VQiPS creates a set of use cases that are independent of the application, at the same time

enriching them with instructions for users to adapt the VQiPS specific standards to their own applica-

tions. VQiPS will also create a consistent terminology of concepts related to the quality of video utili-

ty and related equipment.

Video surveillance is an issue seen by numerous bodies aimed at protecting citizens against “perma-

nent surveillance” in Orwellian style. Among these, we should mention a Liberty Group (dedicated to

human rights), an Open Europe organization, the Electronic Frontier Foundation or the Ethics Board

of the INDECT project. This matter was also one of the main themes (“Citizens Security Needs Versus

Citizens Integrity”), of the Fourth Security Conference Research Conference organized by the Euro-

pean Commission (September 2009). In practice, alternative methods of at least partial protection of

privacy do exist, based on the selective only monitoring of figureheads, automatic erase of fac-

es/license plates not related with the investigation or data hiding techniques using digital watermark-

ing.

Page 8 of 12

Rysunek 1. Strefa Zero WTC w Nowym Jorku (źródło: Wikipedia, licencja: domena publiczna).

Rysunek 2. Karetki na Russell Square w Londynie (źródło: Wikipedia, licencja: Licencja Wolnej Dokumentacji GNU).

Rysunek 3. Zniszczony w wyniku eksplozji wagon kolejki miejskiej w Madrycie (źródło: Wikipedia, licencja: nieznana).

Page 9 of 12

Rysunek 4. Ilustracja problemów związanych z jakością, które mogą powstać, gdy film jest zbyt skompresowany (żródło: YouTube).

Rysunek 5. Źródła problemów.

Rysunek 6. Ciągła ocena jakości obrazu i jej optymalizacja.

Rysunek 7. Multiple Choice Method (źródło: [2]).

Page 10 of 12

Rysunek 8. Single Answer Method (źródło: [2]).

Page 11 of 12

Rysunek 9. Scenario Group (źródło: [2]).

Page 12 of 12

Rysunek 10. Postrzegana skuteczność wykrywania przestępstw na CCTV, zapobiegania przestępczości i bezpieczeństwa osobistego (źródło: [9]).