Wykład 10 Neuropsychologia komputerowa
-
Upload
claire-pittman -
Category
Documents
-
view
29 -
download
0
description
Transcript of Wykład 10 Neuropsychologia komputerowa
Wykład 10Wykład 10 Neuropsychologia komputerowa Neuropsychologia komputerowa
Percepcja II: Postrzeganie niezmiennicze
Włodzisław Duch
UMK Toruń
Google: W Duch
Problem rozpoznawania obiektówProblem rozpoznawania obiektów
Rozpoznajemy obiekty niezależnie od położenia, skali i obrotów - jak?
Niezmienniczość przestrzenna
(spatial invariance) jest trudna, bo
różne znaki zajmują częściowo te
same pola recepcyjne, a te same
znaki w różnych miejscach siatkówki
obrócone lub innej wielkości wcale
się nie pokrywają.
Niezmienniczość przestrzenna to jedna z najważniejszych własności
szlaku brzusznego.
Uproszczenie: niezmienniczość obrazu tylko ze względu na położenie
i skalę, pomijamy rotację (na to potrzeba dużo neuronów).
Rozpoznawanie Rozpoznawanie
Skąd niezmienniczość?
Szkic 3D na podstawie rzutów
2D, pamiętana jest tylko jedna
reprezentacja 3D (Marr 1982).
Podejście syntaktyczne: składaj
całość z kawałków modelu.
Wariant (Hinton 1981): szukaj transformacji (przesunięcia, skalowania,
obrotu), dopasuj do kanonicznej reprezentacji w pamięci (por. nowsze
propozycje, np. „pamięci kognitywnej”, wracające do tego pomysłu).
Problem: wiele obiektów 2D może dać różne obiekty 3D; trudno jest
dopasować obiekty bo przestrzeń szukania fragmentów i łączenia ich
w całość jest zbyt wielka – czy naprawdę pamiętamy obiekty 3D?
Stopniowe transformacjeStopniowe transformacje
Niezmienniczość obróconych obrazów jest
mocno ograniczona – np. rozpoznawanie
obróconych twarzy jest trudne.
Ograniczoną niezmienniczość
rozpoznawania obiektów można uzyskać
dzięki stopniowym hierarchicznym
równoległym transformacjom,
zwiększającym niezmienniczość i
tworzącym coraz bardziej złożone cechy
rozproszonych reprezentacji.
Cel: nie 3D, ale zachować wystarczająco dużo szczegółów by dało się rozpoznać obiekty w niezmienniczy sposób po transformacjach.
Efekt: pamięć na poziomie niezmienniczym to nie pamięć 3D ...
Model rozpoznawaniaModel rozpoznawania
Model objrec.proj.gz, wiele hiperkolumn, ale bardzo prostych.
Uwzględniamy obszary i transformacje między LGN, V1, V2 i V4/IT.
20 wzorców, ale tylko pionowe/poziome elementy.
Kombinacje elementów na poziomie IT mają reagować niezmienniczo.
Output = reprezentacja na poziomie symbolicznym.
Obiekty do rozpoznawania, 3 z 6 możliwych segmentów. 18,19 = test
Trening na 0-17, test na 18-19.
4 rozmiary,
5, 7, 9 i 11 pikseli.
Własności modelu rozpoznawaniaWłasności modelu rozpoznawania
Hiperkolumna: te same sygnały, przesunięte i częściowo się pokrywające.
Elementy wewnątrz hiperkolumny konkurują, kWTA, elementy w warstwie
również konkurują – hamowanie na większym obszarze.
Całkowite hamowanie = max (lokalnego, z całej warstwy).
Hiperkolumny dokują ekstrakcji cech w całym polu widzenia => wystarczą te
same wagi (weight sharing) dla każdej hiperkolumny.
Obiekty reprezentowane są za pomocą krawędzi w warstwie LGN On/Off, każda 22x22, zawinięte brzegi (geometria sferyczna).
V1: 10x10 kolumn po 2x4 elementy, wyuczone reprezentacje krawędzi pionowych i poziomych, pola recepcyjne 4x4 w LGN, jest 8 pionowych i poziomych krawędzi dla on i 8 dla off, razem 16 = 4x4 jednostki.
V2: 4x4 hiperkolumn, w matrycy 6x6, sygnały z kolumn 4x4, nakrywanie.
V4/IT: 10x10, całe pole wzrokowe, dla tak prostych obiektów wystarczy.
Więcej własnościWięcej własności
Symulacje bez wspólnych wag dla hiperkolumn dają te same rezultaty,
chociaż są znacznie bardziej kosztowne; Hebbowski mechanizm
prowadzi do jednakowych wag dla kolumny o tych samych (xi,yi).
Bez Hebba sama korekcja błędów daje całkiem różne reprezentacje dla
hiperkolumn, bo nie wykrywa korelacji wejść.
Brak połączeń horyzontalnych – rep. V1 jest już ustalona, więc nie są
konieczne a spowalniają uczenie; te połączenia są ważne w procesach
wypełniania braków, iluzjach, rozpoznawaniu przysłoniętych obiektów.
Parametry: Hebb =0.005, ale pomiędzy V1/V2 jest tylko 0.001 bo
współdzielenie wag daje częstsze pobudzenia = wiec zmian.
Uczenie: szybkość 0.01 => 0.001 po 150 epokach by stabilizować
uczenie i przyspieszyć początkowe.
Budowa sieci: BuildNet, sprawdzić własności połączeń, r.wt.
Eksploracja sieciEksploracja sieci
StepTrain, faza – i StepTrain, faza +
Całość trenowania wymaga wielu godzin; jeden obiekt może być w 4
rozmiarach i 256 pozycjach w siatce 16x16, razem są 1024 obrazy
jednego obiektu, 18 obiektów treningowych, 18 432 wzorce.
Wytrenowana sieć po 460 epokach x 150 obiektów na epokę, po 30 000
prezentacji osiąga dobre wyniki, mniej niż 2 prezentacje/wzorzec.
net_updt => cycle_updt pokaże uczenie dla całego cyklu,
na wytrenowanej sieci fazy – i + są takie same.
Jak koreluje się aktywność V2 i V4 z wejściami w LGN? Pola recepcyjne
wynikające z uśrednionej aktywacji można obejrzeć patrząc na korelacje
( ) ( )
( )
j it
ijj
t
y t x tr
y t
xi z LGN, yj z V2 lub V4, dla każdego elementu
hiperkolumny 8x8 przedstawiamy wszystkie ri
Pola recepcyjne uśrednionej aktywacji
Aktywność 16x16 LGN-on dla jednej hiperkolumny V2, 8x8 elementów;
współdzielenie wag => inne tak samo.Elementy z lewego dolnego
rogu V2, odbierające z 4x4
kolumn V1 i ¼ pól LGN.
Jasne paski = selektywna
jednostka dla krawędzi (różnych
rozmiarów) w określonym
położeniu. Elementy V2 nie
reagują na pojedyncze linie
tylko na ich kombinacje.
Rozmyte równoległe paski –
reakcja na te same kombinacje
w różnym położeniu.
Pola off V2
Aktywność LGN-off dla jednej hiperkolumny V2
współdzielenie wag => inne tak samo.Te elementy reagują
bardziej na zakończenia
krótszych linii.
Elementy reagujące
selektywnie biorą udział w
reprezentacji wielu
wzorców, wykrywają
złożone cechy wspólne dla
różnych obiektów.
Korelacje V2 – obiekty wyjściowe
Reakcja jednostek V2 na wykrywanie poszczególnych obiektów, czyli
korelacje V2 – uśrednione wyjście 4x5 = 20 obiektów.
Korelacje V4 – obiekty wyjściowe
Uśredniona reakcja jednostek V4 na wykrywanie poszczególnych
obiektów, czyli korelacje V4 – uśrednione wyjście 4x5.
Większa selektywność
niż w V2, bo większa
niezmienniczość i
reakcja na bardziej
złożone cechy.
Testy pól recepcyjnychTesty pól recepcyjnych
Obserwacja reakcji V2 i V4:
4 próbki używane w testach, każda
pokazana we wszystkich pozycjach
lewego kwadrantu wejść LGN, 11x11.
Kolumny V2 reagują na ¼ całego pola.
Obliczamy reakcje na poziomie V2/V4,
kwadranty odpowiadają poszczególnym
próbkom testowym; np. dla próbki 0
reakcje na wszystkie 8x8 pozycji tej
próbki są w lewej dolnej ćwiartce dla
danego elementu, cała jego aktywność
dal 4 elementów jest w kwadracie 16x16.
Testy V2 dla próbekTesty V2 dla próbek
Hiperkolumna V2 ma 8x8 elementów, reakcje każdego na 4 próbki
uśrednione po wszystkich pozycjach są w małych kwadratach 16x16.
Testy V4 dla próbekTesty V4 dla próbek
V4 ma 10x10 elementów,
reakcje każdego na 4 próbki
uśrednione po wszystkich
pozycjach są w małych
kwadratach 16x16.
Niezależność od pozycji
widać po całych żółtych
kwadrantach.
Niektóre reagują na
pojedyncze cechy próbki,
inne na całą próbkę, a kilka
na obecność elementów,
które są w każdej próbce.
Testy statystyczneTesty statystyczne
Tabela na następnym slajdzie podsumowuje wyniki testu prezentacji 20
obiektów we wszystkich pozycjach i reakcji (dla progu >0.5) elementów
V4 na te prezentacje.
Dla jednego obiektu w 256 możliwych pozycjach i 4 rozmiarach
(1024 wzorce) na poziomie V4 jest średnio 10 różnych aktywacji.
Szczegółowe wyniki są w objrec.swp_pre.err.
Dwa nieznane obiekty 18, 19 dają same błędy.
Trenowanie w celu określenia generalizacji: prezentacja nowego obiektu
raz na 4 prezentacje; w 36 z 256 możliwych pozycji, rozmiary 5 lub 9
pikseli, więc 14% pozycji i 50% rozmiarów, 72 wzorce (7%).
Po 60 epokach treningu, 150 obiektów/epokę, stała uczenia 0.001,
obiekt 18 dał 85% poprawnych odpowiedzi na 1024 wzorce;
obiekt 19 dał 66% poprawnych odpowiedzi, dla małych rozmiarów.
Wyniki przed uczeniemWyniki przed uczeniem
Wyniki testu prezentacji 20 obiektów we
wszystkich pozycjach i reakcji (dla progu
>0.5) elementów V4 na te prezentacje
przed uczeniem na 18 i 19.
itm = numer obrazu;
err = całkowita l. błędów (poz, rozmiary),
%tot = błąd procentowy (# err/10.24),
%itm = % błędów dla wszystkich
prezentacji obrazów;
correl = średnia korelacja z rep. V4
uniq = średnia # unikalnych rep. w V4 dla
wszystkich 256 położeń (po binaryzacji).
Size summary =
to samo uśrednione po rozmiarach.
Parę odpowiedziParę odpowiedzi
• Dlaczego pierwotna kora wzrokowa reaguje na zorientowane krawędzie?
Bo uczenie korelacyjne w naturalnym środowisku prowadzi do tego typu detektorów; szczegółowe modele dość wiernie oddają strukturę kolumn wzrokowych jak i pokazują, że jest ona optymalna dla naturalnych tekstur i obrazów.
• Dlaczego układ wzrokowy rozdziela informacje na szlak grzbietowy i szlak brzuszny?
Bo transformacje sygnału wydobywają jakościowo różne informacje, wzmacniając jedne kontrasty a zmniejszając inne.
Bo pomoże to w skupianiu uwagi na kolejnych obiektach.