A Comparative Study of varying parameters in invariant object recognition at behavioral and...
-
Upload
alireza-akhavan-pour -
Category
Engineering
-
view
58 -
download
2
Transcript of A Comparative Study of varying parameters in invariant object recognition at behavioral and...
36/
مقایسه عوامل متغیر در بازشناسی اشیاء مستقل از تغییرات در سطح رفتاری و مدل های محاسباتی – شناختی
دانشجو: علیرضا اخوان پور
استاد راهنما: دکتر رضا ابراهیم پور
استاد مشاور: مهندس حمید کریمی روزبهانی
استاد داور خارجی: دکتر جواد ظهیری استاد داور داخلی: دکتر حمیدرضا شایق بروجنی
دانشکده مهندسی کامپیوتر1394/10/06
: مقدمه1بخش
بازشناسی اشیاء سریع در انسانقشر بینایی مغز و مسیر قدامیتغییرات اشیاء بازشناسی نامتغیر اشیاءبازنمایی خوب و بدمدل های محاسباتیشبکه عصبی کانولوشنی
36/
DiCarlo, Zoccolan and Rust, Neuron (2012)
Core object recognitionمیلی ثانیه زمان نمایش 200>
سریع
ساده و بی دردسر
بدون نیاز به تمرکز و پیش زمینه
اشیاء مختلف
مقاوم به تغییرات مختلف
بازشناسی اشیاء سریع در انسان
مقاوم به تغییرات مختلف
2
36/
Ventral visual stream
~60ms~100ms
تبدیل تصویر
چرا مغز نیاز به تبدیل تصاویر از محیط پیکسل دارد؟
مسیر قدامی بینایی در مغز
DiCarlo and Cox , TICS (2007)
4
36/
درون دسته ای(intraclass)
( درهم ریختگیClutter, occlusion)اندازه، زاویه ی دید، تغییرات نور و موقعیت در صفحه
Invariant object
recognition
5تغییرات اشیاء
36/
1نورون
2نورون3نورون
4نورون... و5نورون
(manifoldفضای نرونی و خمینه )
DiCarlo and Cox , TICS (2007)
6
36/
7فضای نرونی خوب
“خوب”فضای نرونی
ابر صفحه ی جدا کننده
36/
تبدیل تصویر در هم تنیده،
اطالعات ضمنی از اشیاء
جداپذیر، اطالعات صریح و روشن از اشیاء
تبدیل فضای نرونی در مغز
DiCarlo and Cox , TICS (2007), DiCarlo, Zoccolan and Rust, Neuron (2012)
8
36/
Pinto, Cox & Dicarlo, PLoS Comp Biol (2008)
خروجیویژگی های تصویر
Θ= (Θ 𝑓𝑖𝑙𝑡𝑒𝑟 ,Θ𝑡 h𝑟 ,Θ𝑠𝑎𝑡 ,Θ𝑝𝑜𝑜𝑙 ,Θ𝑛𝑜𝑟𝑚):عملیات پایه
Neural like basic operations
𝜣(𝟏)
اجزای اصلی مدل های محاسباتی
L1
“V1-like” model
9
36/
ITرابطه ی کارایی مدل با پیشگویی نرون های
کارایی ویژگی های استخراج شده ی مدل
ی حیه
ناای
ن هرو
ی نگوی
ش پی
ییانا
توIT
ده ش
اجخر
ستی ا
ی هاژگ
ویط
وست
Yamins, Hong, Charles, Solomon, Seibert & DiCarlo, PNAS (2014)
10
36/
مقایسه ی کارایی مدل های محاسباتی
Cadieu, Hong, Yamins, Pinto, Ardila, Solomon, Majaj & DiCarlo, PLoS Comp Biol (2014)
11
36/
ITبازنمایی های مدل های محاسباتی در مقایسه با نرون های
Cadieu, Hong, Yamins, Pinto, Ardila, Solomon, Majaj & DiCarlo, PLoS Comp Biol (2014)
12
36/
تصویر وردی
کانولوشن (convolution)
غیر خطی
Spatialترکیب )pooling)
نرمال سازی
Featureویژگی ها )maps)
هر الیه از شبکه عصبی کانولوشنی
slide credit: S. Lazebnik
13
36/
تصویر ورودی
Feature Activation Map
.
.
.
14کانولوشن
36/
تصویر وردی
کانولوشن (convolution)
غیر خطی
Spatialترکیب )pooling)
نرمال سازی
Featureویژگی ها )maps)
Input Feature Map
.
.
.
15کانولوشن
36/
تصویر وردی
کانولوشن (convolution)
غیر خطی
Spatialترکیب )pooling)
نرمال سازی
Featureویژگی ها )maps) خطیواحد یکسوساز
Rectified Linear Unit (ReLU)
واحد غیر خطی
0,f x max x
Nair, Hinton, ICML (2010)
16
36/
تصویر وردی
کانولوشن (convolution)
غیر خطی
Spatialترکیب )pooling)
نرمال سازی
Featureویژگی ها )maps)
Max pooling
17ترکیب و کاهش اندازه
36/
تصویر وردی
کانولوشن (convolution)
غیر خطی
Spatialترکیب )pooling)
نرمال سازی
Featureویژگی ها )maps)
بعد از نرمال سازی
18نرمال سازی
: آزمایش ها و روش2بخش
ایجاد مجموعه دادهمدل کانولوشنیآزمایش روان-فیزیک
36/
درخشندگیچرخش در عمق اندازهجا به جایی
+
3200 تصویر پس زمینه متفاوت
16 دسته 4 شئ سه بعدی در مختلف
نوع تغییر در سطوح 4اعمال متفاوت
544تصویر بدون پس زمینه 5440 تصویر روی پس زمینه از
محیط های طبیعی5440 تصویر روی محیط های
دست ساز بشر
20ایجاد مجموعه داده
36/
(AlexNetمدل شبکه عصبی کانولوشنی الکس نت )
A. Krizhevsky, I. Sutskever, and G. Hinton, NIPS (2012)
21
36/
(psychophysicsآزمایش های روان فیزیک )
دو دسته از اشیاء آزمایش های بازشناسی شئ از بین داوطلب ۳۹درمجموع ۲۹خانم۱۰ و آقا سال۲۳، میانگین ۳۰ تا ۲۱سن بین ۱۷نفر در آزمایش های تشخیص خودرو از هواپیما ۲۱نفر در آزمایش های تشخیص خودرو از حیوان
چهار دسته از اشیاءآزمایش های بازشناسی شئ از بین داوطلب۳1در مجموع 13 خانم18 آقا و سال۲۳، میانگین ۳۰ تا ۲0 سن بین 12نفر در آزمایش بدون پس زمینه 19نفر در آزمایش با تصویر پس زمینه
بیش از
28٫000 نفر56 تصویرتوسط
مشاهده شد
22
: نتایج3بخش
تاثیر پس زمینه در بازشناسی اشیاءسطوح انتزاع و برهم کنش با تصویر پس زمینهتاثیر جانداری اشیاء در بازشناسی آن ها|تاثیر تغییرات مختلف اشیاء
36/
بازشناسی اشیاء توسط انسان و مدل در مواجه با اشیاء روی تصاویر پس زمینه
plane natural manmade60
65
70
75
80
85
90
95
100
Per
form
ance
[%]
p<10-148
p<10-126
p<10-124
p<10-40
p<10-41 p<10-38
ModelHumanمدل
انسان
بدون پس زمینهمحیط های طبیعیمحیط های دست ساز بشر60
70
80
90
100
ی س
شنااز
خ بنر
[%]
24
36/
نمودار فراوانی زمان پاسخ گویی انسان در مواجه با اشیاء روی پس زمینه از محیط های طبیعی در مقابل اشیاء روی پس زمینه از محیط های دست ساز بشر
300 400 500 600 700 800 900 10000
50
100
150
200
250
300
350
Time (ms)
num
ber o
f tria
ls
natural backgroundmedian=557msmanmade backgroundmedian=560ms
300 400 500 600 700 800 900 1000
50
150
250
350پس زمینه از محیط های طبیعی
پس زمینه از محیط های دست ساز میلی ثانیه557میانه =
میلی ثانیه560میانه =
دهش
ه هد
شا م
یراو
صد ت
داتع
[ms]زمان پاسخ گویی
25
36/
نمودار فراوانی زمان پاسخ گویی انسان در مواجه با اشیاء روی پس زمینه در مقابل اشیاء بدون پس زمینه
300 400 500 600 700 800 900 10000
100
200
300
400
500
600
700
800
Time (ms)
num
ber o
f tria
ls
plane backgroundmedian=529ms
natural & manmade backgroundmedian=559ms
200
400
600
800
0300 400 500 600 700 800 900 1000
بدون تصویر پس زمینه
روی تصویر پس زمینه
میلی ثانیه557میانه =
میلی ثانیه560میانه =
[ms]زمان پاسخ گویی
دهش
ه هد
شا م
یراو
صد ت
داتع
26
36/
ماتریس های بازنمایی عدم تشابه مدل در مواجه با پس زمینه
پس زمینه از محیط های دست ساز بشرپس زمینه از محیط های طبیعیپس زمینه ساده )بدون تصویر پس زمینه(
27
36/
سطوح انتزاع طبقه بندی اشیاء
!گربه؟
!حیوان؟
!گربه ایرانی؟
(Superordinate levelسطح باال )
(Basic levelسطح پایه )
(Subordinate levelسطح پایین )
28
36/
تاثیر سطوح انتزاع در بازشناسی اشیاء
بدون تصویر پس زمینه پس زمینه از تصاویر دست ساز بشرپس زمینه از محیط| های طبیعی
انس
اندل
م
29
36/
30تاثیر جانداری در بازشناسی اشیاء
36/
31انسان و مدل در مواجه با تغییرات مختلف اشیاء
36/
32تاثیر هر نوع تغییر در بازشناسی اشیاء توسط انسان
36/
33در مواجه با درجه سختی های متفاوتبازشناسی اشیاء در انسان
36/
34درجه سختی های متفاوتماتریس های بازنمایی عدم تشابه مدل برای اشیاء در مواجه با
3536دستآوردها/
ایجاد مجموعه داده با سطوح مختلف پس زمینه و بررسی بازشناسی اشیاء
( تحلیل سیگنال های مغزیEEG)
3636پیشنهادها و کارهای آینده/
36/
سپاس
36/
AlexNet
Fully connected layer Fc7 d = 4096
d = 4096
Averaging
Softmax Layer
“Cat”
Fixed input size: 224x224x3
کاهش بیش برازش: افزایش داده
36/
)تغییر کانال های رنگی(کاهش بیش برازش: افزایش داده
Deep Image [Wu et al. 2015]
36/
Main Idea: approximately combining exponentially many different neural network architectures efficiently
Dropout
Srivastava, Hinton, Krizhevsky, Sutskever & Salakhutdinov, JMLR (2014)
x x
xxx
xx
36/
تبدیل-------تصویر----------------
مسیر قدامی مغز پستانداران تصاویر چگونهرا از محیط پیکسل به بازنمایی های موجود در
ITتبدیل می کند؟ نقطه اتصال علوم اعصاب شناختی
(neuroscience و بینایی ماشین )(computer vision)
IT visual ‘features’
عنوان
36/
Basic Bio-inspired model layer
Θ= (Θ 𝑓𝑖𝑙𝑡𝑒𝑟 ,Θ𝑡 h𝑟 ,Θ𝑠𝑎𝑡 ,Θ𝑝𝑜𝑜𝑙 ,Θ𝑛𝑜𝑟𝑚)Architectural parameter
Hubel & Wiesel (1962), Fukushima (1980); Parrett & Oram (1993); Wallis & Rolls (1997); Lecun et al. (1998); Riesenhuber & Poggio (1999); Serre, Kouh, et all. (2005). etc...
• Deep hierarchy• convolutional• LNN• Limited feedback
We saw large performance gains by optimizing the architectural parameters (hyper parameters)
David Cox Nicolas Pinto
Pinto, Doukan, DiCarlo & Cox, PLoS Comp Biol (2009)
36/
شبکه عصبی کانولوشنی
36/
36/
36/
36/
36/
36/
مدل های چندالیه
Θ= (Θ 𝑓𝑖𝑙𝑡𝑒𝑟 ,Θ𝑡 h𝑟 ,Θ𝑠𝑎𝑡 ,Θ𝑝𝑜𝑜𝑙 ,Θ𝑛𝑜𝑟𝑚)پارامترهای معماری
Hubel & Wiesel (1962), Fukushima (1980); Parrett & Oram (1993); Wallis & Rolls (1997); Lecun et al. (1998); Riesenhuber & Poggio (1999); Serre, Kouh, et all. (2005). etc...
Pinto, Doukan, DiCarlo & Cox, PLoS Comp Biol (2009)
10
نرمال سازی
طبقه بند ساده