A Comparative Study of varying parameters in invariant object recognition at behavioral and...

36/

مقایسه عوامل متغیر در بازشناسی اشیاء مستقل از تغییرات در سطح رفتاری و مدل های محاسباتی – شناختی

دانشجو: علیرضا اخوان پور

استاد راهنما: دکتر رضا ابراهیم پور

استاد مشاور: مهندس حمید کریمی روزبهانی

استاد داور خارجی: دکتر جواد ظهیری استاد داور داخلی: دکتر حمیدرضا شایق بروجنی

دانشکده مهندسی کامپیوتر1394/10/06

: مقدمه1بخش

بازشناسی اشیاء سریع در انسانقشر بینایی مغز و مسیر قدامیتغییرات اشیاء بازشناسی نامتغیر اشیاءبازنمایی خوب و بدمدل های محاسباتیشبکه عصبی کانولوشنی

36/

DiCarlo, Zoccolan and Rust, Neuron (2012)

Core object recognitionمیلی ثانیه زمان نمایش 200>

سریع

ساده و بی دردسر

بدون نیاز به تمرکز و پیش زمینه

اشیاء مختلف

مقاوم به تغییرات مختلف

بازشناسی اشیاء سریع در انسان

مقاوم به تغییرات مختلف

2

36/

Ventral visual stream

~60ms~100ms

تبدیل تصویر

چرا مغز نیاز به تبدیل تصاویر از محیط پیکسل دارد؟

مسیر قدامی بینایی در مغز

DiCarlo and Cox , TICS (2007)

4

36/

درون دسته ای(intraclass)

( درهم ریختگیClutter, occlusion)اندازه، زاویه ی دید، تغییرات نور و موقعیت در صفحه

Invariant object

recognition

5تغییرات اشیاء

36/

1نورون

2نورون3نورون

4نورون... و5نورون

(manifoldفضای نرونی و خمینه )

DiCarlo and Cox , TICS (2007)

6

36/

7فضای نرونی خوب

“خوب”فضای نرونی

ابر صفحه ی جدا کننده

36/

تبدیل تصویر در هم تنیده،

اطالعات ضمنی از اشیاء

جداپذیر، اطالعات صریح و روشن از اشیاء

تبدیل فضای نرونی در مغز

DiCarlo and Cox , TICS (2007), DiCarlo, Zoccolan and Rust, Neuron (2012)

8

36/

Pinto, Cox & Dicarlo, PLoS Comp Biol (2008)

خروجیویژگی های تصویر

Θ= (Θ 𝑓𝑖𝑙𝑡𝑒𝑟 ,Θ𝑡 h𝑟 ,Θ𝑠𝑎𝑡 ,Θ𝑝𝑜𝑜𝑙 ,Θ𝑛𝑜𝑟𝑚):عملیات پایه

Neural like basic operations

𝜣(𝟏)

اجزای اصلی مدل های محاسباتی

L1

“V1-like” model

9

36/

ITرابطه ی کارایی مدل با پیشگویی نرون های

کارایی ویژگی های استخراج شده ی مدل

ی حیه

ناای

ن هرو

ی نگوی

ش پی

ییانا

توIT

ده ش

اجخر

ستی ا

ی هاژگ

ویط

وست

Yamins, Hong, Charles, Solomon, Seibert & DiCarlo, PNAS (2014)

10

36/

مقایسه ی کارایی مدل های محاسباتی

Cadieu, Hong, Yamins, Pinto, Ardila, Solomon, Majaj & DiCarlo, PLoS Comp Biol (2014)

11

36/

ITبازنمایی های مدل های محاسباتی در مقایسه با نرون های

Cadieu, Hong, Yamins, Pinto, Ardila, Solomon, Majaj & DiCarlo, PLoS Comp Biol (2014)

12

36/

تصویر وردی

کانولوشن (convolution)

غیر خطی

Spatialترکیب )pooling)

نرمال سازی

Featureویژگی ها )maps)

هر الیه از شبکه عصبی کانولوشنی

slide credit: S. Lazebnik

13

36/

تصویر ورودی

Feature Activation Map

.

.

.

14کانولوشن

36/

تصویر وردی


غیر خطی


نرمال سازی


Input Feature Map

.

.

.

15کانولوشن

36/

تصویر وردی


غیر خطی


نرمال سازی

Featureویژگی ها )maps) خطیواحد یکسوساز

Rectified Linear Unit (ReLU)

واحد غیر خطی

0,f x max x

Nair, Hinton, ICML (2010)

16

36/

تصویر وردی


غیر خطی


نرمال سازی


Max pooling

17ترکیب و کاهش اندازه

36/

تصویر وردی


غیر خطی


نرمال سازی


بعد از نرمال سازی

18نرمال سازی

: آزمایش ها و روش2بخش

ایجاد مجموعه دادهمدل کانولوشنیآزمایش روان-فیزیک

36/

درخشندگیچرخش در عمق اندازهجا به جایی

+

3200 تصویر پس زمینه متفاوت

16 دسته 4 شئ سه بعدی در مختلف

نوع تغییر در سطوح 4اعمال متفاوت

544تصویر بدون پس زمینه 5440 تصویر روی پس زمینه از

محیط های طبیعی5440 تصویر روی محیط های

دست ساز بشر

20ایجاد مجموعه داده

36/

(AlexNetمدل شبکه عصبی کانولوشنی الکس نت )

A. Krizhevsky, I. Sutskever, and G. Hinton, NIPS (2012)

21

36/

(psychophysicsآزمایش های روان فیزیک )

دو دسته از اشیاء آزمایش های بازشناسی شئ از بین داوطلب ۳۹درمجموع ۲۹خانم۱۰ و آقا سال۲۳، میانگین ۳۰ تا ۲۱سن بین ۱۷نفر در آزمایش های تشخیص خودرو از هواپیما ۲۱نفر در آزمایش های تشخیص خودرو از حیوان

چهار دسته از اشیاءآزمایش های بازشناسی شئ از بین داوطلب۳1در مجموع 13 خانم18 آقا و سال۲۳، میانگین ۳۰ تا ۲0 سن بین 12نفر در آزمایش بدون پس زمینه 19نفر در آزمایش با تصویر پس زمینه

بیش از

28٫000 نفر56 تصویرتوسط

مشاهده شد

22

: نتایج3بخش

تاثیر پس زمینه در بازشناسی اشیاءسطوح انتزاع و برهم کنش با تصویر پس زمینهتاثیر جانداری اشیاء در بازشناسی آن ها|تاثیر تغییرات مختلف اشیاء

36/

بازشناسی اشیاء توسط انسان و مدل در مواجه با اشیاء روی تصاویر پس زمینه

plane natural manmade60

65

70

75

80

85

90

95

100

Per

form

ance

[%]

p<10-148

p<10-126

p<10-124

p<10-40

p<10-41 p<10-38

ModelHumanمدل

انسان

بدون پس زمینهمحیط های طبیعیمحیط های دست ساز بشر60

70

80

90

100

ی س

شنااز

خ بنر

[%]

24

36/

نمودار فراوانی زمان پاسخ گویی انسان در مواجه با اشیاء روی پس زمینه از محیط های طبیعی در مقابل اشیاء روی پس زمینه از محیط های دست ساز بشر

300 400 500 600 700 800 900 10000

50

100

150

200

250

300

350

Time (ms)

num

ber o

f tria

ls

natural backgroundmedian=557msmanmade backgroundmedian=560ms

300 400 500 600 700 800 900 1000

50

150

250

350پس زمینه از محیط های طبیعی

پس زمینه از محیط های دست ساز میلی ثانیه557میانه =

میلی ثانیه560میانه =

دهش

ه هد

شا م

یراو

صد ت

داتع

[ms]زمان پاسخ گویی

25

36/

نمودار فراوانی زمان پاسخ گویی انسان در مواجه با اشیاء روی پس زمینه در مقابل اشیاء بدون پس زمینه

300 400 500 600 700 800 900 10000

100

200

300

400

500

600

700

800

Time (ms)

num

ber o

f tria

ls

plane backgroundmedian=529ms

natural & manmade backgroundmedian=559ms

200

400

600

800

0300 400 500 600 700 800 900 1000

بدون تصویر پس زمینه

روی تصویر پس زمینه



[ms]زمان پاسخ گویی

دهش

ه هد

شا م

یراو

صد ت

داتع

26

36/

ماتریس های بازنمایی عدم تشابه مدل در مواجه با پس زمینه

پس زمینه از محیط های دست ساز بشرپس زمینه از محیط های طبیعیپس زمینه ساده )بدون تصویر پس زمینه(

27

36/

سطوح انتزاع طبقه بندی اشیاء

!گربه؟

!حیوان؟

!گربه ایرانی؟

(Superordinate levelسطح باال )

(Basic levelسطح پایه )

(Subordinate levelسطح پایین )

28

36/

تاثیر سطوح انتزاع در بازشناسی اشیاء

بدون تصویر پس زمینه پس زمینه از تصاویر دست ساز بشرپس زمینه از محیط| های طبیعی

انس

اندل

م

29

36/

30تاثیر جانداری در بازشناسی اشیاء

36/

31انسان و مدل در مواجه با تغییرات مختلف اشیاء

36/

32تاثیر هر نوع تغییر در بازشناسی اشیاء توسط انسان

36/

33در مواجه با درجه سختی های متفاوتبازشناسی اشیاء در انسان

36/

34درجه سختی های متفاوتماتریس های بازنمایی عدم تشابه مدل برای اشیاء در مواجه با

3536دستآوردها/

ایجاد مجموعه داده با سطوح مختلف پس زمینه و بررسی بازشناسی اشیاء

( تحلیل سیگنال های مغزیEEG)

3636پیشنهادها و کارهای آینده/

36/

سپاس

36/

AlexNet

Fully connected layer Fc7 d = 4096

d = 4096

Averaging

Softmax Layer

“Cat”

Fixed input size: 224x224x3

کاهش بیش برازش: افزایش داده

36/

)تغییر کانال های رنگی(کاهش بیش برازش: افزایش داده

Deep Image [Wu et al. 2015]

36/

Main Idea: approximately combining exponentially many different neural network architectures efficiently

Dropout

Srivastava, Hinton, Krizhevsky, Sutskever & Salakhutdinov, JMLR (2014)

x x

xxx

xx

36/

تبدیل-------تصویر----------------

مسیر قدامی مغز پستانداران تصاویر چگونهرا از محیط پیکسل به بازنمایی های موجود در

ITتبدیل می کند؟ نقطه اتصال علوم اعصاب شناختی

(neuroscience و بینایی ماشین )(computer vision)

IT visual ‘features’

عنوان

36/

Basic Bio-inspired model layer

Θ= (Θ 𝑓𝑖𝑙𝑡𝑒𝑟 ,Θ𝑡 h𝑟 ,Θ𝑠𝑎𝑡 ,Θ𝑝𝑜𝑜𝑙 ,Θ𝑛𝑜𝑟𝑚)Architectural parameter

Hubel & Wiesel (1962), Fukushima (1980); Parrett & Oram (1993); Wallis & Rolls (1997); Lecun et al. (1998); Riesenhuber & Poggio (1999); Serre, Kouh, et all. (2005). etc...

• Deep hierarchy• convolutional• LNN• Limited feedback

We saw large performance gains by optimizing the architectural parameters (hyper parameters)

David Cox Nicolas Pinto

Pinto, Doukan, DiCarlo & Cox, PLoS Comp Biol (2009)

36/

شبکه عصبی کانولوشنی

36/

مدل های چندالیه

Θ= (Θ 𝑓𝑖𝑙𝑡𝑒𝑟 ,Θ𝑡 h𝑟 ,Θ𝑠𝑎𝑡 ,Θ𝑝𝑜𝑜𝑙 ,Θ𝑛𝑜𝑟𝑚)پارامترهای معماری

Hubel & Wiesel (1962), Fukushima (1980); Parrett & Oram (1993); Wallis & Rolls (1997); Lecun et al. (1998); Riesenhuber & Poggio (1999); Serre, Kouh, et all. (2005). etc...

Pinto, Doukan, DiCarlo & Cox, PLoS Comp Biol (2009)

10

نرمال سازی

طبقه بند ساده

A Comparative Study of varying parameters in invariant object recognition at behavioral and...

Engineering

Transcript of A Comparative Study of varying parameters in invariant object recognition at behavioral and...