Post on 11-Aug-2020
Backpropagation
Hung-yi Lee
Background
โข Cost Function ๐ถ ๐
โข Given training examples: ๐ฅ1, ๐ฆ1 , โฏ , ๐ฅ๐ , ๐ฆ๐ , โฏ , ๐ฅ๐ , ๐ฆ๐
โข Find a set of parameters ฮธ* minimizing C(ฮธ)
โข ๐ถ ๐ =1
๐ ๐ ๐ถ
๐ ๐ , ๐ถ๐ ๐ = ๐ ๐ฅ๐; ๐ โ ๐ฆ๐
โข Gradient Descent
โข ๐ป๐ถ ๐ =1
๐ ๐ ๐ป๐ถ๐ ๐
โข Given ๐ค๐๐๐ and ๐๐
๐, we have to compute ๐๐ถ๐ ๐๐ค๐๐๐ and
๐๐ถ๐ ๐๐๐๐
โข There is an efficient way to compute the gradients of the network parameters โ backpropagation.
Chain Rule
Case 1
Case 2
yhz xgy
dx
dy
dy
dz
dx
dzzyx
yxkz , shy sgx
s
y
y
z
s
x
x
z
s
z
s z
x
y
๐๐ถ๐ ๐๐ค๐๐๐
โข is the multiplication of two termsl
ij
r
w
C
โฆโฆ
1
2
j
โฆโฆ
1
2
il
ijw l
iz l
ia
rl
i
l
ij ฮCฮzฮw
l
i
r
l
ij
l
i
l
ij
r
z
C
w
z
w
C
Layer lLayer 1l
๐๐ถ๐ ๐๐ค๐๐๐ - First Term
โข is the multiplication of two termsl
ij
r
w
C
โฆโฆ
1
2
j
โฆโฆ
1
2
il
ijw l
iz l
ia
rl
i
l
ij ฮCฮzฮw
l
i
r
l
ij
l
i
l
ij
r
z
C
w
z
w
C
Layer lLayer 1l
๐๐ถ๐ ๐๐ค๐๐๐ - First Term
โฆโฆ
Layer l-1
1
2
jโฆ
โฆ
1
2
i
Layer l
l
i
r
l
ij
l
i
l
ij
r
z
C
w
z
w
C
l
i
l
j
j
l
ij
l
i bawz 1 1
l
jl
ij
l
i aw
zIf l > 1
l
ijw l
iz
๐๐ถ๐ ๐๐ค๐๐๐ - First Term
l
i
r
l
ij
l
i
l
ij
r
z
C
w
z
w
C
If l = 1
111
i
r
j
j
iji bxwz r
j
ij
i xw
z
1
1
โฆโฆ
Input
โฆโฆ
1
2
i
Layer 1
rx1
rx2
r
jx1
ijw1
iz
l
i
l
j
j
l
ij
l
i bawz 1 1
l
jl
ij
l
i aw
zIf l > 1
๐๐ถ๐ ๐๐ค๐๐๐ - Second Term
โข is the multiplication of two termsl
ij
r
w
C
โฆโฆ
1
2
j
โฆโฆ
1
2
il
ijw l
iz l
ia
rl
i
l
ij ฮCฮzฮw
l
i
r
l
ij
l
i
l
ij
r
z
C
w
z
w
C
Layer lLayer 1l
l
i
๐๐ถ๐ ๐๐ค๐๐๐ - Second Term
โฆโฆ
Layer l-1
1
2
jโฆ
โฆ
1
2
i
Layer l โฆ
โฆ1
2
k
Layer l+1
โฆโฆ
โฆโฆ
โฆโฆ
โฆโฆ
1
2
n
Layer L(output layer)
1. How to compute Lฮด
2. The relation of and lฮด 1lฮดl
i
r
l
ij
l
i
l
ij
r
z
C
w
z
w
C
l
i
l
iฮด
lฮด2
lฮด1
1l
kฮด
1
2
lฮด
1
1
lฮด
L
nฮด
L
2ฮด
Lฮด1
lฮด1lฮด Lฮด1-Lฮด
๐๐ถ๐ ๐๐ค๐๐๐ - Second Term
1. How to compute Lฮด
2. The relation of and lฮด 1lฮดl
i
r
l
ij
l
i
l
ij
r
z
C
w
z
w
C
l
i
L
L
n
r
nz
C
rrLL Cyaz nnn
rL
r
n
r
n
n
y
C
z
y
L
nz โฆโฆ
1
2
n
Layer L(output layer)
L
nฮด
L
2ฮด
Lฮด1
z
z
Depending on the definition of cost function
L
nz
๐๐ถ๐ ๐๐ค๐๐๐ - Second Term
1. How to compute Lฮด
2. The relation of and lฮด 1lฮดl
i
r
l
ij
l
i
l
ij
r
z
C
w
z
w
C
l
i
L
L
n
r
nz
C
rL
r
n
r
n
n
y
C
z
y
L
n
L
L
L
z
z
z
z
2
1
r
n
r
rr
rr
rr
yC
yC
yC
yC
2
1
rrl yCzฮด L
r
n
rL
ny
Cz
element-wise multiplication
?Lฮด
๐๐ถ๐ ๐๐ค๐๐๐ - Second Term
l
i
l
i ฮaฮz rฮC
kl
k
r
l
i
l
k
l
i
l
i
l
i
rl
iz
C
a
z
z
a
z
C1
1
1
1
lฮz
1
2
lฮz
1l
kฮz
โฆโฆ
l
i
r
l
ij
l
i
l
ij
r
z
C
w
z
w
C
l
i
1. How to compute Lฮด
2. The relation of and lฮด 1lฮด
โฆโฆ
1
2
i
Layer l
โฆโฆ
1
2
k
Layer l+1
l
iฮด
lฮด2
lฮด1
1l
kฮด
1
2
lฮด
1
1
lฮด
1lฮดlฮด
l
i
rl
iz
Cฮด
1l
k
๐๐ถ๐ ๐๐ค๐๐๐ - Second Term
l
i
r
l
ij
l
i
l
ij
r
z
C
w
z
w
C
l
i
k
l
k
l
ki
l
i
l
i wz 11โฆโฆ
1
2
i
Layer l
โฆโฆ
1
2
k
Layer l+1
l
iฮด
lฮด2
lฮด1
1l
kฮด
1
2
lฮด
1
1
lฮด
1lฮดlฮด
l
i
l
i ฮaฮz rฮC
1
1
lฮz
1
2
lฮz
1l
kฮz
โฆโฆ
k
l
kl
i
l
k
l
i
l
il
ia
z
z
a 11
l
izฯ111 l
k
l
i
i
l
ki
l
k bawz
๐๐ถ๐ ๐๐ค๐๐๐ - Second Term
l
i
r
l
ij
l
i
l
ij
r
z
C
w
z
w
C
l
i
l
iฮด i
l
iz
multiply a constant
1l
kฮด
1
2
lฮด
1
1
lฮด
โฆโฆ
1l
kiw
1
2
l
iw
1
1
l
iwoutput
input
new type of neuron
k
l
k
l
ki
l
i
l
i wz 11
โฆโฆ
1
2
i
Layer l
โฆโฆ
1
2
k
Layer l+1
l
iฮด
lฮด2
lฮด1
1l
kฮด
1
2
lฮด
1
1
lฮด
1lฮดlฮด
๐๐ถ๐ ๐๐ค๐๐๐ - Second Term
2
โฆ
1
1
lz
1
2
lz
1 l
kz
1
k
2
1
i
โฆ
Layer l+1Layer l
lz1
lz2
l
iz
l
iฮด
lฮด2
lฮด1
1l
kฮด
1
2
lฮด
1
1
lฮด
11 lTlll Wz
1lฮดlฮด
l
i
l
l
l
z
z
z
z
2
1
k
l
k
l
ki
l
i
l
i wz 11
๐๐ถ๐ ๐๐ค๐๐๐ - Second Term
2
โฆ
1
1
lz
1
2
lz
1 l
kz
1
k
2
1
i
โฆ
Layer l+1Layer l
lz1
lz2
l
iz
l
iฮด
lฮด2
lฮด1
1l
kฮด
1
2
lฮด
1
1
lฮด
11 lTlll Wz
1lฮดlฮด
Compare
1l
ka
1
2
la
1
1
laโฆ
โฆ
Layer l
1
2
i
โฆโฆ
1
2
kl
ia
Layer l+1
la2
la1
la1la
111 llll baWa
1
2
n
โฆโฆ
r
1y
C r
Lz1
Lz2
L
nz
r
2y
C r
r
n
r
y
C
Layer L
2
โฆ
1
1
lz
1
2
lz
1 l
kz
1
k
2
1
iโฆโฆ
โฆ
Layer l+1Layer l
lz1
lz2
l
iz
lฮด1
lฮด2
l
iฮด
2
โฆ 1L
1
z
1
m
Layer L-1
โฆ
โฆโฆ
โฆโฆ
โฆโฆ
1. How to compute Lฮด
2. The relation of and lฮด 1lฮด
11 lTlll Wz
TW L TlW 1
rr yCzฮด LL l
i
r
l
ij
l
i
l
ij
r
z
C
w
z
w
C
l
i
rr yCL1-L
1L
2
z
1L mz
1lฮด
lฮด
Concluding Remarksl
i
r
l
ij
l
i
l
ij
r
z
C
w
z
w
C
Forward Pass Backward Pass
11 ll za
11 lTlll Wz 1211 llll baWz
rrL yCzฮด L
1
11
lx
lar
j
l
j
โฆโฆ
1
2
j
โฆโฆ
1
2
il
ijw
Layer lLayer 1l
111 bxWz r
11 za
LTLLL Wz 11
l
i
Acknowledgement
โขๆ่ฌ Ryan Sun ไพไฟกๆๅบๆๅฝฑ็ไธ็้ฏ่ชค