Sumarização Estatística 2D
-
Upload
alexandre-duarte -
Category
Data & Analytics
-
view
242 -
download
1
description
Transcript of Sumarização Estatística 2D
![Page 1: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/1.jpg)
SUMARIZAÇÃO ESTATÍSTICA (2D)Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
![Page 2: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/2.jpg)
AGENDA
• Scatter Plot
• Regressão Linear
• Correlação e Coeficientes de Determinação
• Correlação e Regressão: Estudos de Caso
![Page 3: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/3.jpg)
SCATTERPLOT
![Page 4: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/4.jpg)
SCATTERPLOT
![Page 5: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/5.jpg)
REGRESSÃO LINEAR• Francis Galton
(1822-1911), obcecado pela idéia de que o talento era uma característica herdada, acaba descobrindo que a altura de um milhões remete (regressa) à média da altura dos pais (1855).
![Page 6: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/6.jpg)
PÉTALAS DA IRIS
Como expressar de forma linear a largura de uma pétala em relação ao seu comprimento? PeWi = a*PeLe + b
![Page 7: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/7.jpg)
PÉTALAS DA IRISPeWi = a*PeLe + b !• O que significam a e b ?
!• a = O quanto PeWi muda
quando PeLe aumenta ou diminui em 1. (inclinação) !
• b = Valor esperado para PeWi quando PeLe é igual a 0. (interseção) • Requer um pouco de
imaginação! :-) !
![Page 8: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/8.jpg)
REGRESSÃO LINEAR
Como expressão y = ax + b com erro mínimo? !Seja i = 1, 2, …, N uma entidade. Temos a equação yi = axi + b + ei onde ei é o erro residual. !Problema: encontrar a e b com erro residual ei mínimo.
![Page 9: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/9.jpg)
REGRESSÃO LINEAR
• Problema: Encontrar a e b que minimizem o quadrado do erro residual (critério dos mínimos quadrados)
• 𝑳(𝒂,𝒃) =∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒃)
𝟐
• L(a,b) é uma parábola em a,b:
• Portanto, a condição de otimalidade de primeira ordem do cálculo deve valer
• 𝝏𝑳/𝝏𝒂 =𝟐∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒃)(−𝒙𝒊) = 𝟎 (*)
• 𝝏𝑳/𝝏b =𝟐∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒃)(-1) = 𝟎 (**)
∂L∂a
= 2 (yi − axi − b)(−xi ) = 0i=1
N
∑ (*)
∂L∂b
= 2 (yi − axi − b)(−1) = 0i=1
N
∑ (**)
L(a,b) = (yi − axi − b)i=1
N
∑2
![Page 10: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/10.jpg)
REGRESSÃO LINEAR• 𝟐∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒃)(−𝒙𝒊) = 𝟎 (*)
• 𝟐∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒃)(-1) = 𝟎 (**)
• Dividindo (**) por -2 e transferindo b para a direita
• ∑𝑵𝒊=𝟏𝒚𝒊 − 𝒂∑𝑵𝒊=𝟏𝒙𝒊 = 𝑵𝒃,
• Portanto
• b = ym - axm,
∂L∂a
= 2 (yi − axi − b)(−xi ) = 0i=1
N
∑ (*)
∂L∂b
= 2 (yi − axi − b)(−1) = 0i=1
N
∑ (**)
yi − a xii=1
N
∑i=1
N
∑ = Nb
b = y − ax
![Page 11: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/11.jpg)
REGRESSÃO LINEAR• Agora temos
• 𝟐∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒃)(−𝒙𝒊) = 𝟎 (*)
• b = ym - axm (**)
• Precisamos agora encontrar a em (*)
• Dividindo por -2 e substituindo o b, temos
• ∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒚m+𝒂𝒙m)(𝒙𝒊)=𝟎
∂L∂a
= 2 (yi − axi − b)(−xi ) = 0i=1
N
∑ (*)
b = y − ax (**)
(yi − axi − y + ax )(xi ) = 0i=1
N
∑
![Page 12: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/12.jpg)
REGRESSÃO LINEAR• ∑𝑵
𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒚m+𝒂𝒙m)(𝒙𝒊)=𝟎
• Separando a na esquerda e o resto na direita, temos:
• a∑𝑵𝒊=𝟏(xi - xm)xi = ∑𝑵
𝒊=𝟏(yi - ym)xi
• Portanto
• a = (∑𝑵𝒊=𝟏(yi - ym)xi) / (∑𝑵
𝒊=𝟏(xi - xm)xi)
(yi − axi − y + ax )(xi ) = 0i=1
N
∑
a (xi − x )xi = (yi − y )xii=1
N
∑i=1
N
∑
a =(yi − y )xi
i=1
N
∑
(xi − x )xii=1
N
∑
![Page 13: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/13.jpg)
REGRESSÃO LINEAR!
• a = (∑𝑵𝒊=𝟏(yi - ym)xi) / (∑𝑵
𝒊=𝟏(xi - xm)xi) (*)
• b = ym - axm (**)
• Note que ∑𝑵𝒊=𝟏(xi - xm) = ∑𝑵𝒊=𝟏(yi - ym) = 0
• Portanto
• a = (∑𝑵𝒊=𝟏(yi - ym)(xi-xm)/N) / (∑𝑵
𝒊=𝟏(xi - xm)(xi-xm)/N)
a =(yi − y )xi
i=1
N
∑
(xi − x )xii=1
N
∑(*)
b = y − ax (**)
(xii=1
N
∑ − x ) = (yi − y ) = 0i=1
N
∑
a =(yi − y )(xi − x )
i=1
N
∑ / N
(xi − x )(xi − x ) / Ni=1
N
∑
![Page 14: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/14.jpg)
REGRESSÃO LINEAR• a = (∑𝑵
𝒊=𝟏(yi - ym)(xi-xm)/N) / (∑𝑵𝒊=𝟏(xi - xm)(xi-xm)/N) (*)
• b = ym - axm (**)
!
• Note que o denominador de (*) é a variança de x, σ2(x)
• Vamos introduzir agora uma nova expressão denominada Coeficiente de Correlação,
• ρ= (∑ 𝑵𝒊 = 𝟏 ( 𝒚 𝒊 − 𝒚m) ( 𝒙 𝒊 − 𝒙m) / 𝑵) / σ(x)σ(y)
a =(yi − y )(xi − x )
i=1
N
∑ / N
(xi − x )(xi − x ) / Ni=1
N
∑(*)
b = y − ax (**)
ρ =(yi − y )(xi − x )
i=1
N
∑ / N
σ (x)σ (y)
![Page 15: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/15.jpg)
REGRESSÃO LINEAR
!
!
• Usando o Coeficiente de Correlação,
!
!
• Podemos re-escrever (*) como
a =(yi − y )(xi − x )
i=1
N
∑ / N
(xi − x )(xi − x ) / Ni=1
N
∑(*)
b = y − ax (**)
ρ =(yi − y )(xi − x )
i=1
N
∑ / N
σ (x)σ (y)a = ρ σ (y)
σ (x)
![Page 16: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/16.jpg)
REGRESSÃO LINEAR
• Onde
a = ρ σ (y)σ (x)
(*)
b = y − ax (**)
ρ =(yi − y )(xi − x )
i=1
N
∑ / N
σ (x)σ (y)
![Page 17: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/17.jpg)
REGRESSÃO LINEAR
• Falta agora encontrar o valor mínimo para L(a,b)
• Para isso devemos substituir a e b por (*) e (**) na expressão
• Com isso, chegaremos a
L(a,b) = (yi − axi − b)i=1
N
∑2
L(a,b) = Nσ 2 (y)(1− ρ2 )
![Page 18: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/18.jpg)
REGRESSÃO LINEAR: FINALMENTE
• Com valor mínimo em
a = ρ σ (y)σ (x)
(*)
b = y − ax (**)
L(a,b) = Nσ 2 (y)(1− ρ2 ) (***)
![Page 19: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/19.jpg)
E daí?
![Page 20: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/20.jpg)
CORRELAÇÃO E COEFICIENTES DE DETERMINAÇÃO
• A equação (***) nos diz que ρ2, o coeficiente de determinação, é a proporção da variança σ2(y) que é considerada na regressão linear de y em x.
• O coeficiente de determinação é uma medida de ajustamento a um modelo linear e indica o quão bem a variável dependente pode ser explicada pelos regressores presentes no modelo.
L(a,b) = Nσ 2 (y)(1− ρ2 ) (***)
![Page 21: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/21.jpg)
CORRELAÇÃO E COEFICIENTES DE DETERMINAÇÃO
• O coeficiente de determinação, ρ2, varia no intervalo [0,1]
• O coeficiente de correlação, ρ, varia no intervalo [-1,1]
• O coeficiente ρ é 1 ou -1 apenas quando a equação de regressão y = ax + b é válida para todo i = 1,2,…, N, sem erros
• O coeficiente ρ é 0 se e somente se a inclinação a = 0
• O sinal de ρ indica a direção da inclinação, portanto, x e y são positivamente relacionados se ρ > 0 e negativamente relacionados se ρ < 0
![Page 22: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/22.jpg)
CORRELAÇÃO E COEFICIENTES DE DETERMINAÇÃO
• O coeficiente ρ é 0 se e somente se a inclinação a = 0, o que pode ocorrer por diferentes razões
![Page 23: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/23.jpg)
Isto indica que o coeficiente de correlação ρ é uma medida do grau de uma relação linear entre x e y
![Page 24: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/24.jpg)
CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS
![Page 25: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/25.jpg)
CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS
• Relação entre a largura de uma pétala de iris e o seu comprimento
a = ρ σ (y)σ (x)
(*)
b = y − ax (**)
![Page 26: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/26.jpg)
CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS
• ρ = 0.9629
• Mesmo tendo pontos que não estão exatamente sobre a reta, o coeficiente de determinação, ρ2, vale 0.9271
• Inclinação: 0.4158
• Interseção = -0.3631
a = ρ σ (y)σ (x)
(*)
b = y − ax (**)
![Page 27: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/27.jpg)
CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS
• Comprimento da Pétala = 0.4158 * Largura da Pétala - 0.3631
• ρ2 vale 0.9271. Extremamente alto!
• Mas a previsão do comprimento da pétala no nosso modelo ainda apresenta imprecisão!
![Page 28: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/28.jpg)
CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS
• Testar por erros na previsãon x y y previsto erro %
23 1.4 0.1 0.22 119.0
51 4.5 1.5 1.51 0.5
86 4.3 1.3 1.42 9.6
138 5.0 1.9 1.72 9.7
142 5.7 2.5 2.01 19.7
Erro médio: 20.6%
![Page 29: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/29.jpg)
CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS
![Page 30: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/30.jpg)
CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS
• Coeficiente de correlação = -0.1176!
• Isto não parece estar certo!
• A largura da pétala deveria crescer quando o comprimento da pétala cresce e não diminuir!
![Page 31: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/31.jpg)
CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS
![Page 32: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/32.jpg)
CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS
• Correlação positiva entre indivíduos de uma mesma espécie!
• 0.74
• 0.53
• 0.46
![Page 33: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/33.jpg)
CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS
• Correlação negativa falsa devido a combinação de de dados pertencentes a diferentes agrupamentos!
• Um tipo de manipulação de dados que, as vezes de forma não-intencional, pode dar suporte a afirmações do tipo:
• Existem mentiras, mentiras cabeludas e Estatística!
![Page 34: Sumarização Estatística 2D](https://reader030.fdocument.pub/reader030/viewer/2022020101/559420a51a28ab5e128b46b3/html5/thumbnails/34.jpg)
CORRELAÇÃO != CAUSALIDADE