Por que aleatorizar? - povertyactionlab.org · Alguns exemplos de perguntas causais podem ser: 1....

46
Cecilia Machado FGV-EPGE Abdul Latif Jameel Poverty Action Lab www.povertyactionlab.org Por que aleatorizar?

Transcript of Por que aleatorizar? - povertyactionlab.org · Alguns exemplos de perguntas causais podem ser: 1....

Cecilia Machado

FGV-EPGE

Abdul Latif Jameel Poverty Action Lab

www.povertyactionlab.org

Por que aleatorizar?

Contexto do curso

1 - Monitoramento e Avaliação

2 – Avaliação de programas

3 - Avaliação de impacto

4 - Avaliação Aleatória

• A avaliação de impacto tem como objetivo atribuir causalidade. Ou seja: busca medir os efeitos de um programa.

• Veremos que o método experimental (aleatório) é um método transparente e muito confiável para conseguir fazer isso.

I – O problema de seleção e a formação de grupos de controle

Alguns exemplos de perguntas causais podem ser:

1. Qual é o efeito do crédito sobre a produtividade de uma empresa?

2. Qual é o efeito de mulheres eleitas para cargos de voto popular sobre o investimento público e a percepção de mulheres como líderes?

3. Qual é o efeito de fornecer informação aos consumidores sobre suas decisões de compra?

4. Qual é o efeito do encarceramento sobre a reincidência criminal?

4

Relações causais

• Responder estas perguntas não é fácil, mesmo quando identificados: (a) qual é exatamente o “tratamento”, e (b) quais são as variáveis que vão medir o resultado.

• Por exemplo, para medir o efeito de mulheres eleitas sobre o investimento público e a percepção de mulheres como líderes, se compararmos lugares com mulheres eleitas e não eleitas podemos estar comparando maçãs com laranjas. Por quê? – Talvez o que possibilitou a eleição foi uma percepção prévia

diferente, ou níveis de educação ou de renda diferentes da população, que também afetam as percepções e o investimento público.

5

Relações causais

• Problema de seleção: as pessoas que tomam uma decisão (ex: ir à escola ou solicitar um empréstimo) são em geral diferentes das pessoas que não tomam a decisão.

• Por exemplo: Que variáveis podem levar algumas pessoas a solicitarem um empréstimo? – Apertos econômicos? Portanto, se não formos cuidadosos

podemos concluir que o empréstimo prejudica as empresas – Melhor expectativa para o futuro? Portanto superestimaremos o

efeito

• Outro exemplo: se inocentemente compararmos pessoas que são encarceradas com outras que não, o que poderemos concluir?

6

Relações causais

7

Impacto

Avaliação típica: Como a vida dos beneficiários mudou depois do começo do

programa?

Avaliação com grupo de controle: Como a vida dos beneficiários mudou

por causa do programa?

GRUPO DE TRATAMENTO

Recebe benefícios

do programa GRUPO

CONTROLE

Não recebe

benefícios

O problema da avaliação de impacto:

• Para medir impacto precisamos saber: O que aconteceu com o programa e

- O que teria acontecido sem o programa (contrafatual) =IMPACTO do programa

• Mantendo todo o resto constante (ou seja, lugares com a mesma percepção das mulheres, empresas idênticas com e sem empréstimo, etc.)

• Sem o contrafatual não temos nada com o que comparar os resultados! 8

Impacto

Impacto: cenário nº1

Tempo

Res

ult

ado

pri

már

io

Impacto

Intervenção

Impacto: cenário nº2

Tempo

Res

ult

ado

pri

már

io

Impacto Intervenção

Impacto: cenário nº3

Tempo

Res

ult

ado

pri

már

io

Impacto

Intervenção

• Problema: O contrafactual não pode ser observado

– Ou seja: não podemos observar a mesma pessoa com ou sem o tratamento.

• Solução: “Repetir” ou construir o contrafactual

– Isto é o que faz um “grupo de controle”: imitar o que teria acontecido com as pessoas que receberam o tratamento, se não o tivessem recebido.

– Ou seja, são seus “clones” em um mundo sem tratamento.

Contrafactual

• O contrafactual costuma ser construído com a ajuda de um grupo não afetado pela intervenção (grupo de controle ou grupo de comparação)

• A maneira em que este grupo é selecionado é uma decisão importante para o desenho de qualquer avaliação de impacto

• A ideia é escolher um grupo que seja exatamente igual ao grupo de participantes, menos em uma coisa:

sua exposição ao programa que está sendo avaliado.

Por quê?

Como construir o contrafactual

1. Avaliações experimentais ou com grupo de controle aleatório (muito confiáveis)

2. Métodos não experimentais ou quase experimentais

a) Antes e depois b) Diferença simples em um mesmo momento no tempo c) Diferenças em diferenças (combinam (a) e (b)) d) Pareamento estatístico e) Variáveis instrumentais f) Regressão Descontínua

14

Métodos de avaliação de impacto

Todos estes métodos tentam fazer a mesma coisa:

1. Estimar o que teria acontecido sem o programa através da criação de um grupo de controle.

2. Estimar a diferença entre o grupo de controle e o grupo de tratamento.

3. A principal diferença entre eles é como estimam o contrafactual e para quais subpopulações, isto é, quem é o grupo de controle.

15

Métodos não experimentais

• Para definir o grupo de controle os métodos não experimentais fazem suposições, e pior ainda: suposições que não podem ser verificadas!

• Por exemplo: Por quê? a) Antes e depois, mesmos indivíduos

• Grupo de controle: os tratados antes de receber o tratamento • Suposição: que sem o tratamento teriam ficado como antes • Ameaça: que existam tendências, por exemplo que o machismo

vá diminuindo com o tempo.

b) Diferença simples depois do programa • Grupo de controle: aqueles sem tratamento, (ex.: empresas sem

empréstimo) • Suposição: que as empresas sem empréstimo são iguais às

empresas com empréstimo. 16

Métodos não experimentais

c) Pareamento: • Grupo de controle: aqueles com características observáveis

iguais • Suposição: que observamos todas as características que

possam afetar o resultado

d) Variáveis instrumentais:

• Idéia: usar uma variável que afete a probabilidade de receber tratamento, mas não diretamente o resultado. Por exemplo: que alguns tenham recebido convite e outros não.

• Grupo de controle: aqueles que não receberam o convite.

• Suposição: que o convite não foi mandado com base no resultado esperado (ex.: aos melhores estudantes)

17

Métodos não experimentais

18

Métodos não experimentais

• Na medida que a suposição de identificação não é válida, a nossa estimativa do efeito do programa também não será: haverá um viés

• Como raramente sabemos o quão ruim é a suposição quantitativamente, também não sabemos o tamanho do viés (embora existam métodos para tentar medi-lo).

possívelCYETYER CT ]|[]|[

TsemiaaaconteceriqueoY

TcomiaaaconteceriqueoY

C

i

T

i

idealYYER C

i

T

ii ][

19

Métodos não experimentais

• Somando e diminuindo

Efeito do tratamento Viés

]|[]|[]|[ CYETYETYYER CCCT

]|[ TYE C

i

]|[]|[ CYETYEãoRandomizaç CC

II – O que é uma avaliação aleatória?

O que é uma avaliação aleatória?

Começamos com um exemplo simples:

• Pegamos uma amostra de candidatos para o programa

• Aleatoriamente são designados para:

Grupo de tratamento – o tratamento é oferecido

Grupo de controle – não é permitido receber o tratamento (durante o período de avaliação)

21

Principal vantagem de experimentos

Já que os membros dos grupos (tratamento e controle) não diferem sistematicamente,

e a única diferença por construção é que alguns receberam o tratamento e outros não,

qualquer diferença que surja posteriormente, entre eles, poderá ser atribuída ao programa e não a outros fatores.

22

]|[]|[ CYETYEãoRandomizaç CC

Vantagens da aleatorização

• Suposições que não podem ser verificadas não devem ser feitas.

• A aleatorização faz com que os grupos sejam comparáveis em variáveis observáveis, mas também naquelas que não observamos!

• Se concebidos e implementados corretamente, os experimentos aleatórios são o método mais confiável para estimar o impacto de um programa.

23

Passos principais para realizar um experimento

1. Desenhar o estudo cuidadosamente (subpopulação)

2. Alocar aleatoriamente para tratamento ou controle. Recolher dados da linha de base (não é estritamente necessário porém muito recomendável) Verificação equilíbrio, tamanho da amostra,

interações.

4. Verificar que a aleatorização gerou grupos similares

5. Monitorar o processo para garantir a integridade do experimento (que não apliquem o programa aos de controle mas sim aos de tratamento)

24

Passos principais para realizar um experimento

6. Recolher dados pós-intervenção para o grupo de tratamento e também para o grupo de controle

7. Estimar os impactos do programa, comparando a média dos resultados do grupo de tratamento com a média dos resultados do grupo de controle

8. Determinar se os impactos são estatisticamente significativos e praticamente significativos

25

Passos principais para realizar um experimento

26

1. Lin

ha d

e b

ase

2. DIVISÃO aleatória

2. INTERVENÇÃO 4

. Med

ição fin

al

PÚBLICO-ALVO

3. STATUS QUO

A medição é o fator-chave

27

• Uma coisa é ter grupos comparáveis, para o qual a aleatorização é nossa melhor aliada… e outra coisa é poder medir com precisão os resultados.

• A precisão dependerá do instrumento usado para medir (enquete, informação administrativa, etc.), do tamanho da amostra, e outras coisas que veremos depois.

• Há variáveis difíceis de medir: ex.: percepção das mulheres líderes sobre suas próprias capacidades. Como vocês fariam? – as pessoas tendem a dizer o que você quer ouvir. Sejam criativos: ex.:

opinar sobre o mesmo discurso feito por homens/mulheres

III – Há diferenças na prática entre aleatorizar ou não?

Sim, muita!

• Implementado por Pratham, uma ONG na Índia

• O programa proporcionou tutores (Balsakhis) para ajudar crianças com dificuldades na escola

• O programa de Balsakhi foi implementado em escolas primárias públicas em 2002-2003

• Os professores destas escolas decidiram que as crianças (as mais atrasadas) se educariam com os Balsakhi

29

Exemplo Balsakhi: antecedentes

Exemplo nº1: o programa de Balsakhi

Case 2: Remedial Education in IndiaEvaluating the Balsakhi Program

Incorporating random assignment into the program

Case 2: Remedial Education in IndiaEvaluating the Balsakhi Program

Incorporating random assignment into the program

• Variável resultado: As crianças fazem testes de

linguagem e matemática no começo do ano escolar (pré-teste) e no final do ano (pós-teste )

• PERGUNTA: Como determinamos o impacto do programa?

Balsakhi: Indicadores de Resultados

• Exploremos diferentes formas de calcular os impactos utilizando os dados das escolas que obtiveram um balsakhi

1. Pré – Pós (Antes vs. depois)

2. Diferença simples

3. Diferenças em Diferenças

4. Outros métodos não experimentais

5. Experimento Aleatório

Métodos para estimar impacto

• Estratégia Comparar as notas médias das crianças educadas pelos balsakhi

• Antes do balsakhi (2002) vs. • Depois do balsakhi (2004)

1. Pré-pós (Antes vs. depois)

• PERGUNTA: Sob que condições esta diferença (26,42) pode ser considerada como o impacto do programa Balsakhi?

1. Pré-pós (Antes vs. depois)

Nota média pós-teste para crianças com um balsakhi

51,22

Nota média pré-teste para as crianças com um balsakhi

24,80

Diferença 26,42

O que teria acontecido sem o balsakhi?

Método 1: Antes vs. depois

Impacto = 26.42 pontos?

75

50

25

0

0

2002 2003

26,42 pontos

2 – Diferença simples

Crianças que receberam o balsakhi

Compare a nota média de…

Crianças que não receberam o balsakhi

com a nota

média de…

• PERGUNTA: Sob que condições esta diferença (-5,05) pode ser considerada como o impacto do programa Balsakhi?

2 – Diferença simples

Nota média para as crianças com um balsakhi

51,22

Nota média para as cranças sem um balsakhi

56,27

Diferença -5,05

O que teria acontecido sem o balsakhi?

Método 2: Comparação simples

Impacto = -5.05 pontos?

75

50

25

0

0 2002 2003

-5,05 pontos

3 – Diferenças em Diferenças

Crianças que receberam o balsakhi

Compare a mudança na nota média de…

Crianças que não receberam o balsakhi

Com a mudança na nota média

de…

3 – Diferenças em Diferenças

Pré-teste Pós-teste Diferença

Nota média para as crianças com um balsakhi

24.80 51.22 26.42

Nota média para as cranças sem um balsakhi

3 – Diferenças em Diferenças

Pré-teste Pós-teste Diferença

Nota média para as crianças com um balsakhi

24.80 51.22 26.42

Nota média para as cranças sem um balsakhi

36.67 56.27 19.60

• PERGUNTA: Sob que condições esta diferença (6.82) pode ser considerada como o impacto do programa Balsakhi?

3 – Diferenças em Diferenças

Pré-teste Pós-teste Diferença

Nota média para as crianças com um balsakhi

24.80 51.22 26.42

Nota média para as cranças sem um balsakhi

36.67 56.27 19.60

Diferença 6.82

• Suponha que avaliamos o programa de Balsakhi usando um experimento aleatório

• PERGUNTA nº1: O que isso implica? Como o fazemos?

• PREGUNTA nº2: Qual seria a vantagem de utilizar este método para avaliar o impacto do programa Balsakhi?

43

4 – Experimento Aleatório

Source: www.theoryofchange.org

Impacto do Programa Balsakhi

Método Impacto Estimado

(1) Pré-pós 26.42*

(2) Diferença simples -5.05*

(3) Diferenças em diferenças 6.82*

(4) Regressão 1.92

*: Estatísticamente significativo ao nível de 5%

Impacto do Programa Balsakhi

Método Impacto Estimado

(1) Pré-pós 26.42*

(2) Diferença simples -5.05*

(3) Diferenças em diferenças 6.82*

(4) Regressão 1.92

(5) Experimento Aleatório 5.87*

*: Estatísticamente significativo ao nível de 5%

Impacto do Programa Balsakhi

Método Impacto Estimado

(1) Pré-pós 26.42*

(2) Diferença simples -5.05*

(3) Diferenças em diferenças 6.82*

(4) Regressão 1.92

(5) Experimento Aleatório 5.87*

Conclusão: O método usado importa!

*: Estatísticamente significativo ao nível de 5%