Por que aleatorizar? - povertyactionlab.org · Alguns exemplos de perguntas causais podem ser: 1....
Transcript of Por que aleatorizar? - povertyactionlab.org · Alguns exemplos de perguntas causais podem ser: 1....
Cecilia Machado
FGV-EPGE
Abdul Latif Jameel Poverty Action Lab
www.povertyactionlab.org
Por que aleatorizar?
Contexto do curso
1 - Monitoramento e Avaliação
2 – Avaliação de programas
3 - Avaliação de impacto
4 - Avaliação Aleatória
• A avaliação de impacto tem como objetivo atribuir causalidade. Ou seja: busca medir os efeitos de um programa.
• Veremos que o método experimental (aleatório) é um método transparente e muito confiável para conseguir fazer isso.
Alguns exemplos de perguntas causais podem ser:
1. Qual é o efeito do crédito sobre a produtividade de uma empresa?
2. Qual é o efeito de mulheres eleitas para cargos de voto popular sobre o investimento público e a percepção de mulheres como líderes?
3. Qual é o efeito de fornecer informação aos consumidores sobre suas decisões de compra?
4. Qual é o efeito do encarceramento sobre a reincidência criminal?
4
Relações causais
• Responder estas perguntas não é fácil, mesmo quando identificados: (a) qual é exatamente o “tratamento”, e (b) quais são as variáveis que vão medir o resultado.
• Por exemplo, para medir o efeito de mulheres eleitas sobre o investimento público e a percepção de mulheres como líderes, se compararmos lugares com mulheres eleitas e não eleitas podemos estar comparando maçãs com laranjas. Por quê? – Talvez o que possibilitou a eleição foi uma percepção prévia
diferente, ou níveis de educação ou de renda diferentes da população, que também afetam as percepções e o investimento público.
5
Relações causais
• Problema de seleção: as pessoas que tomam uma decisão (ex: ir à escola ou solicitar um empréstimo) são em geral diferentes das pessoas que não tomam a decisão.
• Por exemplo: Que variáveis podem levar algumas pessoas a solicitarem um empréstimo? – Apertos econômicos? Portanto, se não formos cuidadosos
podemos concluir que o empréstimo prejudica as empresas – Melhor expectativa para o futuro? Portanto superestimaremos o
efeito
• Outro exemplo: se inocentemente compararmos pessoas que são encarceradas com outras que não, o que poderemos concluir?
6
Relações causais
7
Impacto
Avaliação típica: Como a vida dos beneficiários mudou depois do começo do
programa?
Avaliação com grupo de controle: Como a vida dos beneficiários mudou
por causa do programa?
GRUPO DE TRATAMENTO
Recebe benefícios
do programa GRUPO
CONTROLE
Não recebe
benefícios
O problema da avaliação de impacto:
• Para medir impacto precisamos saber: O que aconteceu com o programa e
- O que teria acontecido sem o programa (contrafatual) =IMPACTO do programa
• Mantendo todo o resto constante (ou seja, lugares com a mesma percepção das mulheres, empresas idênticas com e sem empréstimo, etc.)
• Sem o contrafatual não temos nada com o que comparar os resultados! 8
Impacto
• Problema: O contrafactual não pode ser observado
– Ou seja: não podemos observar a mesma pessoa com ou sem o tratamento.
• Solução: “Repetir” ou construir o contrafactual
– Isto é o que faz um “grupo de controle”: imitar o que teria acontecido com as pessoas que receberam o tratamento, se não o tivessem recebido.
– Ou seja, são seus “clones” em um mundo sem tratamento.
Contrafactual
• O contrafactual costuma ser construído com a ajuda de um grupo não afetado pela intervenção (grupo de controle ou grupo de comparação)
• A maneira em que este grupo é selecionado é uma decisão importante para o desenho de qualquer avaliação de impacto
• A ideia é escolher um grupo que seja exatamente igual ao grupo de participantes, menos em uma coisa:
sua exposição ao programa que está sendo avaliado.
Por quê?
Como construir o contrafactual
1. Avaliações experimentais ou com grupo de controle aleatório (muito confiáveis)
2. Métodos não experimentais ou quase experimentais
a) Antes e depois b) Diferença simples em um mesmo momento no tempo c) Diferenças em diferenças (combinam (a) e (b)) d) Pareamento estatístico e) Variáveis instrumentais f) Regressão Descontínua
14
Métodos de avaliação de impacto
Todos estes métodos tentam fazer a mesma coisa:
1. Estimar o que teria acontecido sem o programa através da criação de um grupo de controle.
2. Estimar a diferença entre o grupo de controle e o grupo de tratamento.
3. A principal diferença entre eles é como estimam o contrafactual e para quais subpopulações, isto é, quem é o grupo de controle.
15
Métodos não experimentais
• Para definir o grupo de controle os métodos não experimentais fazem suposições, e pior ainda: suposições que não podem ser verificadas!
• Por exemplo: Por quê? a) Antes e depois, mesmos indivíduos
• Grupo de controle: os tratados antes de receber o tratamento • Suposição: que sem o tratamento teriam ficado como antes • Ameaça: que existam tendências, por exemplo que o machismo
vá diminuindo com o tempo.
b) Diferença simples depois do programa • Grupo de controle: aqueles sem tratamento, (ex.: empresas sem
empréstimo) • Suposição: que as empresas sem empréstimo são iguais às
empresas com empréstimo. 16
Métodos não experimentais
c) Pareamento: • Grupo de controle: aqueles com características observáveis
iguais • Suposição: que observamos todas as características que
possam afetar o resultado
d) Variáveis instrumentais:
• Idéia: usar uma variável que afete a probabilidade de receber tratamento, mas não diretamente o resultado. Por exemplo: que alguns tenham recebido convite e outros não.
• Grupo de controle: aqueles que não receberam o convite.
• Suposição: que o convite não foi mandado com base no resultado esperado (ex.: aos melhores estudantes)
17
Métodos não experimentais
18
Métodos não experimentais
• Na medida que a suposição de identificação não é válida, a nossa estimativa do efeito do programa também não será: haverá um viés
• Como raramente sabemos o quão ruim é a suposição quantitativamente, também não sabemos o tamanho do viés (embora existam métodos para tentar medi-lo).
possívelCYETYER CT ]|[]|[
TsemiaaaconteceriqueoY
TcomiaaaconteceriqueoY
C
i
T
i
idealYYER C
i
T
ii ][
19
Métodos não experimentais
• Somando e diminuindo
Efeito do tratamento Viés
]|[]|[]|[ CYETYETYYER CCCT
]|[ TYE C
i
]|[]|[ CYETYEãoRandomizaç CC
O que é uma avaliação aleatória?
Começamos com um exemplo simples:
• Pegamos uma amostra de candidatos para o programa
• Aleatoriamente são designados para:
Grupo de tratamento – o tratamento é oferecido
Grupo de controle – não é permitido receber o tratamento (durante o período de avaliação)
21
Principal vantagem de experimentos
Já que os membros dos grupos (tratamento e controle) não diferem sistematicamente,
e a única diferença por construção é que alguns receberam o tratamento e outros não,
qualquer diferença que surja posteriormente, entre eles, poderá ser atribuída ao programa e não a outros fatores.
22
]|[]|[ CYETYEãoRandomizaç CC
Vantagens da aleatorização
• Suposições que não podem ser verificadas não devem ser feitas.
• A aleatorização faz com que os grupos sejam comparáveis em variáveis observáveis, mas também naquelas que não observamos!
• Se concebidos e implementados corretamente, os experimentos aleatórios são o método mais confiável para estimar o impacto de um programa.
23
Passos principais para realizar um experimento
1. Desenhar o estudo cuidadosamente (subpopulação)
2. Alocar aleatoriamente para tratamento ou controle. Recolher dados da linha de base (não é estritamente necessário porém muito recomendável) Verificação equilíbrio, tamanho da amostra,
interações.
4. Verificar que a aleatorização gerou grupos similares
5. Monitorar o processo para garantir a integridade do experimento (que não apliquem o programa aos de controle mas sim aos de tratamento)
24
Passos principais para realizar um experimento
6. Recolher dados pós-intervenção para o grupo de tratamento e também para o grupo de controle
7. Estimar os impactos do programa, comparando a média dos resultados do grupo de tratamento com a média dos resultados do grupo de controle
8. Determinar se os impactos são estatisticamente significativos e praticamente significativos
25
Passos principais para realizar um experimento
26
1. Lin
ha d
e b
ase
2. DIVISÃO aleatória
2. INTERVENÇÃO 4
. Med
ição fin
al
PÚBLICO-ALVO
3. STATUS QUO
A medição é o fator-chave
27
• Uma coisa é ter grupos comparáveis, para o qual a aleatorização é nossa melhor aliada… e outra coisa é poder medir com precisão os resultados.
• A precisão dependerá do instrumento usado para medir (enquete, informação administrativa, etc.), do tamanho da amostra, e outras coisas que veremos depois.
• Há variáveis difíceis de medir: ex.: percepção das mulheres líderes sobre suas próprias capacidades. Como vocês fariam? – as pessoas tendem a dizer o que você quer ouvir. Sejam criativos: ex.:
opinar sobre o mesmo discurso feito por homens/mulheres
• Implementado por Pratham, uma ONG na Índia
• O programa proporcionou tutores (Balsakhis) para ajudar crianças com dificuldades na escola
• O programa de Balsakhi foi implementado em escolas primárias públicas em 2002-2003
• Os professores destas escolas decidiram que as crianças (as mais atrasadas) se educariam com os Balsakhi
29
Exemplo Balsakhi: antecedentes
Exemplo nº1: o programa de Balsakhi
Case 2: Remedial Education in IndiaEvaluating the Balsakhi Program
Incorporating random assignment into the program
Case 2: Remedial Education in IndiaEvaluating the Balsakhi Program
Incorporating random assignment into the program
• Variável resultado: As crianças fazem testes de
linguagem e matemática no começo do ano escolar (pré-teste) e no final do ano (pós-teste )
• PERGUNTA: Como determinamos o impacto do programa?
Balsakhi: Indicadores de Resultados
• Exploremos diferentes formas de calcular os impactos utilizando os dados das escolas que obtiveram um balsakhi
1. Pré – Pós (Antes vs. depois)
2. Diferença simples
3. Diferenças em Diferenças
4. Outros métodos não experimentais
5. Experimento Aleatório
Métodos para estimar impacto
• Estratégia Comparar as notas médias das crianças educadas pelos balsakhi
• Antes do balsakhi (2002) vs. • Depois do balsakhi (2004)
1. Pré-pós (Antes vs. depois)
• PERGUNTA: Sob que condições esta diferença (26,42) pode ser considerada como o impacto do programa Balsakhi?
1. Pré-pós (Antes vs. depois)
Nota média pós-teste para crianças com um balsakhi
51,22
Nota média pré-teste para as crianças com um balsakhi
24,80
Diferença 26,42
O que teria acontecido sem o balsakhi?
Método 1: Antes vs. depois
Impacto = 26.42 pontos?
75
50
25
0
0
2002 2003
26,42 pontos
2 – Diferença simples
Crianças que receberam o balsakhi
Compare a nota média de…
Crianças que não receberam o balsakhi
com a nota
média de…
• PERGUNTA: Sob que condições esta diferença (-5,05) pode ser considerada como o impacto do programa Balsakhi?
2 – Diferença simples
Nota média para as crianças com um balsakhi
51,22
Nota média para as cranças sem um balsakhi
56,27
Diferença -5,05
O que teria acontecido sem o balsakhi?
Método 2: Comparação simples
Impacto = -5.05 pontos?
75
50
25
0
0 2002 2003
-5,05 pontos
3 – Diferenças em Diferenças
Crianças que receberam o balsakhi
Compare a mudança na nota média de…
Crianças que não receberam o balsakhi
Com a mudança na nota média
de…
3 – Diferenças em Diferenças
Pré-teste Pós-teste Diferença
Nota média para as crianças com um balsakhi
24.80 51.22 26.42
Nota média para as cranças sem um balsakhi
3 – Diferenças em Diferenças
Pré-teste Pós-teste Diferença
Nota média para as crianças com um balsakhi
24.80 51.22 26.42
Nota média para as cranças sem um balsakhi
36.67 56.27 19.60
• PERGUNTA: Sob que condições esta diferença (6.82) pode ser considerada como o impacto do programa Balsakhi?
3 – Diferenças em Diferenças
Pré-teste Pós-teste Diferença
Nota média para as crianças com um balsakhi
24.80 51.22 26.42
Nota média para as cranças sem um balsakhi
36.67 56.27 19.60
Diferença 6.82
• Suponha que avaliamos o programa de Balsakhi usando um experimento aleatório
• PERGUNTA nº1: O que isso implica? Como o fazemos?
• PREGUNTA nº2: Qual seria a vantagem de utilizar este método para avaliar o impacto do programa Balsakhi?
43
4 – Experimento Aleatório
Source: www.theoryofchange.org
Impacto do Programa Balsakhi
Método Impacto Estimado
(1) Pré-pós 26.42*
(2) Diferença simples -5.05*
(3) Diferenças em diferenças 6.82*
(4) Regressão 1.92
*: Estatísticamente significativo ao nível de 5%
Impacto do Programa Balsakhi
Método Impacto Estimado
(1) Pré-pós 26.42*
(2) Diferença simples -5.05*
(3) Diferenças em diferenças 6.82*
(4) Regressão 1.92
(5) Experimento Aleatório 5.87*
*: Estatísticamente significativo ao nível de 5%