Título: Validade e confiabilidade de instrumentos de ... · Objetivo do Minicurso Apresentar os...
Transcript of Título: Validade e confiabilidade de instrumentos de ... · Objetivo do Minicurso Apresentar os...
Minicurso: Validade e confiabilidade de
instrumentos de mensuração
Ludmilla Jacobson Professora Adjunta
Departamento de Estatística UFF
Objetivo do Minicurso
Apresentar os conceitos de validade e
confiabilidade, assim como as técnicas
estatísticas mais adequadas a cada tipo de
variável.
Medição
“A atribuição de números a objetos ou eventos, de acordo com regras.”
“É o processo de ligar conceitos abstratos a indicadores empíricos”
Exemplos
Pressão Arterial – O Sr. É Hipertenso?
• Conceito de Pressão Arterial
• Instrumento de medição – o resultado ou valor observado é a variável operacional.
Exemplos
Horas - Que horas são?
Horário de referencia e consenso – Ex. Brasília
Variabilidade entre pessoas
Equação de Medição
EVX Onde :
V é o Valor Verdadeiro
E é o erro Aleatório
Minimizar Erro Aleatório
Validade
Grau em que um instrumento mede o
que se propõe a medir.
Confiabilidade
Se refere a quanto um instrumento de
mensuração produz o mesmo
resultado em repetidas tentativas.
Instrumentos de Mensuração
Instrumentos de mensuração de dados são
utilizados em pesquisas de diversas áreas do
conhecimento.
Avaliar a validade e confiabilidade destes
instrumentos é essencial para evitar erros
sistemáticos (viés) e conclusões incorretas para a
pesquisa.
Objetivo: Evitar o Viés e minimizar o Erro Aleatório
O viés representa o erro sistemático que ocorre no desenho
ou mesmo durante o estudo, podendo comprometer as
conclusões deste.
O erro aleatório representa a diferença entre a estimativa
obtida na amostra e o parâmetro real na população de
referência
Fonte: Ribeiro e Cardoso (2009)
Instrumentos de Mensuração
Questionários
Fichas para anotações de resultados laboratoriais
Instrumentos de Mensuração Exemplos
• Estresse Percebido
• ISAAC
• Qualidade de Vida
• Felicidade
• Motivações para Curtir, Compartilhar e/ou Publicar conteúdos políticos e sociais no Facebook
Variáveis
Qualitativas
Nominal
Ordinal
Quantitativas
Discreta
Contínua
Escalas de Medição
Nominal
Ordinal
Intervalar
Razão
Contagem, %, moda, teste Qui-quadrado, McNemar
Operações Possíveis
Quantis, teste Mann-Whitney, Kruskal-Wallis, correlação de Spearman
Média, Variância, Test t, ANOVA, correlação de pearson
Todas as anteriores, coeficiente de variação, ...
Escala Nominal Escala Ordinal
Muito Bom 5
Bom 4
Regular 3
Ruim 2
Muito Ruim 1
Escala Nominal transformada em Escala Ordinal Escala Intervalar:
Temperatura (Celsius e Farenheit) Escala de Razão: Razão de Prevalência Risco Relativo
Exemplos de Variáveis e suas escalas de medida
Escala Likert Muito usada para medir atitudes e
comportamentos.
Concordo plenamente
Concordo parcialmente
Não concordo nem discordo
Discordo parcialmente
Discordo totalmente
Escala Likert
http://www.netquest.com/blog/br/avancos-tecnologicos-no-mundo-do-software-de-pesquisas/
Técnicas para Medir Validade e Confiabilidade
Sensibilidade e Especificidade;
Razão de Verossimilhança;
Alfa de Cronbach;
Coeficiente Kappa;
Correlação;
Bland&Altman
Coeficiente de correlação intraclasse;
Análise Fatorial;
etc.
Validade
Validade de Conteúdo Quanto um instrumento pode refletir do fenômeno
estudado.
Avalia-se se os itens de um índice composto refletem
um domínio específico de acordo com o constructo
teórico de interesse.
A validação de conteúdo fundamenta-se no respaldo
de especialista em relação ao conteúdo dos índices.
Modelo Teórico
Validade de Constructo
Constructo é um fenômeno ou objeto não
observável, subjetivo e/ou abstrato.
Um método usado para a validação de
constructo é a Análise Fatorial
Validade de Constructo
A validade convergente e a validade discriminante são
consideradas subgrupos da validade do constructo.
Validade convergente comprova que os constructos
esperados estão correlacionados entre si.
Validade discriminante mostra que as medidas de
distintos constructos, pelo mesmo método, mostram
uma baixa correlação.
Validade de Constructo - Exemplo Facebook Análise Fatorial Exploratória
Variável Fator 1 Fator 2 Fator 3 Fator 4 Fator 5
q14_1 0,406 0,124 0,09 0,113 0,759
q14_2 0,795 0,198 0,096 0,182 0,103
q14_6 0,375 0,653 0,096 0,221 0,185
q14_9 0,413 0,658 0,111 0,184 -0,114
q14_4 0,679 0,171 0,119 0,023 0,256
q14_11 -0,121 0,005 -0,049 -0,912 -0,072
q14_3 0,871 0,084 0,046 0,13 0,049
q14_8 0,556 0,375 0,091 0,508 0,014
q14_7 0,508 0,333 0,158 0,483 0,116
q14_10 -0,003 0,876 -0,009 -0,092 0,126
q14_5 0,538 0,469 0,119 0,379 0,01
q6 0,382 -0,095 0,614 -0,04 -0,413
q7 0,074 0,11 0,855 0,135 -0,036
q8 0,022 0,075 0,875 0,024 0,244
Cargas Fatoriais - Matriz Rotacionada (VARIMAX)
Validade Convergente
Correlação entre as variáveis que
pertencem a um mesmo constructo
Modelo de mensuração da comunicação boca a boca no Facebook
CBB – Comunicação boca-a-boca BI - Benefício Interpessoal AE – Autoelevação FLS – Força dos laços sociais
A validade discriminante foi avaliada comparando a raiz quadrada da AVE com as correlações entre os constructos.
A raiz quadrada da AVE em cada variável latente deve ser maior que as correlações entre as variáveis latentes.
CBB FLS BI AE
CBB 0,798
FLS 0,166 0,802
BI 0,572 0,308 0,791
AE 0,361 0,194 0,593 0,805
Raiz quadrada da AVE e correlações entre as variáveis latentes
Validade Discriminante
AVE Variância
Média Extraída
Validade de Constructo - Exemplo Facebook
Validade de Critério
Avalia-se o quanto o resultado de uma medida ou teste
obtido no estudo concorda com o de outro considerado
como padrão-ouro para identificar o constructo de
interesse.
Os Métodos geralmente usados são:
• Sensibilidade e Especificidade
• Curva ROC
• Razão de Verossimilhança
Sensibilidade e Especificidade
Método
Novo
Método Padrão-Ouro Total
Doente Não Doente
Teste
Positivo
Verdadeiro
Positivo
Falso
Positivo P(B)
Teste
Negativo
Falso
Negativo
Verdadeiro
Negativo P(Bc)
Total P(A) P(Ac) 1
Tabela. Possíveis resultados de um teste diagnóstico para identificar uma doença
Sensibilidade
Eventos: D: Ter Doença T+: Teste Positivo Dc: Não ter Doença T-: Teste Negativo Sensibilidade:
É a proporção de verdadeiros-positivos entre todos os doentes.
Avalia a capacidade do teste detectar a doença quando ela está
de fato presente.
)(
)()|(
DP
DTPDTP
Especificidade
Eventos: D: Ter Doença T+: Teste Positivo Dc: Não ter Doença T-: Teste Negativo
Especificidade:
É a proporção de verdadeiros-negativos entre todos os sadios.
Avalia a capacidade do teste afastar a doença quando ela está
ausente.
)(
)()|(
c
cc
DP
DTPDTP
Sensibilidade e Especificidade Observações:
Para rastrear todos os doentes – priorizar sensibilidade; (Ex.
testar HIV em pessoas que vão doar sangue)
Para confirmar diagnóstico – priorizar especificidade; (Ex.
testar se uma pessoa tem HIV, o resultado falso-positivo pode
lesar o paciente emocionalmente)
Um teste muito sensível raramente deixará de diagnosticar
indivíduos com a doença ;
Um teste muito específico raramente classificará como doente
um indivíduo sem a doença.
Sensibilidade e Especificidade Exemplo:
Artigo: Anemia ferropriva em escolares de Campinas, São Paulo: prevalência,sensibilidade e especificidade de testes laboratoriais.
Curva ROC Se
nsi
bili
dad
e
1 - Especificidade
Quanto mais próximo do canto superior esquerdo, melhor será o
poder discriminatório do teste.
Curva ROC – Exemplo:
Artigo: Curva ROC para teste diagnóstico Martinez et al., 2003
Razão de Verossimilhança
• RV+ Expressa quantas vezes é mais provável encontrar um
resultado positivo em pessoas doentes quando comparado às
pessoas não-doentes. Quanto Maior, Melhor.
• RV- Expressa quantas vezes é mais provável encontrar um
resultado negativo em pessoas doentes quando comparado com
pessoas não-doentes. Quanto Menor, Melhor.
dadeEspecifici
adeSensibilidRV
1
dadeEspecifici
adeSensibilidRV
1
Razão de Verossimilhança Exemplo:
Artigo: Anemia ferropriva em escolares de Campinas, São Paulo: prevalência,sensibilidade e especificidade de testes laboratoriais.
045,1877,01
129,0
RV 994,0
877,0
129,01
RV
Gráfico de Bland & Altman
Um gráfico de dispersão relacionando as médias
dos dois métodos (M1 + M2)/2, no eixo X, com o
viés (diferença entre eles), M1 – M2, no eixo Y.
A hipótese do viés ser ou não igual a zero pode
ser testada por um teste t para amostras
pareadas.
Gráfico de Bland & Altman
É importante visualizar se os pontos estão bem distribuídos ao
longo do eixo Y, pois isso vai me mostrar se o erro é maior ou
menor num determinado intervalo de valores, ou se o erro é
generalizado em todos os indivíduos.
IDEAL é ter uma distribuição HOMOGÊNEA.
Gráfico de Bland & Altman Exemplo 1:
O tempo de gestação de 50 mulheres foi estimado através da data da última menstruação (DUM) e pelo ultrassom.
dum: número de semanas de gestação calculado a partir da DUM;
eco_1: número de semanas de gestação calculado a partir do ultrassom obtido após a 20ª semana de gestação;
Gráfico de Bland & Altman Exemplo 1:
Gráfico de Bland & Altman Exemplo 2:
Peso Autorreferido vs Peso Aferido
Neste caso, mesmo com uma diferença de médias perto do zero, observa-se grande variabilidade dos dados (quase ± 8 kg);
Os resultados indicam que a medida autorreferida não é um bom procedimento (é pouco preciso em relação ao peso medido)
Resultado (INTERPRETACAO FINAL): Em média o peso autorreferido foi 0,73 kg menor (IC95% -1,34;-0,12) do que o peso medido, mas os limites de concordância de ± 2DP
(ou de 95% de concordância) oscilaram entre -8,3 e +6,9 kg.
-20
-10
100
Dif
fere
nce
of p
eso
auto
rref
erid
o an
d pe
so a
feri
do
40 60 80 100 120Mean of peso autorreferido and peso aferido
observed average agreement 95% limits of agreement
y=0 is line of perfect average agreement
Confiabilidade
Consistência Interna
Mede a correlação entre diferentes itens em um
mesmo teste na avaliação de um constructo.
Exemplo de constructo :
• satisfação do cliente
Técnica usada:
• Alfa de Cronbach
Alfa de Cronbach
2
1
2
11 t
k
i
i
S
S
k
k
K é o número de itens do questionário
é a variância do item
é a variância total do questionário
2
iS
2
tS
Alfa de Cronbach e AVE Exemplo Facebook
CBB FLS BI AE
Alfa de Cronbach 0,835 0,713 0,879 0,723
AVE 0,637 0,644 0,626 0,648
Os instrumentos avaliados neste estudo apresentaram
coeficientes do Alfa de Cronbach superiores a 0,7 em todas as
dimensões e AVE maiores que 0,5, tornando-o satisfatório e
com boa consistência interna.
Coeficientes das variáveis latentes
Variância Média Extraída - AVE Uma medida complementar da confiabilidade
Ela reflete a variância total das variáveis observadas explicada pela variável latente.
Bons valores para um constructo devem ser iguais ou acima de 0,50 (Garver & Mentzer, 1999).
k
i
i
k
i
i
k
i
i
AVE2
2
é a carga fatorial padronizada da variável i
Ei é o erro de mensuração da variável i.
i
Confiabilidade Intra-Observador
Consiste na aplicação de um mesmo instrumento duas vezes em um intervalo de tempo razoável.
Tem como pressuposto que as aplicações são independentes.
Coeficiente de Correlação de Pearson.
Coeficiente de Concordância Kappa
Confiabilidade Interobservador
Dois ou mais observadores diferentes aplicam o instrumento no mesmo grupo de indivíduos. A ideia básica é comparar a concordância das medidas
Métodos usados:
• Coeficiente de Concordância Kappa
• Coeficiente de Correlação intraclasse
Confiabilidade Interobservador
Observador 1
Observador 2
+ - Total
+ a b p1
- c d q1
Total p2 q2 N
Quando discordam, contribui:
Variabilidade do observador
Variabilidade entre indivíduos
Erro aleatório
Sua avaliação mais simples é a proporção dos que se encontram na diagonal
principal. N
d
N
apo
Coeficiente de Concordância Kappa
“Coeficiente Kappa é a proporção de concordância depois que a concordância pelo
acaso é removida de consideração.”
e
eo
p
ppk
1
Onde:
p0 = proporção global de concordância observada
pe = proporção global de concordância esperada pelo acaso
k 0,80 : é considerado excelente. K = 0,60 – 0,79 : é considerado bom. K = 0,40 – 0,59 : é considerado regular. k 0,39 : é considerado ruim
Características do Coeficiente de Concordância Kappa
Pressupostos:
• independência entre os observados;
• independência entre os observadores;
• independência entre as categorias da escala nominal (mutuamente exclusiva);
• observadores são considerados igualmente competentes.
Trata todas as discordâncias como idênticas, não considerando o afastamento da diagonal principal.
Coeficiente de Concordância Kappa
e
eo
p
ppk
1
Teste de Hipóteses
H0: k= 0
H1: k 0
l
i
iiii
ee
e
CRn
CRpp
npks
13
2
21
1
2
1~ ks
kEstatística de Teste:
Ri é o total da linha i Ci é o total da coluna i n é o total geral
Exemplo
Informação do
paciente
Prontuário médico
Sim Não Total
Sim 14 7 21
Não 25 171 196
Total 39 178 217
%25,858525,0217
171
217
14op
%83,757583,0217
196
217
178
217
21
217
39
ep
39,07583,01
7583,08525,0
k
Retirando o efeito do acaso a confiabilidade do teste é de 39%.
Concordância entre entrevista pessoal e informação no prontuário médico relativa ao uso de um medicamento
Coeficiente Kappa Ponderado Usado quando a medida avaliada é mensurada em
uma escala ordinal.
Algumas discordâncias são mais graves que outras!
Assim, no coeficiente Kappa o grau de concordância
é ajustado pela gravidade dos casos discordantes, a
partir do estabelecimento de pesos entre 0
(discordância total) e 1 (não tem discordância).
Os pesos são arbitrários.
Coeficiente Kappa Ponderado Exemplo de Tabela de Pesos
Nível Nível
1º 2º 3º 4º
1º 1 0,667 0,333 0,000
2º 0,667 1 0,667 0,333
3º 0,333 0,667 1 0,667
4º 0,000 0,333 0,667 1
Coeficiente de Correlação Intraclasse ICC
Uma alternativa ao Kappa quando há mais de dois avaliadores
e opções de resposta.
Varia entre 0 e 1. Quanto mais próximo de 1, mais confiável.
Proporção da variabilidade total que é devida à variabilidade
entre as unidades.
22
2
de
eICC
Intraclass Correlation Coefficient
é a variabilidade entre unidades
é a variabilidade intra unidades.
2
e2
d
Coeficiente de Correlação Intraclasse ICC
Ultrassonografia
Indivíduos Clínica 1 Clínica 2 Clínica 3
1
2
3
4
5
6
7
Coeficiente de Correlação Intraclasse
OBS: Quando há apenas duas mensurações para cada unidade de análise, o ICC é interpretado como o Grau de afastamento dos pontos em relação à reta de 45º
(Y=X)
Exemplos
• Artigo 1: Confiabilidade das aferições de estudo sobre violência familiar e desnutrição severa na Infância.
• Artigo 2: Reprodutibilidade de instrumentos utilizados em um levantamento epidemiológico conduzido para investigar uso e avaliação dos serviços odontológicos, comportamentos e condições subjetivas de saúde
Bibliotecas no R
install.packages("ICC")
install.packages("psy")
install.packages("BlandAltmanLeh")
Comandos
Referencias
• Monteiro GTR, Hora HRM. Pesquisa em Saúde Pública. Como desenvolver e validar Instrumentos de Coleta de Dados.
• http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/multivariate/item-and-cluster-analyses/what-is-internal-consistency/
• Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics
• HASSEKMANN Maria Helena, Claudia S. Lopes e Michael E. Reichenheim Confiabilidade das aferições de estudo violência familiar e desnutrição severa na Infância. Rev. Saúde Pública 32 (5), 1998.