Impacto de especi car incorrectamente la distribuci on de ...
Transcript of Impacto de especi car incorrectamente la distribuci on de ...
Impacto de especificarincorrectamente la distribucion de los
efectos aleatorios en los modeloslineales generalizados mixtos: caso
Poisson y Binomial Negativa
Diana Marıa Arango Botero
Universidad Nacional de Colombia
Sede Medellın
Facultad de Ciencias
Escuela de Estadıstica
Medellın, Colombia
2016
Impacto de especificarincorrectamente la distribucion de los
efectos aleatorios en los modeloslineales generalizados mixtos: caso
Poisson y Binomial Negativa
Diana Marıa Arango Botero
Trabajo presentado como requisito parcial para optar al tıtulo de:
Magıster en Estadıstica
Director:
Freddy Hernandez Barajas, Ph.D. en Estadıstica
Universidad Nacional de Colombia
Sede Medellın
Facultad de Ciencias
Escuela de Estadıstica
Medellın, Colombia
2016
Don’t let your dreams, be dreams!
Agradecimientos
Cuando la gratitud es tan absoluta las palabras sobran (Alvaro Mutis).
Supongo que hizo referencia a dicha frase porque en lugar de pronunciar su gratitud con
las palabras, lo hacıa a traves de una mirada, de una sonrıa, de algun gesto caracterıstico,
en fin. . .
Aunque tambien ya lo he hecho de la misma manera, pienso que de ninguna forma las
palabras sobran y por eso quiero expresar mis profundos agradecimientos a:
Mi director, porque con su apoyo, paciencia y ensenanzas, finalmente pude completar este
trabajo de investigacion.
Mi familia, porque con su presencia, justifican este paso y muchos mas por dar.
La Universidad Nacional de Colombia y a todos los integrantes que participaron en los
procesos academicos y administrativos para hacer esto posible.
La Fundacion Juan Pablo Gutierrez Caceres, porque gracias a ellos es que hoy puedo decir
que la confianza que depositaron en mı, al concederme la beca – credito, no fue en vano.
Los companeros y jefes que hacen parte del Instituto Tecnologico Metropolitano, por brin-
darme la oportunidad de sumergirme aun mas en este cuento de la investigacion.
Al amor, hecho persona.
ix
Resumen
Los modelos lineales generalizados mixtos extienden los modelos lineales al considerar
variables de respuesta, cuya funcion de densidad de probabilidad provienen de cualquiera
de las distribuciones pertenecientes a la familia exponencial (Normal, Poisson, Gamma,
Binomial, Beta, entre otras), y tambien permiten considerar la inclusion de efectos aleato-
rios. La estimacion de los parametros fijos en dichos modelos se basa principalmente en la
funcion de maxima verosimilitud, en donde se suponen que las asunciones sobre el modelo
son correctas. Una de estas asunciones radica en la especificacion de la distribucion de
los efectos aleatorios. En la literatura estadıstica algunos autores han abordado los efectos
de la incorrecta especificacion de dicha distribucion en los modelos lineales generalizados
mixtos con respuesta normal y binaria (Neuhaus et al. 1992, Heagerty & Kurland 2001,
Neuhaus & McCulloch 2006, Litiere et al. 2007, Komarek & Lesaffre 2008, Huang 2009,
Neuhaus & McCulloch 2011b), pero han sido pocos los trabajos en los que se han analiza-
do modelos lineales generalizados mixtos con respuesta Poisson (Fabio et al. 2012, Milanzi
et al. 2012, Cook et al. 2007) y con respuesta Binomial Negativa (Kondo et al. 2015, Zhao
et al. 2014). A traves de un estudio de simulacion, en donde se consideraron diferentes
distribuciones para los efectos aleatorios en modelos lineales generalizados mixtos, con una
variable de respuesta Poisson y Binomial Negativa, se logro identificar el impacto de espe-
cificar incorrectamente dicha distribucion. El impacto en la estimacion de los parametros
fijos y en los componentes de varianza de los efectos aleatorios se evaluo en terminos de la
distancia relativa, presentandose los mayores valores para los componentes de varianza en
general y al ajustar modelos de intercepto y pendiente aleatoria. Respecto al impacto de
la especificacion incorrecta sobre los errores tipo I y potencia de la prueba de Wald, dicho
impacto fue determinado mediante las tasas de rechazo de las hipotesis de no efecto de los
parametros evaluados, obteniendose las mayores tasas cuando la verdadera distribucion fue
la lognormal en el caso de modelos con intercepto aleatorio y Tukey bivariada, para los de
intercepto y pendiente aleatoria.
Palabras clave: Modelos lineales generalizados mixtos, especificacion incorrecta, efectos aleato-
rios, error tipo I, potencia estadıstica, prueba de Wald.
Abstract
The generalized linear mixed models extend the linear models to consider response va-
riables, whose probability density function derive from any of the distributions belonging
to the exponential family (Normal, Poisson, Gamma, Binomial, Beta, etc.), and also allow
consider the inclusion of random effects. The estimation of fixed parameters in these mo-
dels is mainly based on the maximum likelihood function, where it is assumed that the
x
assumptions of the model are correct. One of these assumptions is in the specification of
the distribution of random effects. In the statistical literature some authors have addressed
the effects of misspecification of such distribution in generalized linear mixed models with
normal and binary response (Neuhaus et al. 1992, Heagerty & Kurland 2001, Neuhaus
& McCulloch 2006, Litiere et al. 2007, Komarek & Lesaffre 2008, Huang 2009, Neuhaus
& McCulloch 2011b), but there have been few jobs that have analyzed generalized linear
mixed models with Poisson response (Fabio et al. 2012, Milanzi et al. 2012, Cook et al.
2007) and with Negative Binomial response (Kondo et al. 2015, Zhao et al. 2014). Through
a simulation study, where different distributions were considered for the random effects
in the generalized linear mixed models, with a Poisson and Negative Binomial response
variable, the impact of misspecification of such distribution was identified. The impact on
the estimation of the fixed parameters and on the variance components of the random
effects was evaluated in terms of the relative distance, presenting the highest values for
the components of variance in general and adjusting random intercept and slope models.
Regarding the impact of the incorrect specification on Type I rates and power for the
Wald-test, this impact was determined by the rejection rates of the non-effect hypothesis
of the evaluated parameters, obtaining the highest rates when the true distribution was
the Lognormal in the case of random intercept models and Tukey bivariate, for those of
random intercept and slope.
Keywords: Generalized linear mixed models, misspecification, random effects, type I error, sta-
tistical power, Wald-test.
Contenido
Agradecimientos VII
Resumen IX
1 Introduccion 1
2 Marco teorico 3
2.1 Modelos lineales generalizados mixtos . . . . . . . . . . . . . . . . . . . . . 3
2.2 Distribucion Poisson y Binomial Negativa . . . . . . . . . . . . . . . . . . 5
2.3 Inferencias en los GLMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4 Prueba de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5 Estimacion de los parametros fijos . . . . . . . . . . . . . . . . . . . . . . . 8
2.6 Error tipo I y potencia en las pruebas de hipotesis . . . . . . . . . . . . . . 13
2.7 Ejemplos con datos reales en donde los efectos aleatorios no son normales . 16
2.7.1 Onicomicosis por dermatofito en la una del dedo del pie . . . . . . . 16
2.7.2 Datos de la vivienda en Boston . . . . . . . . . . . . . . . . . . . . 16
2.7.3 Actividad enzimatica . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.7.4 Crecimiento de la distancia de ortodoncia en ninos y ninas . . . . . 17
2.7.5 Niveles de colesterol – Estudio de Framingham . . . . . . . . . . . . 17
2.7.6 Esquizofrenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3 Estudio de simulacion 19
3.1 Impacto sobre la estimacion de los parametros fijos . . . . . . . . . . . . . 19
3.1.1 Modelos Poisson y Binomial Negativa con intercepto aleatorio . . . 19
3.1.2 Modelos Poisson y Binomial Negativa con intercepto y pendiente
aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 Impacto sobre el error tipo I y la potencia de la prueba de Wald . . . . . . 23
3.2.1 Modelos GLMM con intercepto aleatorio y variable respuesta Poisson
y Binomial Negativa . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.2 Modelos GLMM con intercepto y pendiente aleatoria y variable de
respuesta Poisson y Binomial Negativa . . . . . . . . . . . . . . . . 25
xii Contenido
4 Resultados del estudio de simulacion 27
4.1 Impacto sobre la estimacion de los parametros . . . . . . . . . . . . . . . . 27
4.1.1 Resultados para el caso de modelos con intercepto aleatorio . . . . . 27
4.1.2 Resultados para el caso de modelos con intercepto y pendiente aleatoria 32
4.2 Impacto sobre los errores tipo I y la potencia de la prueba de Wald . . . . 40
4.2.1 Resultados para los modelos GLMM con intercepto aleatorio . . . . 40
4.2.2 Resultados para los modelos GLMM con intercepto y pendiente alea-
toria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5 Conclusiones 47
5.1 Impacto de la especificacion incorrecta sobre la estimacion de los parametros 47
5.2 Impacto de la especificacion incorrecta sobre los errores tipo I y potencia de
la prueba de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.3 Trabajos a futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Bibliografıa 51
Lista de Tablas
2-1. Metodos de estimacion en los GLMM . . . . . . . . . . . . . . . . . . . . . . 7
2-2. Capacidades de los diferentes paquetes de software para el analisis de GLMM . . 15
3-1. Datos simulados del modelo mixto Poisson con m = 100, ni = 6, σ2b = 4 e
intercepto aleatorio normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3-2. Hipotesis de interes y valores de β2 usados para las simulaciones de modelos
GLMM con intercepto aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . 25
3-3. Hipotesis de interes y valores de los parametros usados en las simulaciones de
modelos GLMM Poisson y BN con intercepto y pendiente aleatoria . . . . . . . 26
Lista de Figuras
3-1. Distribuciones consideradas para el intercepto aleatorio: normal, mezcla de
normales, uniforme y lognormal, con media igual a 0 y varianza igual a 2. . 21
3-2. Contornos de las distribuciones consideradas para el intercepto y pendien-
te aleatoria: normal bivariada, t-student bivariada, exponencial bivariada y
Tukey bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4-1. Mediana de las distancias relativas para β0 en un GLMM Poisson con inter-
cepto aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4-2. Mediana de las distancias relativas para β1 en un GLMM Poisson con inter-
cepto aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4-3. Mediana de las distancias relativas para σ2b en un GLMM Poisson con inter-
cepto aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4-4. Mediana de las distancias relativas para β0 en un GLMM BN con intercepto
aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4-5. Mediana de las distancias relativas para β1 en un GLMM BN con intercepto
aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4-6. Mediana de las distancias relativas para σ2b en un GLMM BN con intercepto
aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4-7. Mediana de las distancias relativas para β0 en un GLMM Poisson con inter-
cepto y pendiente aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4-8. Mediana de las distancias relativas para β1 en un GLMM Poisson con inter-
cepto y pendiente aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4-9. Mediana de las distancias relativas para β2 en un GLMM Poisson con inter-
cepto y pendiente aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4-10.Mediana de las distancias relativas para σ2b0i
en un GLMM Poisson con
intercepto y pendiente aleatoria . . . . . . . . . . . . . . . . . . . . . . . . 35
4-11.Mediana de las distancias relativas para σ2b1i
en un GLMM Poisson con
intercepto y pendiente aleatoria . . . . . . . . . . . . . . . . . . . . . . . . 35
4-12.Mediana de las distancias relativas para β0 en un GLMM BN con intercepto
y pendiente aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4-13.Mediana de las distancias relativas para β1 en un GLMM BN con intercepto
y pendiente aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
xvi Lista de Figuras
4-14.Mediana de las distancias relativas para β2 en un GLMM BN con intercepto
y pendiente aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4-15.Mediana de las distancias relativas para σ2b0i
en un GLMM BN con intercepto
y pendiente aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4-16.Mediana de las distancias relativas para σ2b1i
en un GLMM BN con intercepto
y pendiente aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4-17.Errores tipo I y potencia - test de Wald en un GLMM Poisson con intercepto
aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4-18.Errores tipo I y potencia - test de Wald en un GLMM BN con intercepto
aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4-19.Errores tipo I y potencia - test de Wald para H0: β1 = 0 en un GLMM
Poisson con intercepto y pendiente aleatoria . . . . . . . . . . . . . . . . . 43
4-20.Errores tipo I y potencia - test de Wald para H0: β2 = 0 en un GLMM
Poisson con intercepto y pendiente aleatoria . . . . . . . . . . . . . . . . . 44
4-21.Errores tipo I y potencia - test de Wald para H0: β1 = 0 en un GLMM BN
con intercepto y pendiente aleatoria . . . . . . . . . . . . . . . . . . . . . . 45
4-22.Errores tipo I y potencia - test de Wald para H0: β2 = 0 en un GLMM BN
con intercepto y pendiente aleatoria . . . . . . . . . . . . . . . . . . . . . . 46
1 Introduccion
En los modelos lineales generalizados mixtos es comun que se asuma la distribucion normal
para la distribucion de los efectos aleatorios, pero ¿que pasarıa si se cambian los supuestos
de normalidad sobre dicha distribucion? En la literatura estadıstica algunos autores han
abordado los efectos de la especificacion incorrecta de la distribucion de los efectos aleato-
rios en los modelos lineales generalizados mixtos con respuesta normal y binaria (Neuhaus
et al. 1992, Heagerty & Kurland 2001, Neuhaus & McCulloch 2006, Litiere et al. 2007,
Komarek & Lesaffre 2008, Huang 2009, Neuhaus & McCulloch 2011b), pero han sido po-
cos los trabajos en los que se han analizado modelos lineales generalizados mixtos con
respuesta Poisson (Fabio et al. 2012, Milanzi et al. 2012, Cook et al. 2007) y con respuesta
Binomial Negativa (Kondo et al. 2015, Zhao et al. 2014). Por lo anterior, el objetivo de
este trabajo de investigacion es el de identificar el impacto de la especificacion incorrecta
de la distribucion de los efectos aleatorios tanto en las estimaciones de los parametros fijos
y los componentes de varianza, como en los errores tipo I y la potencia estadıstica de la
prueba de Wald en modelos lineales generalizados mixtos.
Para llevar a cabo dicho objetivo, este trabajo considera los siguientes capıtulos. En el
capıtulo dos se presenta el marco teorico, el cual incluye una breve descripcion de los
modelos lineales generalizados mixtos, sus metodos de inferencia, algunas funciones y pa-
quetes de software para ajustarlos, una revision de literatura con los principales aportes
de investigadores y academicos frente al problema de la especificacion incorrecta de la dis-
tribucion de los efectos aleatorios en algunos procedimientos inferenciales relacionados con
la estimacion de los parametros fijos y pruebas de hipotesis asociadas a estos; ademas de
presentar algunos ejemplos de casos reales en donde se ha demostrado la no normalidad
de los efectos aleatorios. En el capıtulo tres se describe el estudio de simulacion realizado
para determinar el impacto de especificar incorrectamente la distribucion de los efectos
aleatorios en modelos lineales generalizados mixtos con respuesta Poisson y Binomial Ne-
gativa sobre: 1)la estimacion de los parametros fijos y 2) el error tipo I y potencia del
test estadıstico de Wald. En el capıtulo cuatro se presentan los principales resultados del
estudio de simulacion y finalmente en el capıtulo cinco se establecen las conclusiones del
trabajo de investigacion.
2 Marco teorico
En este capıtulo se presenta una breve descripcion de los modelos lineales generalizados
mixtos y una revision de literatura que abarca los principales aportes de investigadores
respecto al impacto de la especificacion incorrecta de la distribucion de los efectos aleatorios
tanto en la estimacion de los parametros fijos como en algunos procedimientos inferenciales
de prueba de hipotesis sobre dichos parametros.
2.1. Modelos lineales generalizados mixtos
Suponga que el resultado de un proceso se denota por una variable aleatoria Y , llamada
variable dependiente (o de estudio), y que la media de esta depende de p variables inde-
pendientes (o explicativas) denotadas por X1, ..., Xp. Suponga que el comportamiento de
Y se puede explicar por una relacion lineal dada por:
Yi = β0 +X1iβ1 + ...+Xpiβp + εi, i = 1, ..,m (2-1)
El modelo (2-1) se llama modelo de regresion lineal multiple. Se necesitan algunos supuestos
sobre dicho modelo para la elaboracion de las inferencias estadısticas. Para este proposito,
se supone que: εi ∼ N(0, σ2), para cada i = 1, ...,m, E(εiεj) = 0, para todo i 6= j y las
variables Xi son linealmente independientes entre sı (no hay colinealidad).
El Modelo Lineal Generalizado (GLM, por sus siglas en ingles), formulado por Nelder &
Wedderburn (1972), extiende el modelo de regresion lineal, en el sentido de que permite:
i) Modelar variables respuesta discretas. GLM asume que la variable respuesta tiene una
distribucion de probabilidad que pertenece a la llamada familia exponencial de distribu-
ciones. Por ejemplo, las distribuciones Normal, Bernoulli, Binomial Negativa, Multinomial,
Ji-cuadrada, Beta, Binomial y Poisson pertenecen a la familia exponencial (Fitzmaurice
et al. 2011) y ii) Trabajar con funciones de enlace diferentes a la funcion identidad (McCu-
llagh & Nelder 1989). La funcion de enlace es aquella funcion que aplica una transformacion
a la media y luego vincula las covariables, a traves del predictor lineal, a la media transfor-
mada de la distribucion de las respuestas (Fitzmaurice et al. 2011). La principal motivacion
4 2 Marco teorico
para considerar funciones de enlace distintas de la identidad es asegurar que el predictor
lineal produzca predicciones de la respuesta media que estan dentro del rango permitido.
Los modelos lineales mixtos (LMM, por sus siglas en ingles) son ampliamente usados en
aplicaciones estadısticas en biologıa, agricultura, sociologıa, y medio ambiente, donde infor-
macion correlacionada es recolectada frecuentemente (Huang 2011). Incluyendo los efectos
aleatorios en un modelo estadıstico se obtiene una forma matematicamente elegante para
caracterizar diferentes estructuras de correlacion en los datos tales como medidas repeti-
das, datos correlacionados espacialmente en geoestadıstica y observaciones multivariadas
(Huang 2013).
Sea Yi = (Yi1, ..., Yini)> el i− esimo vector respuesta observado, para i = 1, ...,m. Un LMM
consiste de dos modelos de componentes. El primer modelo de componente es un modelo
condicional de Yi dado las covariables, los efectos fijos, y los efectos aleatorios,
Yi = Xiβ + Zibi + εi, (2-2)
donde β es el vector p-dimensional de efectos fijos, bi es el vector q dimensional de efectos
aleatorios, Xi y Zi son matrices de diseno ni× p y ni× q para los efectos fijos y los efectos
aleatorios, respectivamente, y se asume que εi ∼ N(0ni×1,∑
i), independientes de bi, con la
matriz ni×ni de varianza-covarianza∑
i. El segundo modelo de componente es un modelo
para bi, con densidad fb(bi;∑
b), donde∑
b incluye los componentes de varianza y otros
parametros necesarios en el modelo de efectos aleatorios (Huang 2013).
Las estructuras autorregresivas de correlacion y los datos faltantes no favorecen el uso del
modelo lineal ordinario ANOVA para medidas repetidas. Dos procedimientos propuestos
para hacer frente a estos problemas implican el uso de modelos lineales generalizados mixtos
(GLMM, por sus siglas en ingles) o una solucion de ecuaciones de estimacion generalizadas
(GEE, por sus siglas en ingles) (Overall & Tonidandel 2004).
Los GLMM amplıan la regresion ordinaria al permitir respuestas no normales (Lin 2010)
y la inclusion de efectos aleatorios al predictor lineal (Neuhaus & McCulloch 2011b). Un
ejemplo de esto es el estudio de Noe et al. (2010), en donde se considera un GLMM para
el analisis de datos de conteo, asumiendo una variable respuesta Poisson. Ademas, los
GLMM son comunmente usados en los estudios de medidas repetidas y dan cuenta de
la dependencia entre las observaciones obtenidas de la misma unidad experimental (Melo
et al. 2009). Los disenos de medidas repetidas en el que cada unidad experimental (por
ejemplo, sujeto) es probado en mas de una condicion experimental son muy comunes en
psicologıa, las neurociencias, la medicina, las ciencias sociales, y la investigacion agrıcola
(Oberfeld & Franke 2013).
De igual forma que los modelos lineales generalizados, los GLMM pueden ser formulados
2.2 Distribucion Poisson y Binomial Negativa 5
usando una especificacion de tres partes (Fitzmaurice et al. 2011), en donde Yij representa
la j-esima variable respuesta de interes (j = 1, 2, ..., ni) dentro del conglomerado i (i =
1, 2, ...,m):
1. La distribucion condicional de cada Yij, dado un vector q×1 de efectos aleatorios bi,
pertenece a la familia exponencial de distribuciones (Binomial, Binomial Negativa,
Poisson, Normal, Gamma, entre otras). La V ar(Yij|bi) = φυ(E(Yij|bi)), donde υ(·) es
una funcion conocida para la varianza, una funcion de la media condicional, E(Yij|bi)y φ es un parametro escalar que puede ser conocido o ser necesario estimarlo. En
adicion, dado los efectos aleatorios bi, se asume que los Yij son independientes entre
sı, lo cual es la asuncion de independencia condicional.
2. La media condicional de Yij, que depende de los efectos fijos β y los efectos aleatorios
bi, se relaciona con el predictor lineal ηij, vıa la aplicacion de una funcion de enlace
conocida, g(·), la cual es monotona y diferenciable (Gad & El Kholy 2012), de la
siguiente manera:
g{E(yij|bi,xij, zij)} = ηij = x′ijβ + z′ijbi (2-3)
donde xij y zij son dos vectores de covariables p+1 dimensionales y q dimensionales,
respectivamente.
Aunque cualquier funcion puede ser escogida para g(·), cada distribucion que perte-
nece a la familia exponencial tiene una funcion de enlace especial llamada funcion de
enlace canonica. La funcion de enlace canonica es definida como esa funcion g(·) tal
que
g{E(yij)} = θi, (2-4)
donde θi es el parametro de localizacion canonico.
3. En principio, cualquier distribucion multivariada puede ser asumida para los bi. En
la practica, es comun asumir que los bi tienen una distribucion normal multivariada,
con media cero y matriz de covarianza D de dimensiones q × q. Adicionalmente los
efectos aleatorios bi se asumen independientes de las covariables Xi.
2.2. Distribucion Poisson y Binomial Negativa
Dentro de la familia exponencial, como ya se menciono anteriormente, se encuentran
las distribuciones Poisson y Binomial Negativa (BN). En este apartado se profundi-
6 2 Marco teorico
zara sobre cada una de ellas, debido a que son las distribuciones consideradas en el
estudio de simulacion.
La distribucion Poisson, sobre la que la regresion Poisson esta basada, se origina
desde el trabajo de Simeon Poisson (1781-1840; citado por Hilbe 2011). El, primero
introdujo la distribucion como un caso lımite de la binomial en su “Research on the
Probability of Judgments in Criminal and Civil Matters” (1838).
Una variable aleatoria X tiene distribucion Poisson con media λ > 0, si la distribucion
de masa de probabilidad es como sigue (DeGroot & Schervish 1988):
f(x|λ) =e−λλx
x!para x = 0, 1, 2, ... (2-5)
donde E(X) = λ y V ar(X) = λ.
La Binomial Negativa tradicional se deriva de una mezcla de distribucion Poisson-
Gamma. Pero tal mezcla de distribuciones es solo una de las maneras en la que la
funcion de masa de probabilidad de la BN puede ser definida. La caracterıstica in-
teresante de esta parametrizacion es que permite modelar la heterogeneidad de la
Poisson (Hilbe 2011). Como se detallo anteriormente, la media y la varianza de la
Poisson son iguales. Cuanto mayor es el valor de la media, mayor es la variabilidad
de los datos, medido por la varianza estadıstica. Esta caracterıstica de los datos se
denomina equidispersion y es un supuesto de la distribucion de los datos de Poisson.
Inherente a esta suposicion esta el requisito de que los conteos sean independientes
unos de otro. Cuando no es ası, las propiedades de la distribucion Poisson son vio-
ladas, lo que resulta en extra-dispersion. La media y la varianza ya no pueden ser
identicas. La forma de extra-dispersion es casi siempre una de sobredispersion. Es
decir, la varianza es mayor, en valor, que la de la media. El modelo BN, como un
modelo de mezcla Poisson-gamma, es apropiado de utilizar cuando la sobredispersion
en un modelo de Poisson esta presente (Hilbe 2011). Es ası, como la distribucion BN
depende de un parametro extra comparado con la distribucion Poisson, el cual per-
mite que la sobredispersion sea tenida en cuenta. Este parametro es denotado con
la letra α(α > 0) y entre mas grande sea su valor, mayor sera la sobredispersion. El
modelo de Poisson corresponde a un α = 0.
La funcion de masa de probabilidad de la BN esta dada por:
f(x|µ, α) =
(x+ 1
α− 1
1α− 1
)(1
1 + αµ
) 1α(
αµ
1 + αµ
)x(2-6)
donde E(X) = µ y V ar(X) = µ+ αµ2, con µ > 0 y α > 0.
2.3 Inferencias en los GLMM 7
2.3. Inferencias en los GLMM
Los efectos sujeto-especıficos bi se asumen con frecuencia que se distribuyen como
una normal con media cero y matriz de varianza-covarianza D. El ajuste del modelo
requiere maximizacion de la verosimilitud marginal, la cual es obtenida integrando
sobre los efectos aleatorios.
La eleccion de la distribucion normal para estos efectos aleatorios generalmente con-
duce a funciones de verosimilitud intratables, con la excepcion del modelo lineal mixto
(LMM, por sus siglas en ingles), en donde la variable de respuesta tiene una distri-
bucion normal (Alonso et al. 2008). En respuesta, varias aproximaciones numericas a
la verosimilitud se han implementado en los paquetes de software disponibles (Tabla
2-1)
Tabla 2-1: Metodos de estimacion en los GLMM
Metodos para la
estimacion de los
parametros en
GLMM
Ventajas Desventajas Paquetes computacionales
Cuasi-
verosimilitud
penalizada (PQL)
Flexible,
imple-
mentada
ampliamen-
te
inferencia de la ve-
rosimilitud puede ser
inapropiada; sesgo para
varianzas grandes o me-
dias pequenas
PROC GLIMMIX (SAS), GLMM
(GenStat), glmmPQL (R:MASS),
ASREML-R
Aproximacion de
Laplace
Mejor apro-
ximacion
que PQL
Mas lenta y menos flexi-
ble que PQL
glmer (R:lme4,lme4a), glmm.admb
(R:glmmADMB), AD Model Buil-
der, HLM
Cuadratura
Gauss-Hermite
Mejor apro-
ximacion
que Laplace
Mas lenta que Laplace;
limitada a 2-3 efectos
aleatorios
PROC NLMIXED (SAS),
glmer (R:lme4, lme4a), glmmML
(R:glmmML), xtlogit (Stata)
Cadenas de Mar-
kov de Monte
Carlo
Altamente
flexibles,
numero
arbitrario
de efectos
aleatorios
Muy lento, tecnicamen-
te desafiante, marco de
referencia bayesiano
MCMCglmm (R:MCMCglmm),
MCMCpack (R),
WinBUGS/OpenBUGS
(R:BRugs/R2WinBUGS), JAGS
(R:rjags/R2jags), AD Model
Builder (R:R2admb), glmm.admb1
(R:glmmADMB)
Fuente: Adaptado de Bolker et al. (2009)
8 2 Marco teorico
2.4. Prueba de Wald
En muchas situaciones, los analistas de datos consideran las estadısticas de prueba
y los valores p correspondientes para evaluar, por ejemplo, si un farmaco tiene o
no una influencia significativa. A pesar de que la consistencia ha sido estudiada
hasta cierto punto en la literatura, no parece haber mucha investigacion sobre el
comportamiento de las estadısticas de prueba (Litiere et al. 2008). Por tanto, uno
de los objetivos de este trabajo de investigacion consiste en estudiar el impacto de
la especificacion incorrecta de la distribucion de los efectos aleatorios sobre el error
tipo I y la potencia del test estadıstico de Wald en los modelos lineales generalizados
mixtos, con respuesta Poisson y Binomial Negativa, con intercepto e intercepto y
pendiente aleatorias.
La prueba estadıstica de Wald, que sirve para probar una hipotesis de tipo H0 : β = 0
vs H1 : β 6= 0, fue establecida de la forma (LeBeau 2013):
Z =β − βSE(β)
(2-7)
Donde β es la estimacion del parametro, β es el valor del parametro real y SE es el
error estandar empırico calculado del modelo ajustado. El test estadıstico de Wald
se asume que sigue una distribucion normal estandar.
2.5. Estimacion de los parametros fijos
La estimacion de los parametros de un modelo estadıstico es un paso clave en la ma-
yorıa de los analisis estadısticos. Para los GLMM, estos parametros son los parametros
de efectos fijos (efectos de las covariables, diferencias entre los tratamientos e inter-
acciones) y los parametros de las componentes de varianza de los efectos aleatorios
(las desviaciones estandar de los efectos aleatorios) (Bolker et al. 2009).
La estimacion en modelos lineales generalizados mixtos para datos longitudinales no
gaussianos a menudo se basa en la teorıa de maxima verosimilitud, la cual supone
que el modelo de probabilidad subyacente se ha especificado correctamente (Alonso
et al. 2008); pero no siempre es el caso. Neuhaus & McCulloch (2011a) consideran
dos enfoques populares para la estimacion de los parametros fijos vıa maxima vero-
similitud (condicional y marginal). La estimacion y las inferencias basadas en estos
enfoques dependen de la suposicion de que la estructura de los efectos aleatorios
esta correctamente especificada (Alonso et al. 2008, Molenberghs & Verbeke 2005).
2.5 Estimacion de los parametros fijos 9
En la clase general de modelos de efectos mixtos (incluyendo modelos de efectos mix-
tos generalizados), se hace un supuesto especıfico sobre la distribucion parametrica
para los efectos aleatorios (por ejemplo, gamma, normal), ya sea por razones conven-
cionales (Tsonaka et al. 2010) o por consideraciones computacionales (Litiere et al.
2007). Sin embargo, a menudo hay poca informacion acerca de la forma de la distri-
bucion conjunta de los efectos aleatorios, de modo que el supuesto de la distribucion
para estos efectos aleatorios no observados no se puede evaluar directamente (Xiang
et al. 2012) y por esta razon, una preocupacion natural en el uso de GLMM es la
especificacion incorrecta del modelo para los efectos aleatorios (Huang 2009).
En un modelo de regresion pueden aparecer diferentes tipos de especificaciones inco-
rrectas, algunas de los cuales son mas difıciles de detectar que otras (Spiessens et al.
2002). Aunque la especificacion incorrecta de la distribucion de los efectos aleatorios
puede afectar gravemente la estimacion y los procedimientos inferenciales en GLMM,
otros tipos de especificaciones incorrectas de la estructura de los efectos aleatorios
tambien son importantes (Alonso et al. 2008). Por ejemplo, McCulloch & Neuhaus
(2011) identifican otros dos aspectos de la especificacion incorrecta: la distribucion
de los efectos aleatorios puede depender de una covariable y la dependencia de la
distribucion de los efectos aleatorios sobre el tamano de muestra del conglomerado.
Otros tipos de especificaciones incorrectas tambien son posibles: la especificacion in-
correcta de la funcion de enlace, no tener en cuenta la presencia de sobredispersion,
etcetera.
En los modelos lineales generalizados mixtos, la distribucion de los efectos aleatorios
usualmente se asume normal (Alonso et al. 2010) y esta distribucion es frecuentemen-
te usada en los paquetes de software populares como SAS, Stata y R (McCulloch &
Neuhaus 2011). Aunque la hipotesis de normalidad para los efectos aleatorios a menu-
do se da por sentada, es importante darse cuenta que, dado que los efectos aleatorios
son cantidades hipoteticas latentes no observables, este supuesto no se puede evaluar
directamente, y no parece haber un consenso general sobre el impacto de especifi-
car incorrectamente la distribucion de los efectos aleatorios (Verbeke & Molenberghs
2013).
A nivel nacional, ha habido cierto interes por estudiar el impacto sobre las estima-
ciones de los parametros en los modelos lineales mixtos cuando no se cumplen los
supuestos de normalidad en la componente aleatoria. Valencia (2010), por ejemplo,
resalta la importancia de determinar los efectos en las estimaciones del modelo lineal
mixto, dado la procedencia de distribuciones diferentes de la normal para el error y el
efecto aleatorio; y ademas, propone una alternativa para mejorar tales estimaciones.
Trochez (2016), en su trabajo de Tesis de Maestrıa, aborda la pregunta de investiga-
cion: ¿Que efectos tienen los parametros estimados del modelo lineal mixto cuando
10 2 Marco teorico
los datos longitudinales son sesgados?.
Verbeke & Lesaffre (1997) para los modelos lineales mixtos, mostraron que los estima-
dores de maxima verosimilitud (ML, por sus siglas en ingles) de los efectos fijos y los
componentes de varianza, obtenidos bajo el supuesto de efectos aleatorios normales,
son consistentes y asintoticamente normales, incluso cuando esta mal especificada la
distribucion de efectos aleatorios. Sin embargo, la investigacion llevada a cabo en los
ultimos anos ilustra que resultados similares no son validos para GLMM (Litiere et al.
2008). Por ejemplo, Komarek & Lesaffre (2008) indicaron que, en contraste con el
modelo lineal mixto, la mala especificacion de la distribucion de los efectos aleatorios
en GLMM podrıa influir en la inferencia de los efectos fijos, que son generalmente de
interes primario, pero la situacion no es clara. Litiere et al. (2008) trataron de ilustrar
que la especificacion incorrecta de la distribucion de los efectos aleatorios en GLMM
puede tener un efecto sobre los estimadores ML y los procedimientos de inferencia.
Sus simulaciones indican que diferentes aspectos del modelo se ven afectados de di-
ferentes maneras y en diferentes grados. Es importante destacar que esta conclusion
parece ser independiente de la estrategia adoptada para estudiar la especificacion
erronea. El impacto parece depender de la complejidad de la estructura de los efectos
aleatorios, la varianza de la distribucion de los efectos aleatorios subyacente, y los
parametros de interes.
Litiere et al. (2007) exponen que hay una amplia variedad de opiniones sobre el
impacto de la especificacion incorrecta de los efectos aleatorios en GLMM. Segun
Huang (2009), investigaciones anteriores para abordar esta preocupacion han sugerido
que la especificacion incorrecta de los modelos para los efectos aleatorios, por lo
general, solo da lugar a una pequena cantidad de sesgo en los estimadores de maxima
verosimilitud (MLE, por sus siglas en ingles) para los efectos fijos. Sin embargo, varios
autores han afirmado sensibilidad a la especificacion parametrica de una distribucion
de efectos aleatorios (McCulloch & Neuhaus 2011). Por ejemplo, Agresti et al. (2004)
llevaron a cabo estudios empıricos sobre el impacto de la especificacion incorrecta
del modelo para los efectos aleatorios en GLMM, mostrando que los MLE para los
efectos fijos pueden ser muy sensibles al modelo asumido para los efectos aleatorios.
Alonso et al. (2015) exponen que, en general, si la seleccion del modelo esta mal
especificada entonces las estimaciones de los parametros en el modelo pueden estar
sesgadas y los procedimientos de inferencia, al igual que los intervalos de confianza,
se pueden afectar tambien. Por lo tanto, un analisis de sensibilidad para evaluar la
estabilidad de los resultados es siempre altamente recomendada (Geneletti et al.,
2011; citado por Alonso et al. 2015). Un artıculo muy citado es el de Heckman
y Singer (1984; citado por McCulloch & Neuhaus 2011), el cual hace referencia a
que las estimaciones de los parametros estructurales obtenidos de los procedimientos
2.5 Estimacion de los parametros fijos 11
convencionales son muy sensibles a la eleccion de la mezcla de distribuciones.
Segun Litiere et al. (2007), para estudiar el impacto de la especificacion incorrecta
de la distribucion de los efectos aleatorios en las inferencias, los investigadores sue-
len utilizar disenos de simulacion en las cuales se consideran varias opciones para la
verdadera distribucion subyacente de los efectos aleatorios, mientras que la distribu-
cion asumida se mantiene fija. Ellos ilustran que la potencia puede ser seriamente
alterada, dependiendo de la forma y la varianza de la distribucion subyacente de
los efectos aleatorios. Aunque, Neuhaus et al. (2011) expusieron que el trabajo de
Litiere et al. (2007) contiene una falacia logica que invalida esta afirmacion, porque
para demostrar los efectos de la especificacion incorrecta, se necesita variar la distri-
bucion ajustada asumida, mientras se mantiene constante la verdadera distribucion.
Ellos presentan estudios de simulacion logicamente correctos que demuestran poco
aumento en el error de tipo II, en consonancia con el trabajo anterior que muestra
poco sesgo en las estimaciones de los efectos de covarianza debido a la especificacion
incorrecta. Ademas, la evidencia mas fuerte para apoyar las conclusiones de (Litiere
et al. 2007) proviene de simulaciones que fueron incapaces de replicar, a pesar de usar
programacion muy cuidadosa.
Se sabe que los estimadores de maxima verosimilitud y los procedimientos inferencia-
les asociados pueden ser afectados por especificaciones incorrectas de la estructura de
efectos aleatorios en GLMM (Alonso et al. 2008). Por esa razon, muchos autores se
han preocupado por pruebas para detectar la especificacion incorrecta. Huang (2009)
propuso un metodo de diagnostico de dos etapas para detectar la especificacion inco-
rrecta del modelo de los efectos aleatorios en GLMM. Este metodo utiliza tanto los
datos observados y unos datos reconstruidos creados a partir de los datos observa-
dos. Alonso et al. (2010) propusieron dos pruebas de diagnostico que se basan en 2
representaciones equivalentes de la matriz de informacion del modelo. Ellos evalua-
ron el poder de ambas pruebas usando consideraciones teoricas, ası como simulacion.
Waagepetersen (2006; citado por Alonso et al. 2010) propuso una prueba basada en
la simulacion para evaluar la idoneidad de la eleccion de la distribucion de los efectos
aleatorios, mediante la generacion de efectos aleatorios mientras condiciona sobre las
observaciones. Tchetgen y Coull (2006; citado por Alonso et al. 2010) introdujeron
una prueba de diagnostico para evaluar la distribucion asumida de los efectos aleato-
rios, mediante la comparacion de estimadores ML marginales y condicionales de un
subconjunto de efectos fijos en el modelo. Muchos autores han considerado probar la
especificacion incorrecta en los modelos mixtos, por ejemplo, mediante la compara-
cion de inferencias robustas y basadas en el modelo (Alonso et al. 2008), mediante la
comparacion de las estimaciones de maxima verosimilitud marginales y condicionales
(Tchetgen y Coull , 2006; citado por Verbeke & Molenberghs 2013), mediante la com-
paracion de inferencias basadas en el modelo original y en los resultados obtenidos
12 2 Marco teorico
(Huang 2009), o mediante la comparacion de las distribuciones de los residuales y/o
efectos aleatorios predichos con sus distribuciones esperadas bajo el modelo asumido
(Ritz, 2004; Pan & Lin, 2005; citados por Verbeke & Molenberghs 2013).
Komarek & Lesaffre (2008) trataron de mostrar como la ”mezcla gaussiana pena-
lizada”(PGM, por sus siglas en ingles) se puede utilizar como una herramienta de
diagnostico para comprobar supuestos parametricos sobre la distribucion de los efec-
tos aleatorios. El enfoque se basa en la idea de suavizamiento penalizado, promovido
por Eilers y Marx (1996; citado por Komarek & Lesaffre 2008). Verbeke & Molen-
berghs (2013) desarrollaron una herramienta de diagnostico exploratoria sencilla para
comprobar graficamente la idoneidad de un supuesto parametrico especıfico (a menu-
do la normalidad) acerca de la distribucion de los efectos aleatorios en diversos tipos
de modelos mixtos. Su tecnica no requiere ningun calculo, ademas de los calculos
necesarios para ajustar el modelo, y en caso de cualquier evidencia de especifica-
cion erronea, su metodo indica como el modelo parametrico puede ser mejorado para
describir mejor los datos observados.
Es importante senalar que se han sugerido algunos enfoques diferentes para tratar
con la especificacion incorrecta de la distribucion de los efectos aleatorios. Un area de
trabajo con un enfoque ligeramente diferente ha sido el de la estimacion de la forma
de la distribucion de los efectos aleatorios, ademas de establecer hipotesis de ajustes
mas flexibles de la distribucion para los efectos aleatorios (McCulloch & Neuhaus
2011). Chen et al. (2002; citado por Litiere et al. 2008) sugirieron una distribucion
de los efectos aleatorios semi-parametrica, permitiendo que la densidad de los efectos
aleatorios sea sesgada, multimodal, de cola delgada o pesada, e incluyendo la normal
como un caso especial. Lee y Thompson (2007; citado por Litiere et al. 2008) utiliza-
ron metodos MCMC (Monte Carlo Markov Chain) para ajustar modelos con efectos
aleatorios siguiendo una distribucion t, y extensiones de la normal y la distribucion
t. Otro enfoque consiste en la sustitucion de la distribucion normal de los efectos
aleatorios mediante mezclas de distribuciones normales (Magder & Zeger, 1996; Caf-
fo, An & Rohde, 2007; citados por McCulloch & Neuhaus 2011) y ajustes suaves no
parametricos (Laird, 1978; Davidian & Galan, 1993; Zhang & Davidian, 2001; Ghi-
dey, Lesaffre & Filers, 2004; citados por McCulloch & Neuhaus 2011). Litiere et al.
(2008) y Verbeke & Molenberghs (2013) tambien utilizaron un enfoque con mezclas
de distribuciones normales para ajustar las distribuciones de los efectos aleatorios.
2.6 Error tipo I y potencia en las pruebas de hipotesis 13
2.6. Error tipo I y potencia en las pruebas de
hipotesis
De acuerdo con Litiere et al. (2008), una cuestion que no ha sido objeto de atencion
en los estudios de GLMM tiene que ver con el impacto de la especificacion incorrecta
sobre los procedimientos de inferencia de uso comun como la prueba de Wald. Los
tests de prueba de hipotesis Wald Z, χ2, t y pruebas F para GLMMs prueban una
hipotesis nula de no efecto ajustando las estimaciones de los parametros o combina-
ciones de parametros por sus errores estandar estimados y comparando el estadıstico
del test resultante con el cero (Bolker et al. 2009).
Varios estudios hacen referencia al uso de la prueba de Wald para la evaluacion de la
significancia estadıstica. Por ejemplo, Lagishetty & Duffull (2015), Laouenan et al.
(2013), Retout et al. (2007), Panhard & Mentre (2005) utilizaron tal prueba en un
marco de modelamiento de efectos mixtos no lineales y evaluaron sus errores tipo I
y la potencia estadıstica.
En investigacion basica, los analistas a menudo ponen mas enfasis en evitar los errores
tipo I que en evitar errores tipo II (Oberfeld & Franke 2013). Por otro lado, el analisis
de la potencia estadıstica (es decir, la probabilidad de que una prueba rechazara la
hipotesis nula cuando la hipotesis nula es falsa, alternativamente, 1 - P(error tipo II))
ha ganado mucha aceptacion entre los cientıficos durante los ultimos treinta anos. El
numero de ocurrencias en la pagina Web de ciencia de Thomson Reuters para una
busqueda de ’sampl * and power analysis’ aumento de 115 durante los anos 1996
a 2000 a 214 durante el periodo 2001-2005 y 265 durante 2006-2010 (Vaudor et al.
2015).
Varios estudios evaluan los errores tipo I y la potencia de las estadısticas de pruebas
relacionadas con la inferencia de los parametros fijos. Por ejemplo, Zhang et al. (2016)
en su estudio, ampliamente investigaron como la especificacion incorrecta del tamano
del cluster del modelo afecta la inferencia en el modelamiento conjunto, mediante la
prueba de Wald y el error tipo I y la potencia asociada a esta. Litiere et al. (2008)
y Litiere et al. (2007) abordaron el impacto de la especificacion incorrecta de la
distribucion de los efectos aleatorios sobre los errores tipo I y la potencia de la prueba
de Wald para la estructura de la media en GLMMs.
Las pruebas de Wald Z y χ2 solo son adecuadas para GLMM sin sobredispersion,
mientras que las pruebas de Wald t y F dan cuenta de la incertidumbre en las
estimaciones de sobredispersion. Esta incertidumbre depende del numero de grados de
libertad de los residuos, que puede ser muy difıcil de calcular debido a que el numero
efectivo de parametros utilizados por un efecto aleatorio esta entre 1 (es decir, un solo
14 2 Marco teorico
parametro de desviacion estandar) y N − 1 (es decir, un parametro para cada nivel
adicional del efecto aleatorio) (Bolker et al. 2009). Aunque una evaluacion exhaustiva
de la actuacion para muestras pequenas de la prueba asintotica de tipo Wald para
probar los efectos fijos en el modelo mixto no haya sido reportada, hay evidencia que
indica que la aproximacion normal o chi-cuadrado es poco fiable (Manor & Zucker
2004).
Una estrategia que se ha sugerido para la mejora de la prueba de tipo Wald implica la
sustitucion de la aproximacion asintotica basada en las distribuciones normal y chi-
cuadrado con aproximaciones basadas en las distribuciones t y F . Se han propuesto
varios metodos para definir los grados de libertad del denominador eficaces utilizados
en las aproximaciones t y F (Manor & Zucker 2004). Los grados de libertad para los
efectos aleatorios, necesarios para las pruebas de Wald t o F deben estar entre 1 y
N − 1 (donde N es el numero de niveles de los efectos aleatorios). Los paquetes de
software varıan enormemente en su enfoque para el calculo de los grados de libertad.
El enfoque mas simple (el valor por defecto en SAS) utiliza el numero mınimo de
grados de libertad aportado por los efectos aleatorios que afectan el termino que se
esta probando. Las aproximaciones de Satterthwaite y Kenward-Roger (KR) utilizan
reglas mas complicadas para aproximarse a los grados de libertad y ajustar los errores
estandar. KR, solo disponible en SAS, generalmente funciona mejor (al menos para
los modelos lineales mixtos). La aproximacion de Satterthwaite esta disponible en el
PROC MIXED de SAS (Bolker et al. 2009).
Otro enfoque es utilizar la prueba basada en la prueba de tipo Wald con el metodo
del sandwich, donde la matriz de covarianza se calcula mediante
Sand(V ar(β)) =
(n∑i=1
X ′iΣ−1i Xi
)−1 n∑i=1
X ′iΣ−1i
× (yi −Xiβ)(yi −Xiβ)′Σ−1i Xi
(n∑i=1
X ′iΣ−1i Xi
)−1 (2-8)
El procedimiento sandwich para la estimacion de la matriz de covarianza es valido
incluso si el modelo esta especificado incorrectamente, siempre que la estructura de
la media de yi se haya especificado correctamente. Este procedimiento de estimacion
es, por lo tanto, referido como estimacion robusta (Manor & Zucker 2004). En la
tabla 2-2 se presentan las capacidades relacionadas con los metodos de inferencia de
diferentes paquetes de software para el analisis de GLMM.
Una alternativa a la prueba de Wald para los efectos fijos es la prueba de razon de
verosimilitud (LRT, por sus siglas en ingles).
2.6 Error tipo I y potencia en las pruebas de hipotesis 15
Tabla 2-2: Capacidades de los diferentes paquetes de software para el analisis de GLMM
Software Funcion Cuasi ve-
rosimilitud
penalizada
Laplace Cuadratura de
Gauss-Hermite
Pruebas
de Wald
χ2 o F
Grados de li-
bertad
SAS PROC GLIMMIX X X X X BW, S, KR
PROC NLMIXED X X BW, S, KR
R glmmPQL X X BW
glmmML X X
glmer X X
glmmADMB X
GLMM X X
BW: between-within; S: Satterthwaite; KR: Kenward-Roger.
Fuente: Adaptado de Bolker et al. (2009)
La prueba de razon de verosimilitud compara el logaritmo de la verosimilitud de dos
modelos en el que uno esta anidado del otro (LeBeau 2013). La prueba de Wald es
computacionalmente menos intensiva, ya que esta se puede realizar sobre cualquier
analisis sin la necesidad de repetir el analisis para el modelo nulo. Esto puede tener
ventajas para algunas estrategias de construccion de modelos de covarianza (Lagis-
hetty & Duffull 2015). En Manor & Zucker (2004) se propuso una correccion de
tipo Barlett para la prueba de razon de verosimilitud. La esencia de la correccion
Bartlett es multiplicar la estadıstica de LRT por un factor de escala que resulte en
una estadıstica que tenga momentos mas cercanos a los de una chi-cuadrado. Adi-
cional, Melo et al. (2009) desarrollaron versiones modificadas de la prueba de razon
de verosimilitud para la inferencia de los efectos fijos en modelos lineales mixtos.
En particular, ellos derivaron una correccion Bartlett a una prueba de este tipo, y
tambien a una prueba obtenida a partir de una funcion de perfil de verosimilitud
modificada.
Segun Kojima & Kubokawa (2013), las pruebas de Wald y de razon de verosimilitud
(LR), junto a la de Score (otra prueba para probar hipotesis) son conocidas por
tener errores tipo I incorrectos. Por esa razon, ellos consideraron una extension de los
resultados de Rothenberg (1984) para el caso de estimadores consistentes generales y
trataron de derivar sus propias correcciones de tipo Bartlett. En su investigacion, ellos
estudiaron los comportamientos de los errores tipo I y la potencia de las tres pruebas
clasicas mencionadas anteriormente y de las pruebas ajustadas con las correcciones
de tipo Barlett a traves de una simulacion de Monte Carlo.
16 2 Marco teorico
2.7. Ejemplos con datos reales en donde los efectos
aleatorios no son normales
2.7.1. Onicomicosis por dermatofito en la una del dedo del pie
Efendi et al. (2014) confirmaron la no-normalidad de la distribucion de los interceptos
aleatorios, que fue probada previamente por Verbeke & Molenberghs (2000), a traves
de la funcion gradiente, en el siguiente modelo donde Yij representa la severidad de
la infeccion de la una del pie para el paciente i en la medicion j.
yij|bi ∼ Bernoulli (πij)
logit (πij) = β0 + bi + β1treati + β2tij + β3treatitij,(2-9)
donde treati es el indicador del tratamiento para el paciente i, tij es el punto en el
tiempo (en meses) en el cual la j-esima medida fue tomada para el paciente i-esimo,
y bi es el intercepto aleatorio sujeto-especıfico.
Los autores Vock et al. (2014) tambien probaron la no normalidad de la distribucion
de los interceptos aleatorios para este modelo.
Efendi et al. (2014) utilizaron pruebas de diagnostico propuestas por Alonso et al.
(2008) y Alonso et al. (2010) (the determinant test y determinant-trace test), en
donde llegaron a los mismos resultados de no-normalidad de la distribucion de los in-
terceptos aleatorios. Aunque como senalan estos ultimos autores, un resultado signifi-
cativo (rechazar el supuesto de normalidad) de sus pruebas no implica necesariamente
que exista un problema con la distribucion de los efectos aleatorios. Por ejemplo, una
covariable o un efecto aleatorio puede no haber sido incluido en el modelo.
2.7.2. Datos de la vivienda en Boston
Lange & Ryan (1989) incluyeron un ejemplo para mostrar los resultados de ajustar
un modelo de efecto aleatorio en un estudio de los precios de la vivienda en el Area
estadıstica metropolitana de Boston, en el cual obtuvieron evidencia de la desviacion
del supuesto de normalidad de la distribucion del efecto aleatorio, evaluada a traves
del metodo propuesto en su investigacion.
2.7 Ejemplos con datos reales en donde los efectos aleatorios no son normales 17
2.7.3. Actividad enzimatica
En un experimento que investigo la actividad enzimatica en la masa de pan de cen-
teno, las mediciones se tomaron durante siete etapas diferentes de produccion y para
dos tipos diferentes de harina. Los grupos de las mediciones de tamano 8−12 se basan
en el mismo extracto de la masa, y se espera una correlacion entre tales mediciones.
Se tienen en total 56 extractos. El modelo inicial considera un efecto de cada etapa,
el cual es modelado por un termino de interaccion (efecto fijo), mientras que el efecto
del extracto fue tomado como aleatorio:
yj = α(stagej, typej
)+ u (extractj) + ej (j = 1, ..., 602) , (2-10)
Los autores proporcionaron evidencia en contra de la asuncion de normalidad del
intercepto aleatorio, al igual que Wu et al. (2012), con el test utilizado en su investi-
gacion.
2.7.4. Crecimiento de la distancia de ortodoncia en ninos y
ninas
Pinheiro et al. (2001) compararon el rendimiento de los modelos en los que se asume
una distribucion normal para los efectos aleatorios y los errores de las mediciones
para cada sujeto contra aquellos modelos en los que se asumen una distribucion
t–multivariada para ambos, bajo diferentes patrones de valores atıpicos; para lo cual
utilizaron un modelo de crecimiento de la distancia de ortodoncia en ninos y ninas.
Los resultados demostraron que la distribucion t-multivariada sustancialmente supera
al modelo gaussiano cuando hay valores extremos en los datos, incluso en cantidades
moderadas.
2.7.5. Niveles de colesterol – Estudio de Framingham
Aunque la normalidad condicional dentro de los sujetos puede ser realista, la asun-
cion de normalidad sobre los efectos aleatorios puede ser demasiado restrictiva para
proporcionar una representacion aproximada de la variacion entre los individuos. Lo
anterior fue expuesto en la investigacion de Zhang & Davidian (2001), quienes en
un estudio que muestra los niveles de colesterol en el tiempo de 200 individuos se-
leccionados aleatoriamente del estudio de Framingham, probaron que el supuesto de
normalidad dentro de los individuos era valido; pero no pasaba lo mismo entre los
18 2 Marco teorico
individuos. Los autores Wu et al. (2012) y Claeskens & Hart (2009) tambien encon-
traron evidencias para rechazar la normalidad de los efectos aleatorios (intercepto y
pendiente aleatoria).
2.7.6. Esquizofrenia
Los autores Litiere et al. (2008) utilizaron una variable de respuesta binaria para
caracterizar la condicion mental de los sujetos con el objetivo de comparar el efecto
de la risperidona sobre los farmacos antipsicoticos convencionales para el tratamiento
de la esquizofrenia. El tratamiento se administro a 128 pacientes durante 8 semanas
y el resultado se midio en 6 puntos de tiempo fijo: Al comienzo del estudio y despues
de 1, 2, 4, 6 y 8 semanas. Los datos se analizaron utilizando un modelo de intercep-
cion aleatoria, considerando diferentes funciones de enlace y estructuras medias. Se
supuso siempre que el intercepto aleatorio seguıa una distribucion normal con me-
dia cero y varianza σ2b . Ellos encontraron evidencia para afirmar que la asuncion de
una distribucion normal para los efectos aleatorios era cuestionable dado las altas
varianzas para el efecto aleatorio de los dos grupos (control y tratamiento), las cuales
sugieren una correlacion muy fuerte y similar dentro de los sujetos, en cada grupo de
tratamiento.
3 Estudio de simulacion
En este capıtulo se presentan los modelos considerados en el estudio de simulacion
tanto para la identificacion del impacto de la especificacion incorrecta de la distribu-
cion de los efectos aleatorios en modelos lineales generalizados mixtos con respuesta
Poisson y BN sobre: 1) La estimacion de los parametros fijos en modelos de solo
intercepto aleatorio y modelos de intercepto y pendiente aleatoria y 2) el error tipo
I y la potencia estadıstica de la prueba estadıstica de Wald para un modelo de solo
intercepto aleatorio como para un modelo de intercepto y pendiente aleatoria.
3.1. Impacto sobre la estimacion de los parametros
fijos
El impacto sobre la estimacion de los parametros fijos fue estudiada tanto en modelos
lineales generalizados mixtos con intercepto aleatorio como con intercepto y pendien-
te aleatoria. A continuacion se presentan los modelos considerados para el caso de
intercepto aleatorio.
3.1.1. Modelos Poisson y Binomial Negativa con intercepto
aleatorio
Para el estudio de simulacion se generaron respuestas Poisson y Binomial Negativa
a partir de los GLMM con intercepto aleatorio, en donde se consideraron m = 100
conglomerados de 5 tamanos diferentes ni = 3, 6, 9, 12, 15.
20 3 Estudio de simulacion
Para el caso Poisson se considero el siguiente modelo con intercepto aleatorio:
yij|biind.∼ Poisson(µij)
log(µij) = β0 + β1x1ij + β2x2ij + bi(3-1)
con β0 = 1, β1 = 2, β2 = 3, i = 1, 2, ...,m y j = 1, 2, ..., ni. Las covariables x1ij y
x2ij representan covariables dentro de los conglomerados (covariables cuyos valores
cambian para cada conglomerado i y cada observacion j), con x1 ∼ N(0, 1) y x2 ∼U(0, 1).
En la Tabla 3-1 se presentan algunos datos simulados de un modelo mixto Poisson
con m = 100, ni = 6, σ2b = 4 e intercepto aleatorio normal, correspondiente a la
ecuacion (3-1).
Tabla 3-1: Datos simulados del modelo mixto Poisson con m = 100, ni = 6, σ2b = 4 e intercepto
aleatorio normal
X1 X2 Y conglomerado
−0.44 0.26 3 7
−0.17 0.65 3 7
−0.07 0.81 0 7
0.37 0.40 2 7
2.95 0.20 1 7
−0.73 0.26 1 7
−1.05 0.69 2 26
−1.39 0.87 3 26
−0.48 0.28 1 26
−0.65 0.75 6 26
−0.22 0.50 4 26
−0.87 0.00 2 26
Fuente: elaboracion propia
Para el caso Binomial Negativa el siguiente modelo mixto con intercepto aleatorio
fue considerado:
yij|biind.∼ BN(µij, α)
log(µij) = β0 + β1x1ij + β2x2ij + bi
α = 0.5
(3-2)
3.1 Impacto sobre la estimacion de los parametros fijos 21
donde β0 = 1, β1 = 2 y β2 = 3. Al igual que el modelo mixto Poisson, x1 ∼ N(0, 1) y
x2 ∼ U(0, 1).
Para los modelos de las expresiones (3-1) y (3-2) los bi fueron generados a partir de
4 distribuciones diferentes: normal, mezcla de dos normales, uniforme y lognormal
(Figura 3-1) (Alonso et al. 2008, Spiessens et al. 2002, Verbeke & Lesaffre 1997) con
media cero y 4 valores de varianza σ2b = 1, 2, 4, 16. El vector de parametros de interes
para los dos modelos mencionados anteriormente es θ = (β0, β1, β2, σ2)>.
normal
Den
sida
d
−4 −2 0 2 4 6
0.00
0.05
0.10
0.15
0.20
0.25
0.30
mezcla de normales
Den
sida
d
−4 −2 0 2 4
0.00
0.05
0.10
0.15
0.20
0.25
0.30
uniforme
Den
sida
d
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
lognormal
Den
sida
d
−1 0 1 2
0.0
0.2
0.4
0.6
0.8
Figura 3-1: Distribuciones consideradas para el intercepto aleatorio: normal, mezcla de
normales, uniforme y lognormal, con media igual a 0 y varianza igual a 2.
En total se simularon 500 repeticiones, a las cuales se les ajusto un modelo Poisson
o BN de efectos mixtos, en donde se asumio un intercepto aleatorio que sigue una
distribucion normal. Para el ajuste del modelo y obtencion del vector de parametros
θ se utilizo la funcion glmmadmb del paquete glmmADMB de R . El impacto de la
especificacion incorrecta se evaluo con la distancia relativa DR, entre el verdadero
valor del parametro simbolizado por la letra θ y su valor estimado θ (Verbeke &
Lesaffre 1997). A mayor valor del indicador, mayor es el impacto de la especificacion
incorrecta.
DR =
∥∥∥θ − θ∥∥∥‖θ‖
(3-3)
22 3 Estudio de simulacion
3.1.2. Modelos Poisson y Binomial Negativa con intercepto y
pendiente aleatoria
El impacto de la especificacion incorrecta de la distribucion de los efectos aleatorios
tambien se evaluo en datos provenientes de poblaciones con respuesta Poisson y BN,
con intercepto y pendiente aleatoria; para lo cual se consideraron dos covariables
dentro de los conglomerados: x1 ∼ N(0, 1) y x2 ∼ U(0, 1). Se generaron m = 100
conglomerados con 5 tamanos diferentes ni = 3, 6, 9, 12, 15.
El modelo considerado en este caso es:
yij|biind.∼ Poisson(µij) o yij|bi
ind.∼ BN(µij, α = 0.5)
log(µij) = β0 + b0i + (β1 + b1i)x1ij + β2x2ij
i = 1, 2, ...,m = 100, j = 1, 2, ..., ni
(3-4)
Los bi = (b0i, b1i)> fueron generados a partir de 4 distribuciones diferentes con µb0i =
µb1i = 0, cuatro valores de varianza σ2b0
= var(b0i) = σ2b1
= var(b1i) = 0.5, 1, 2, 4 y
una correlacion de 0.5 entre el intercepto y la pendiente aleatoria. Las distribuciones
consideradas para bi se muestran a continuacion, las cuales fueron tomadas del trabajo
de Neuhaus et al. (2012).
a) bi ∼ normal bivariada.
b) bi ∼ t-student bivariada con 3 grados de libertad.
c) bi ∼ exponencial bivariada (1).
d) bi ∼ Tukey bivariada (g = 0.446, h = 0.05), donde el parametro g controla
la cantidad y direccion de asimetrıa, mientras que el parametro h controla la
cantidad de elongacion (curtosis) de la distribucion Tukey bivariada (Valencia
2014).
En la Figura 3-2 se presentan los contornos de las cuatro distribuciones consideradas
para el intercepto y la pendiente aleatoria.
Para medir el impacto de la especificacion incorrecta de la distribucion de los efectos
aleatorios se fijaron los valores de β0 = 1, β1 = 2, β2 = 3 y se asumio una correlacion
entre b0i y b1i de 0.5. Al igual que para el intercepto aleatorio, se utilizo la distancia
relativa para evaluar el impacto de la especificacion incorrecta. Los valores estimados
fueron obtenidos a traves de los ajustes de un modelo Poisson o BN de intercepto
y pendiente aleatoria asumiendo para este caso una distribucion normal bivariada.
Para el ajuste se utilizo la funcion glmmadmb, del paquete glmmADMB de R.
3.2 Impacto sobre el error tipo I y la potencia de la prueba de Wald 23
Normal bivariada
0.01
0.01
0.02
0.02 0.03
0.03
0.03
0.03
0.04
0.05
0.06
0.07
0.08
0.09
−3 −2 −1 0 1 2 3
−3
−2
−1
01
23
t−student bivariada
0.02
0.04
0.06
0.08
0.1 0.12
0.14
0.16
−3 −2 −1 0 1 2 3
−3
−2
−1
01
23
Exponencial bivariada
0.05
0.1
0.15
0.2
0.25
0.3 0.35
−3 −2 −1 0 1 2 3
−3
−2
−1
01
23
Tukey bivariada
0.02
0.04 0.06
0.08
0.1
0.12
0.14 0.16
0.18
0.2
0.22
−3 −2 −1 0 1 2 3−
3−
2−
10
12
3
Figura 3-2: Contornos de las distribuciones consideradas para el intercepto y pendien-
te aleatoria: normal bivariada, t-student bivariada, exponencial bivariada y
Tukey bivariada, con media de µb0i = µb1i = 0, y σ2b0i
= σ2b1i
= 2.
3.2. Impacto sobre el error tipo I y la potencia de la
prueba de Wald
Se llevo a cabo un estudio de simulacion para identificar el impacto de especificar
incorrectamente la distribucion de los efectos aleatorios sobre los errores tipo I y la
potencia en la prueba de Wald para los modelos lineales generalizados mixtos. En la
primera parte se consideraron modelos lineales generalizados mixtos con intercepto
aleatorio y variable de respuesta Poisson y BN. En la segunda parte se consideraron
modelos lineales generalizados mixtos con intercepto y pendiente aleatoria y variable
de respuesta Poisson y BN.
3.2.1. Modelos GLMM con intercepto aleatorio y variable
respuesta Poisson y Binomial Negativa
Para el estudio de simulacion de modelos lineales generalizados mixtos con respuesta
Poisson o BN e intercepto aleatorio se utilizo la misma estructura del artıculo de
Milanzi et al. (2012), en donde el interes se centro en estudiar el impacto sobre la
probabilidad de cometer un error tipo I al ignorar la sobredispersion en configuracio-
nes longitudinales, para lo cual los autores generaron respuestas Poisson y BN con
24 3 Estudio de simulacion
media µij = exp(β0 + bi + β1tij + β2zi + β3tijzi).
Con i = 1, 2, ...,m y tij = 1, 2, ..., ni denotando el sujeto y el tiempo de medida res-
pectivamente. Ademas, bi ∼ N(0, σ2b ) y zi es una variable indicadora del tratamiento
del grupo tomando valores de 0/1.
En la ecuacion (3-5) se presenta el modelo que se utilizo para la Poisson y en la
ecuacion (3-6) el que se utilizo para BN:
yij|biind.∼ Poisson(µij),
log(µij) = β0 + bi + β1tij + β2zi + β3tijzi
biind.∼ GT
(3-5)
yij|biind.∼ BN(µij, α = 0.5),
log(µij) = β0 + bi + β1tij + β2zi + β3tijzi
biind.∼ GT
(3-6)
Los bi fueron generados a partir de 4 distribuciones diferentes GT : normal, mezcla de
dos normales, uniforme y lognormal (Alonso et al. 2008, Spiessens et al. 2002, Verbeke
& Lesaffre 1997), con media cero y 4 valores de varianza σ2b = 1, 2, 4, 8 (Figura 3-1).
Para evaluar el impacto de especificar incorrectamente la distribucion del intercepto
aleatorio sobre los errores tipo I y la potencia de la prueba de Wald se utilizo como
parametro de interes a β2, al que se le asignaron los valores de β2 = 0, 0.5, 1, 1.5 para
el caso de respuesta Poisson y los valores de β2 = 0, 1.5, 2, 2.5 para el caso BN (Tabla
3-2). Para los demas parametros se usaron los valores que utilizaron los autores de
referencia: β0 = −2, β1 = −0.5 y β3 = 1. Ademas, se consideraron cuatro tamanos
de muestra diferentes ni = 5, 10, 15, 20 y un numero de conglomerados de m = 100.
Para cada escenario dado por la combinacion de ni, β2, la distribucion verdadera
de bi y σ2b , se simularon 1000 conjuntos de datos con la estructura (3-5) o (3-6), y
posteriormente se les ajusto el modelo GLMM con la funcion glmer para el caso
Poisson y con la funcion glmer.nb para el caso BN, que se encuentran en el paquete
lme4 de R. La proporcion de veces que se detecto un efecto del parametro de interes
diferente de cero fue calculada; es decir, las veces que se rechazo H0: β2 = 0 con un
nivel de significancia del 5 %. Cuando no hay efecto del parametro (β2 = 0), esta
proporcion corresponde al error tipo I y para otros valores de β2, esta proporcion
representa la potencia de la prueba que esta bajo estudio (Litiere et al. 2008).
3.2 Impacto sobre el error tipo I y la potencia de la prueba de Wald 25
Tabla 3-2: Hipotesis de interes y valores de β2 usados para las simulaciones de modelos GLMM
con intercepto aleatorio
Hipotesis Poisson BN
H0: β2 = 0 vs. H1: β2 6= 0 β2 = 0, 0.5, 1, 1.5 β2 = 0, 1.5, 2, 2.5
Fuente: elaboracion propia
3.2.2. Modelos GLMM con intercepto y pendiente aleatoria y
variable de respuesta Poisson y Binomial Negativa
Se realizo un estudio de simulacion para estudiar el impacto de la especificacion
incorrecta de la distribucion de los efectos aleatorios para el caso de modelos lineales
generalizados mixtos con respuesta Poisson e intercepto y pendiente aleatoria. Se
considero la siguiente estructura tomada de Neuhaus et al. (2012):
yij|biind.∼ Poisson(µij)
g(µij) = β0 + b0i + (β1 + b1i)x1ij + β2x2ij + β3x3i
biind.∼ GT
(3-7)
con i = 1, 2, ...,m, j = 1, 2, ..., ni.
Partiendo de la estructura propuesta por Neuhaus et al. (2012), tambien se simularon
variables de respuesta BN con la siguiente estructura:
yij|biind.∼ BN(µij, α = 0.5)
log(µij) = β0 + b0 + (β1 + bi)x1ij + β2x2ij + β3x3i
biind.∼ GT
(3-8)
Con x1ij, que tiene valores igualmente espaciados entre −1 y 1; x2ij, una covariable
dentro de los conglomerados con valores x2i = (−0.5, 1, 0,−1, 0.5)>; y una covariable
binaria entre los conglomerados, x3i, que fue establecida para tomar el valor de 0 para
la mitad de los conglomerados y 1 para el resto. Las tres covariables son mutuamente
ortogonales entre sı (Neuhaus et al. 2012). Ademas, se consideraron cuatro tamanos
de muestra ni = 5, 10, 15, 20 y un numero de conglomerados de m = 100.
El intercepto y la pendiente aleatoria, tanto para la Poisson como para la BN bi =
(b0i, b1i)> fueron generados a partir de 4 distribuciones diferentes GT con µb0i = µb1i =
26 3 Estudio de simulacion
0, cuatro valores de varianza σ2b0i
= σ2b1i
= 1, 2, 4, 8 y una correlacion de 0.5 entre el
intercepto y la pendiente aleatoria:
a) bi ∼ normal bivariada.
b) bi ∼ t-student bivariada con 3 grados de libertad.
c) bi ∼ exponencial bivariada.
d) bi ∼ Tukey bivariada g−h, donde el parametro g controla la cantidad y direccion
de asimetrıa, mientras que el parametro h controla la cantidad de elongacion
(curtosis) de la distribucion Tukey bivariada (Valencia 2014).
En la Figura 3-2 se presentan los contornos para las cuatro distribuciones usadas
para simular el intercepto y la pendiente aleatoria.
1000 repeticiones fueron generadas para cada combinacion de ni, βk con k = 1, 2, la
distribucion verdadera de bi, σ2b0i
y σ2b1i
con la estructura 3-7 o 3-8, a los cuales se
les ajusto el modelo con la funcion glmer para el caso Poisson y la funcion glmer.nb
para el caso BN, ambas incorporadas en el paquete lme4 de R.
Al igual que para los modelos lineales generalizados mixtos con intercepto aleatorio,
el interes se centro en determinar la proporcion de veces que se detecto un efecto
del parametro de interes, que para este caso, son dos: β1 y β2; es decir, en donde
se rechazo H0: βk = 0 con un nivel de significancia del 5 %, correspondiendo esta
proporcion al error tipo I si βk = 0 y para otros valores del parametro, esta proporcion
representa la potencia de la prueba del analisis (Litiere et al. 2008), con k = 1, 2. Los
valores usados para los parametros de β1 y β2 se presentan en la Tabla 3-3. Para los
demas parametros se usaron los valores de β0 = −2.5 y β3 = 1.0.
Tabla 3-3: Hipotesis de interes y valores de los parametros usados en las simulaciones de modelos
GLMM Poisson y BN con intercepto y pendiente aleatoria
Casos Hipotesis Poisson BN
Caso 1: H0: β1 = 0 vs. H1: β1 6= 0 β2 = 1.0 β2 = 1.0
β1 = 0, 0.3, 0.6, 0.9 β1 = 0, 0.7, 1.4, 2.1
Caso 2: H0: β2 = 0 vs. H1: β2 6= 0 β1 = 1.0 β1 = 1.0
β2 = 0, 0.04, 0.08, 0.12 β2 = 0, 0.2, 0.4, 0.6
Fuente: elaboracion propia
4 Resultados del estudio de
simulacion
En este capıtulo se presentan los resultados para los modelos descritos en la seccion
anterior.
4.1. Impacto sobre la estimacion de los parametros
Los resultados del estudio de simulacion para determinar el impacto de la especifica-
cion incorrecta de la distribucion de los efectos aleatorios sobre la estimacion de los
parametros consta de dos partes. En la primera se presentan los correspondiente a
los modelos con intercepto aleatorio y en la segunda, los que tienen tanto intercepto
como pendiente aleatoria.
4.1.1. Resultados para el caso de modelos con intercepto
aleatorio
Para el caso de GLMM con intercepto aleatorio y variable de respuesta Poisson, los
resultados se presentan en las Figuras 4-1,4-2 y 4-3.
La Figura 4-1 muestra las medianas de las distancias relativas correspondientes a
las estimaciones del parametro β0. Para el caso de la varianza de 16 se presenta un
menor impacto cuando la verdadera distribucion es la lognormal, seguido por las
distribuciones normal y mezcla de normales, y por ultimo, se encuentra la uniforme,
representada por la lınea punteada (· · ·). Para las varianzas de 1, 2 y 4 no se observan
diferencias para las cuatro distribuciones consideradas.
28 4 Resultados del estudio de simulacion
σ2 = 1
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.0
0.5
1.0
1.5
2.0
2.5
σ2 = 2
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.0
0.5
1.0
1.5
2.0
2.5
σ2 = 4
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.0
0.5
1.0
1.5
2.0
2.5
σ2 = 16
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.0
0.5
1.0
1.5
2.0
2.5
Figura 4-1: Mediana de las distancias relativas para β0 en un GLMM Poisson, con σ2b =
1, 2, 4, 16 y cuatro distribuciones para el intercepto aleatorio: —normal, · · ·uniforme, - - - mezcla de normales, − · − lognormal.
De acuerdo a la Figura 4-2 el impacto de la especificacion incorrecta de las distri-
buciones de los efectos aleatorios para la estimacion del parametro β1 es indiferente
para las cuatro distribuciones consideradas, puesto que presentan el mismo compor-
tamiento, el cual tiene una tendencia decreciente a medida que aumenta el tamano
del conglomerado ni. Un comportamiento similar se presenta para las estimaciones
del parametro β2.
4.1 Impacto sobre la estimacion de los parametros 29
σ2 = 1
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.000
0.005
0.010
0.015
σ2 = 2
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.000
0.005
0.010
0.015
σ2 = 4
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.000
0.005
0.010
0.015
σ2 = 16
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.000
0.005
0.010
0.015
Figura 4-2: Mediana de las distancias relativas para las estimaciones de β1 en un GLMM
Poisson, con σ2b = 1, 2, 4, 16 y cuatro distribuciones para el intercepto aleato-
rio: —normal, · · · uniforme, - - - mezcla de normales, − · − lognormal.
σ2 = 1
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.0
0.2
0.4
0.6
0.8
1.0
σ2 = 2
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.0
0.2
0.4
0.6
0.8
1.0
σ2 = 4
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.0
0.2
0.4
0.6
0.8
1.0
σ2 = 16
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.0
0.2
0.4
0.6
0.8
1.0
Figura 4-3: Mediana de las distancias relativas para σ2b en un GLMM Poisson, con σ2
b =
1, 2, 4, 16 y cuatro distribuciones para el intercepto aleatorio: —normal, · · ·uniforme, - - - mezcla de normales, − · − lognormal.
30 4 Resultados del estudio de simulacion
El impacto de la especificacion incorrecta de la distribucion de los efectos aleatorios
es mayor para la lognormal que para las otras distribuciones si se comparan las
estimaciones para σ2b de dicho intercepto, lo cual es mucho mas evidente a medida
que se aumenta el verdadero valor de σ2b , tal y como se muestra en la Figura 4-3.
Ademas, para cada una de las varianzas el impacto de la especificacion incorrecta
decrece a medida que se aumenta el tamano de los conglomerados ni.
En las Figuras 4-4, 4-5 y 4-6 se muestran los resultados del estudio de simulacion
correspondientes al GLMM de intercepto aleatorio con respuesta BN.
Al ajustar un GLMM y obtener las respectivas estimaciones para el parametro β0 se
obtuvo un impacto mayor en la especificacion incorrecta cuando la verdadera distri-
bucion del efecto aleatorio es la lognormal; lo cual, aunque es mucho mas evidente a
medida que se aumenta la varianza, tiende a disminuir con el aumento del tamano
del conglomerado ni, como se muestra en la Figura 4-4.
σ2 = 1
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.0
0.5
1.0
1.5
2.0
σ2 = 2
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.0
0.5
1.0
1.5
2.0
σ2 = 4
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.0
0.5
1.0
1.5
2.0
σ2 = 16
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.0
0.5
1.0
1.5
2.0
Figura 4-4: Mediana de las distancias relativas para β0 en un GLMM BN, con σ2b =
1, 2, 4, 16 y cuatro distribuciones para el intercepto aleatorio: —normal, · · ·uniforme, - - - mezcla de normales, − · − lognormal.
4.1 Impacto sobre la estimacion de los parametros 31
σ2 = 1
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.00
0.01
0.02
0.03
0.04
0.05
0.06
σ2 = 2
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.00
0.01
0.02
0.03
0.04
0.05
0.06
σ2 = 4
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.00
0.01
0.02
0.03
0.04
0.05
0.06
σ2 = 16
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.00
0.01
0.02
0.03
0.04
0.05
0.06
Figura 4-5: Mediana de las distancias relativas para las estimaciones de β1 en un GLMM
BN, con σ2b = 1, 2, 4, 16 y cuatro distribuciones para el intercepto aleatorio:
—normal, · · · uniforme, - - - mezcla de normales, − · − lognormal.
Para las estimaciones del parametro β1, tal y como se evidencio en el caso de respues-
ta Poisson, parece ser que no hay mucha diferencia en cuanto a la consideracion de las
cuatro distribuciones para los efectos aleatorios, de acuerdo a la Figura 4-5. Ademas,
se evidencia una tendencia decreciente de las medianas de las distancias relativas a
medida que aumenta el tamano del conglomerado ni, marcando con ello una reduc-
cion del impacto de la especificacion incorrecta. Las estimaciones correspondientes al
parametro β2 presentaron resultados muy similares a las de β1.
Lo observado en cuanto a las estimaciones de σ2b del intercepto aleatorio (Figura 4-6)
es similar que para el caso de respuesta Poisson, ya que de acuerdo a los valores de
las medianas de las distancias relativas, no solo se observa un impacto mayor cuando
la verdadera distribucion del efecto aleatorio es lognormal, sino tambien un aumento
de dicho impacto a medida que aumenta el valor de la varianza.
32 4 Resultados del estudio de simulacion
σ2 = 1
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.0
0.2
0.4
0.6
0.8
σ2 = 2
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.0
0.2
0.4
0.6
0.8
σ2 = 4
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.0
0.2
0.4
0.6
0.8
σ2 = 16
Tamaño del conglomerado (ni)
DR
3 6 9 12 15
0.0
0.2
0.4
0.6
0.8
Figura 4-6: Mediana de las distancias relativas para σ2b en un GLMM BN, con σ2
b =
1, 2, 4, 16 y cuatro distribuciones para el intercepto aleatorio: —normal · · ·uniforme - - - mezcla de normales − · − lognormal.
4.1.2. Resultados para el caso de modelos con intercepto y
pendiente aleatoria
En la Figura 4-7 se presentan los resultados de las medianas de las distancias relati-
vas de la estimacion del parametro β0 para los diferentes tamanos de conglomerado
ni = 3, 6, 9, 12 y las cuatro distribuciones bivariadas para el intercepto y pendiente
aleatoria considerados (normal, t-student, exponencial y Tukey). Se observa que para
las distribuciones Tukey y exponencial bivariadas, distribuciones que se alejan de la
propiedad de simetrıa que tiene la distribucion normal (distribucion asumida para
para los efectos aleatorios), son las que presentan mayores valores de las medianas
de las distancias relativas; es decir, un sesgo mayor respecto al verdadero valor del
parametro (β0 = 1). Por tanto, se evidencia un impacto de la especificacion incorrecta
de la distribucion de los efectos aleatorios para dicho parametro poblacional.
El mismo comportamiento de la Figura 4-7 se presenta para la estimacion del parame-
tro β1 (Figura 4-8), en donde nuevamente las distribuciones verdaderas de los efectos
aleatorios Tukey y exponencial bivariadas son las que presentan mayores valores de las
medianas de las distancias relativas, y con ello, un mayor impacto de la especificacion
incorrecta en dichas distribuciones.
La estimacion del parametro β2 (Figura 4-9) resulto ser la menos afectada por la
4.1 Impacto sobre la estimacion de los parametros 33
σb0
2 = σb1
2 = 0.5
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.5
1.0
1.5
2.0
σb0
2 = σb1
2 = 1
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.5
1.0
1.5
2.0
σb0
2 = σb1
2 = 2
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.5
1.0
1.5
2.0
σb0
2 = σb1
2 = 4
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.5
1.0
1.5
2.0
Figura 4-7: Mediana de las distancias relativas para β0 en un GLMM Poisson, con
σ2b0
= σ2b1
= 0.5, 1, 2, 4 y cuatro distribuciones bivariadas para el intercep-
to y pendiente aleatoria: —normal, · · · t-student, - - - exponencial, − · −Tukey.
σb0
2 = σb1
2 = 0.5
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.2
0.4
0.6
0.8
1.0
1.2
σb0
2 = σb1
2 = 1
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.2
0.4
0.6
0.8
1.0
1.2
σb0
2 = σb1
2 = 2
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.2
0.4
0.6
0.8
1.0
1.2
σb0
2 = σb1
2 = 4
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.2
0.4
0.6
0.8
1.0
1.2
Figura 4-8: Mediana de las distancias relativas para β1 en un GLMM Poisson, con
σ2b0
= σ2b1
= 0.5, 1, 2, 4 y cuatro distribuciones bivariadas para el intercep-
to y pendiente aleatoria: —normal, · · · t-student, - - - exponencial, − · −Tukey.
34 4 Resultados del estudio de simulacion
σb0
2 = σb1
2 = 0.5
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.00
0.01
0.02
0.03
0.04
σb0
2 = σb1
2 = 1
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.00
0.01
0.02
0.03
0.04
σb0
2 = σb1
2 = 2
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.00
0.01
0.02
0.03
0.04
σb0
2 = σb1
2 = 4
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.00
0.01
0.02
0.03
0.04
Figura 4-9: Mediana de las distancias relativas para β2 en un GLMM Poisson, con
σ2b0
= σ2b1
= 0.5, 1, 2, 4 y cuatro distribuciones bivariadas para el intercep-
to y pendiente aleatoria: —normal, · · · t-student, - - - exponencial, − · −Tukey.
especificacion incorrecta de la distribucion de los efectos aleatorios con valores que
oscilan entre 0 % y el 3 % para todas las configuraciones consideradas, rescatandose
que los valores de las medianas de las distancias relativas decrecen a medida que
aumenta el tamano del conglomerado ni. Contrario a los resultados encontrados para
el modelo mixto Poisson de intercepto aleatorio, se observan diferencias entre las
estimaciones de los parametros β1 y β2, puesto que aquı hay una pendiente aleatoria
b1i asociada con el primero.
Las estimaciones de los componentes de varianza (σ2b0
y σ2b1
) de ambos efectos aleato-
rios se vieron ampliamente afectados por la especificacion incorrecta de las distribu-
ciones de dichos efectos. En la Figura 4-10 se observan los resultados de las medianas
de las distancias relativas para las estimaciones de σ2b0i
, en donde claramente se evi-
dencia que la distribucion Tukey bivariada es la que presenta los mayores valores de
las medianas para todos los casos, excepto cuando σ2b0
= 4. Ademas, las medianas
parecen aumentar a medida que aumenta el tamano del conglomerado ni en todos
los casos, excepto cuando σ2b0i
= 4.
4.1 Impacto sobre la estimacion de los parametros 35
σb0
2 = σb1
2 = 0.5
Tamaño del conglomerado (ni)
DR
3 6 9 12
0
5
10
15
σb0
2 = σb1
2 = 1
Tamaño del conglomerado (ni)
DR
3 6 9 12
0
5
10
15
σb0
2 = σb1
2 = 2
Tamaño del conglomerado (ni)
DR
3 6 9 12
0
5
10
15
σb0
2 = σb1
2 = 4
Tamaño del conglomerado (ni)
DR
3 6 9 12
0
5
10
15
Figura 4-10: Mediana de las distancias relativas para ˆσb0i2 en un GLMM Poisson, con
σ2b0
= σ2b1
= 0.5, 1, 2, 4 y cuatro distribuciones bivariadas para el intercepto y
pendiente aleatoria: —normal, · · · t-student, - - - exponencial, − ·− Tukey.
σb0
2 = σb1
2 = 0.5
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
σb0
2 = σb1
2 = 1
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
σb0
2 = σb1
2 = 2
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
σb0
2 = σb1
2 = 4
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
Figura 4-11: Mediana de las distancias relativas para ˆσb1i2 en un GLMM Poisson, con
σ2b0
= σ2b1
= 0.5, 1, 2, 4 y cuatro distribuciones bivariadas para el intercepto y
pendiente aleatoria: —normal, · · · t-student, - - - exponencial, − ·− Tukey.
36 4 Resultados del estudio de simulacion
Para la estimacion del componente de varianza σ2b1
(Figura 4-11) tambien se observa
un impacto de la especificacion incorrecta, pero en menor proporcion que la de la
estimacion de σ2b0
, en donde nuevamente la distribucion Tukey bivariada es la que
presenta los mayores valores de las medianas de las distancias relativas cuando σ2b1
=
0.5, 1 y por ende, un mayor impacto. En esta Figura tambien se observa un impacto
relativamente mayor cuando la distribucion verdadera es la exponencial bivariada
frente a las distribuciones normal y t-student bivariadas, para los casos mencionados
anteriormente.
Las figuras 4-12, 4-13, 4-14, 4-15 y 4-16 presentan los resultados de las medianas
de las distancias relativas para las simulaciones del modelo mixto BN con intercepto
y pendiente aleatoria. La Figura 4-12 corresponde al parametro de β0. Allı se observa
que contrario a todos los resultados encontrados hasta aquı, la distribucion normal
bivariada es la que presenta los mayores valores de las medianas de las distancias
relativas, sabiendo que para esta distribucion, que es la distribucion asumida para el
ajuste del modelo mixto con intercepto y pendiente aleatoria no hay especificacion
incorrecta. Un comportamiento similar al de la normal bivariada lo presenta la dis-
tribucion exponencial bivariada. El menor impacto de la especificacion incorrecta de
la distribucion de los efectos aleatorios se presento cuando la distribucion verdadera
fue la t-student bivariada.
σb0
2 = σb1
2 = 0.5
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.5
1.0
1.5
σb0
2 = σb1
2 = 1
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.5
1.0
1.5
σb0
2 = σb1
2 = 2
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.5
1.0
1.5
σb0
2 = σb1
2 = 4
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.5
1.0
1.5
Figura 4-12: Mediana de las distancias relativas para β0 en un GLMM BN con σ2b0
= σ2b1
=
0.5, 1, 2, 4 y cuatro distribuciones bivariadas para el intercepto y pendiente
aleatoria: —normal, · · · t-student, - - - exponencial, − · − Tukey.
4.1 Impacto sobre la estimacion de los parametros 37
En cuanto al impacto de la especificacion incorrecta para el parametro β1 (Figura
4-13), se observa que la distribucion Tukey bivariada es la que presenta los mayores
valores de las distancias relativas, y ası, los mayores impactos de la especificacion
incorrecta. Le sigue la distribucion t-student bivariada con valores que oscilan entre
el 34 % y el 100 %.
σb0
2 = σb1
2 = 0.5
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.5
1.0
1.5
σb0
2 = σb1
2 = 1
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.5
1.0
1.5
σb0
2 = σb1
2 = 2
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.5
1.0
1.5
σb0
2 = σb1
2 = 4
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.5
1.0
1.5
Figura 4-13: Mediana de las distancias relativas para β1 en un GLMM BN con σ2b0
= σ2b1
=
0.5, 1, 2, 4 y cuatro distribuciones bivariadas para el intercepto y pendiente
aleatoria: —normal, · · · t-student, - - - exponencial, − · − Tukey.
La Figura 4-14 contiene la representacion de las medianas de las distancias relativas
de la estimacion del parametro β2, cuyos valores no sobrepasen el 15 % y que no
muestra diferencias entre las cuatro distribuciones bivariadas consideradas tanto para
el intercepto como para la pendiente aleatoria. A diferencia del modelo mixto BN de
intercepto aleatorio, no se observa un comportamiento igual para las estimaciones de
los parametros β1 y β2, puesto que aquı se esta asumiendo una pendiente aleatoria
b1i, asociada con el primero.
La estimacion del componente de varianza correspondiente al intercepto aleatorio σ2b0
y las medidas de cuanto se aleja del verdadero valor de este se puede visualizar en la
Figura 4-15, donde se encuentra un comportamiento muy parecido al que se presenta
para las estimaciones de β0, con los mayores valores de las distancias relativas cuando
las verdaderas distribuciones de los efectos aleatorios son la normal y la exponencial
bivariadas, sabiendo que para la primera, no hay especificacion incorrecta.
Para la estimacion del componente de varianza σ2b1
(Figura 4-16) se tienen resultados
38 4 Resultados del estudio de simulacion
σb0
2 = σb1
2 = 0.5
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
σb0
2 = σb1
2 = 1
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
σb0
2 = σb1
2 = 2
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
σb0
2 = σb1
2 = 4
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
Figura 4-14: Mediana de las distancias relativas para β2 en un GLMM BN con σ2b0
= σ2b1
=
0.5, 1, 2, 4 y cuatro distribuciones bivariadas para el intercepto y pendiente
aleatoria: —normal, · · · t-student, - - - exponencial, − · − Tukey.
σb0
2 = σb1
2 = 0.5
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
σb0
2 = σb1
2 = 1
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
σb0
2 = σb1
2 = 2
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
σb0
2 = σb1
2 = 4
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Figura 4-15: Mediana de las distancias relativas para ˆσb0i2 en un GLMM BN con σ2
b0=
σ2b1
= 0.5, 1, 2, 4 y cuatro distribuciones bivariadas para el intercepto y pen-
diente aleatoria: —normal, · · · t-student, - - - exponencial, − · − Tukey.
4.1 Impacto sobre la estimacion de los parametros 39
muy diferentes que los obtenidos para σ2b0
, ya que aquı es posible observar que efecti-
vamente hay un impacto de la especificacion incorrecta si la distribucion verdadera es
Tukey bivariada, puesto que es la que presenta los mayores valores de las distancias
relativas, excepto cuando σ2b1
= 2.
σb0
2 = σb1
2 = 0.5
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.1
0.2
0.3
0.4
0.5
σb0
2 = σb1
2 = 1
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.1
0.2
0.3
0.4
0.5
σb0
2 = σb1
2 = 2
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.1
0.2
0.3
0.4
0.5
σb0
2 = σb1
2 = 4
Tamaño del conglomerado (ni)
DR
3 6 9 12
0.0
0.1
0.2
0.3
0.4
0.5
Figura 4-16: Mediana de las distancias relativas para ˆσb1i2 en un GLMM BN con σ2
b0=
σ2b1
= 0.5, 1, 2, 4 y cuatro distribuciones bivariadas para el intercepto y pen-
diente aleatoria: —normal, · · · t-student, - - - exponencial, − · − Tukey.
40 4 Resultados del estudio de simulacion
4.2. Impacto sobre los errores tipo I y la potencia de
la prueba de Wald
El impacto de la especificacion incorrecta de la distribucion de los efectos aleatorios
sobre los errores tipo I y la potencia de la prueba de Wald fue estudiada en modelos
lineales generalizados mixtos con intercepto y con intercepto y pendiente aleatoria.
A continuacion se presentan los resultados para el primer caso.
4.2.1. Resultados para los modelos GLMM con intercepto
aleatorio
En las Figuras 4-17 y 4-18 se presentan los resultados de los errores tipo I y de la
potencia para el test estadıstico de Wald al probar la hipotesis de H0: β2 = 0 vs H1:
β2 6= 0 en modelos lineales mixtos generalizados con variable de respuesta Poisson y
BN, respectivamente, usando diferentes valores para β2 (Tabla 3-2) y cuatro tamanos
de muestra ni = 5, 10, 15, 20.
Al ser la distribucion normal, la distribucion asumida para el ajuste del intercepto
aleatorio, se espera que las tasas de rechazo de la hipotesis nula H0: β2 = 0, siendo
β2 = 0 (error tipo I) sean menores cuando la verdadera distribucion del intercepto
aleatorio es normal (lınea —); lo cual efectivamente se logra visualizar en la columna
1 (de izquierda a derecha) en la Figura 4-17. Las mayores tasas se observan cuando
la verdadera distribucion es la lognormal (lınea - · -), indicando con ello un impacto
de la especificacion incorrecta de la distribucion del intercepto aleatorio. Las colum-
nas 2, 3 y 4 corresponden a las tasas de rechazo de la hipotesis H0: β2 = 0, siendo
β2 = 0.5, 1, 1.5, respectivamente. Aquı se espera que las tasas suban hasta llegar al
100 % a medida que aumenta tanto el valor de β2 como el valor de ni y que las corres-
pondientes a la distribucion normal, sean las mayores para todas las configuraciones.
En la Figura 4-17 se observa que para todos los casos, excepto cuando la verdadera
distribucion es la lognormal, las mayores tasas de rechazo corresponden a la normal
y que ademas, para la uniforme, representada por la lınea · · ·, se tienen tasas por
debajo de la normal, lo cual indica tambien un impacto de la especificacion incorrecta
de la distribucion del intercepto aleatorio.
4.2 Impacto sobre los errores tipo I y la potencia de la prueba de Wald 41
β2 = 0, σb2 = 1
Tamaño del conglomerado (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.8
β2 = 0.5, σb2 = 1
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.8
β2 = 1, σb2 = 1
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.8
β2 = 1.5, σb2 = 1
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.8
β2 = 0, σb2 = 2
Tamaño del conglomerado (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.8
β2 = 0.5, σb2 = 2
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.8
β2 = 1, σb2 = 2
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.8
β2 = 1.5, σb2 = 2
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.8
β2 = 0, σb2 = 4
Tamaño del conglomerado (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.8
β2 = 0.5, σb2 = 4
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.8
β2 = 1, σb2 = 4
Tamaño del conglomerado (ni)P
oten
cia
prue
ba
5 10 15 20
0.00.20.40.60.8
β2 = 1.5, σb2 = 4
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.8
β2 = 0, σb2 = 8
Tamaño del conglomerado (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.8
β2 = 0.5, σb2 = 8
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.8
β2 = 1, σb2 = 8
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.8
β2 = 1.5, σb2 = 8
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.8
Figura 4-17: Errores tipo I y potencia para el test de Wald al probar H0: β2 = 0 vs H1:
β2 6= 0 en un GLMM Poisson con intercepto aleatorio, con σ2b = 1, 2, 4, 8 y
cuatro distribuciones para el intercepto aleatorio: —normal - - - mezcla de
normales · · · uniforme - · - lognormal.
La Figura 4-18 presenta un comportamiento similar al encontrado en la Figura 4-2,
ya que se visualiza un impacto de especificar incorrectamente la distribucion del in-
tercepto aleatorio al asumirlo normal cuando en realidad proviene de una distribucion
lognormal. Al igual que los resultados para un modelo GLMM Poisson, el impacto
es mayor a medida que se aumenta los valores de la varianza (se presentan mayores
tasas de rechazo; es decir, mayor probabilidad de cometer un error tipo I).
42 4 Resultados del estudio de simulacion
β2 = 0, σb2 = 1
Tamaño del cluster (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β2 = 1.5, σb2 = 1
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 2, σb2 = 1
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 2.5, σb2 = 1
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0, σb2 = 2
Tamaño del cluster (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β2 = 1.5, σb2 = 2
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 2, σb2 = 2
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 2.5, σb2 = 2
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0, σb2 = 4
Tamaño del cluster (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β2 = 1.5, σb2 = 4
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 2, σb2 = 4
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 2.5, σb2 = 4
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0, σb2 = 8
Tamaño del cluster (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β2 = 1.5, σb2 = 8
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 2, σb2 = 8
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 2.5, σb2 = 8
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
Figura 4-18: Errores tipo I y potencia para el test de Wald al probar H0: β2 = 0 vs H1:
β2 6= 0 en un GLMM BN con intercepto aleatorio, con σ2b = 1, 2, 4, 8 y cuatro
distribuciones para el intercepto aleatorio: —normal - - - mezcla de normales
· · · uniforme - · - lognormal.
4.2.2. Resultados para los modelos GLMM con intercepto y
pendiente aleatoria
Los resultados de los errores tipo I y de la potencia para el test estadıstico de Wald
para las pruebas de hipotesis establecidas en la Tabla 3-3 en el caso de modelos con
respuesta Poisson o BN e intercepto y pendiente aleatoria son presentados en las
Figuras 4-19, 4-20, 4-21 y 4-22.
En la Figura 4-19 se presenta el error tipo I y la potencia del test de Wald para la
prueba de hipotesis H0: β1 = 0 vs H1: β1 6= 0 en un GLMM Poisson, para el que se
consideraron cuatro valores de β1 = 0, 0.3, 0.6, 0.9 y cuatro tamanos de muestra dife-
rentes ni = 5, 10, 15, 20. Las menores tasas de rechazo de la hipotesis nula, siendo esta
verdadera, que se presentan en la columna 1, corresponden a la distribucion normal,
como era lo esperado. Para σ2b0i
= σ2b1i
= 2 y 8 las mayores tasas corresponden a la
distribucion Tukey bivariada (- · -), evidenciandose con esto un impacto de especifi-
car incorrectamente la distribucion de los efectos aleatorios, al asumirlos normales en
4.2 Impacto sobre los errores tipo I y la potencia de la prueba de Wald 43
lugar de Tukey. En cuanto a las tasas de rechazo cuando β1 6= 0, representadas en las
columnas 2, 3 y 4, tambien es posible evidenciar un impacto de dicha especificacion
al obtenerse menores tasas que la normal para la distribucion exponencial bivariada
(lınea · · ·).
β1 = 0, σb2 = 1
Tamaño del conglomerado (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β1 = 0.3, σb2 = 1
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 0.6, σb2 = 1
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 0.9, σb2 = 1
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 0, σb2 = 2
Tamaño del conglomerado (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β1 = 0.3, σb2 = 2
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 0.6, σb2 = 2
Tamaño del conglomerado (ni)P
oten
cia
prue
ba5 10 15 20
0.00.20.40.60.81.0
β1 = 0.9, σb2 = 2
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 0, σb2 = 4
Tamaño del conglomerado (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β1 = 0.3, σb2 = 4
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 0.6, σb2 = 4
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 0.9, σb2 = 4
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 0, σb2 = 8
Tamaño del conglomerado (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β1 = 0.3, σb2 = 8
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 0.6, σb2 = 8
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 0.9, σb2 = 8
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
Figura 4-19: Errores tipo I y potencia para el test de Wald para la prueba de hipotesis
H0: β1 = 0 vs H1: β1 6= 0 en un GLMM Poisson, con σ2b0i
= σ2b1i
= 1, 2, 4, 8
y cuatro distribuciones bivariadas para el intercepto y pendiente aleatoria:
—normal - - - t-student · · · exponencial - · - Tukey.
44 4 Resultados del estudio de simulacion
Los resultados del error tipo I y la potencia del test de Wald al probar la hipotesis
H0: β2 = 0 vs H1: β2 6= 0 en un GLMM Poisson con cuatro valores diferentes para
β2 = 0, 0.04, 0.08, 0.12 y cuatro tamanos de muestra ni = 5, 10, 15, 20 son presentados
en la Figura 4-20. Opuesto a lo encontrado al probar la hipotesis H0: β1 = 0 vs H1:
β1 6= 0, no parece haber un impacto de especificar incorrectamente la distribucion
del intercepto y pendiente aleatoria, puesto que no hay diferencias en las tasas de
rechazo cuando β2 = 0 al comparar las cuatro distribuciones verdaderas para los
efectos aleatorios (columna 1). Respecto a las tasas de rechazo de la hipotesis cuando
β2 6= 0(columnas 2, 3 y 4), no se observan tasas por debajo de la distribucion normal,
pudiendo concluir que tampoco se tienen evidencias de un impacto de especificar
incorrectamente la distribucion de los efectos aleatorios para este caso.
β2 = 0, σb2 = 1
Tamaño del conglomerado (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.04, σb2 = 1
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.08, σb2 = 1
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.12, σb2 = 1
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0, σb2 = 2
Tamaño del conglomerado (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.04, σb2 = 2
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.08, σb2 = 2
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.12, σb2 = 2
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0, σb2 = 4
Tamaño del conglomerado (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.04, σb2 = 4
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.08, σb2 = 4
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.12, σb2 = 4
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0, σb2 = 8
Tamaño del conglomerado (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.04, σb2 = 8
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.08, σb2 = 8
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.12, σb2 = 8
Tamaño del conglomerado (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
Figura 4-20: Errores tipo I y potencia para el test de Wald al probar H0: β2 = 0 vs
H1: β2 6= 0 en un GLMM Poisson, con σ2b0i
= σ2b1i
= 1, 2, 4, 8 y cuatro
distribuciones bivariadas para el intercepto y pendiente aleatoria: —normal
- - - t-student · · · exponencial - · - Tukey.
4.2 Impacto sobre los errores tipo I y la potencia de la prueba de Wald 45
Las Figuras 4-21 y 4-22 por su parte, presentan las tasas de rechazo de las hipotesis
nulas H0: β1 = 0 y H0: β2 = 0 respectivamente, y los resultados de la potencia para
el test estadıstico de Wald asumiendo valores para β1 = 0, 0.7, 1.4, 2.1 y valores para
β2 = 0, 0.2, 0.4, 0.6 en un GLMM BN con intercepto y pendiente aleatoria.
β1 = 0, σb2 = 1
Tamaño del cluster (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β1 = 0.7, σb2 = 1
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 1.4, σb2 = 1
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 2.1, σb2 = 1
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 0, σb2 = 2
Tamaño del cluster (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β1 = 0.7, σb2 = 2
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 1.4, σb2 = 2
Tamaño del cluster (ni)P
oten
cia
prue
ba5 10 15 20
0.00.20.40.60.81.0
β1 = 2.1, σb2 = 2
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 0, σb2 = 4
Tamaño del cluster (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β1 = 0.7, σb2 = 4
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 1.4, σb2 = 4
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 2.1, σb2 = 4
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 0, σb2 = 8
Tamaño del cluster (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β1 = 0.7, σb2 = 8
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 1.4, σb2 = 8
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β1 = 2.1, σb2 = 8
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
Figura 4-21: Errores tipo I y potencia para el test de Wald al probar H0: β1 = 0 vs H1:
β1 6= 0 en un GLMM BN con intercepto y pendiente aleatoria y σ2b0i
= σ2b1i
=
1, 2, 4, 8 y cuatro distribuciones bivariadas para el intercepto y pendiente
aleatoria: —normal - - - t-student · · · exponencial - · - Tukey.
La Figura 4-21, similar a lo encontrado para modelos GLMM Poisson con intercepto
y pendiente aleatoria, presenta evidencias para afirmar que efectivamente hay un
impacto de especificar incorrectamente la distribucion de los efectos aleatorios, puesto
que en la columna 1, en donde se presentan las tasas de rechazo de la hipotesis H0:
β1 = 0 vs H1: β1 6= 0, cuando β1 = 0 (error tipo I), las mayores tasas corresponden a
las distribuciones exponencial y Tukey bivariadas, lo cual se hace mucho mas evidente
a medida que aumenta el valor de la varianza y cuando esta tiene un valor de σ2b0i
=
σ2b1i
= 8. Adicional, si se observan las columnas 2, 3 y 4, en donde se presenta
la potencia del test de Wald al rechazar la hipotesis de interes, siendo esta falsa,
se puede observar como para algunos valores de β1 y de σ2b0i
= σ2b1i
las tasas son
menores cuando la verdadera distribucion de los efectos es la exponencial bivariada,
si se compara con los resultados obtenidos para la distribucion normal bivariada,
46 4 Resultados del estudio de simulacion
senalando un impacto de la especificacion incorrecta de la distribucion de los efectos
aleatorios.
β2 = 0, σb2 = 1
Tamaño del cluster (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.2, σb2 = 1
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.4, σb2 = 1
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.6, σb2 = 1
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0, σb2 = 2
Tamaño del cluster (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.2, σb2 = 2
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.4, σb2 = 2
Tamaño del cluster (ni)P
oten
cia
prue
ba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.6, σb2 = 2
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0, σb2 = 4
Tamaño del cluster (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.2, σb2 = 4
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.4, σb2 = 4
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.6, σb2 = 4
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0, σb2 = 8
Tamaño del cluster (ni)
Tasa
de
rech
azo
(H0)
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.2, σb2 = 8
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.4, σb2 = 8
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
β2 = 0.6, σb2 = 8
Tamaño del cluster (ni)
Pot
enci
a pr
ueba
5 10 15 20
0.00.20.40.60.81.0
Figura 4-22: Errores tipo I y potencia para el test de Wald al probar H0: β2 = 0 vs H1:
β2 6= 0 en un GLMM BN con intercepto y pendiente aleatoria y σ2b0i
= σ2b1i
=
1, 2, 4, 8 y cuatro distribuciones bivariadas para el intercepto y pendiente
aleatoria: —normal - - - t-student · · · exponencial - · - Tukey.
Finalmente, en la Figura 4-22 son presentadas las tasas de rechazo de la prueba de
hipotesis H0: β2 = 0 vs H1: β2 6= 0 en un GLMM BN con intercepto y pendiente
aleatoria, que al igual que lo observado en un GLMM Poisson, no parece haber
evidencia del impacto de especificar incorrectamente la distribucion de los efectos
aleatorios.
5 Conclusiones
A traves de un estudio de simulacion, que considero diferentes modelos lineales gene-
ralizados mixtos con variables de respuesta Poisson o BN y con intercepto e intercepto
y pendiente aleatoria, se logro cuantificar el impacto de la especificacion incorrecta de
la distribucion de los efectos aleatorios. A continuacion se presentan las principales
conclusiones en cuanto al impacto sobre la estimacion de los parametros y sobre los
errores tipo I y potencia de la prueba de Wald.
5.1. Impacto de la especificacion incorrecta sobre la
estimacion de los parametros
En los resultados presentados del ajuste de un modelo mixto Poisson con intercepto
aleatorio se observo un impacto de la especificacion incorrecta de la distribucion del
efecto aleatorio en la estimacion del valor de σ2b , y a medida que este valor aumento de
σ2b = 1 a σ2
b = 16. Este impacto fue mayor cuando la verdadera distribucion fue la
lognormal.
Para el caso de un modelo mixto BN con intercepto aleatorio el impacto de la espe-
cificacion incorrecta es mayor para el parametro poblacional β0 en comparacion con
los demas parametros, ya que tiene los valores mas altos para las medianas de las
distancias relativas y como se indico a lo largo de las secciones 2 y 3 “a mayor valor
de la distancia relativa, mayor sera el impacto de la especificacion incorrecta”. Por
otra parte, dicho impacto tambien fue mayor al simular el intercepto aleatorio con
una distribucion lognormal, que por sus caracterısticas, es la que mas se aleja de la
normalidad, en cuanto a las distribuciones consideradas para el estudio; lo cual se
hace mucho mas evidente al aumentar la varianza. Tambien hay que resaltar de los
resultados del estudio de simulacion que el impacto de la especificacion incorrecta
disminuye a medida que se aumenta el tamano del conglomerado ni, al igual que lo
observado con el modelo mixto Poisson de intercepto aleatorio.
En terminos generales, se encontro que las estimaciones del componente de varianza
σ2b fueron las mas afectadas por la especificacion incorrecta de la distribucion del
48 5 Conclusiones
efecto aleatorio al ajustar tanto un modelo mixto Poisson y un BN con intercep-
to aleatorio. Ademas, para este ultimo caso, tambien se encontro un impacto para
la estimacion del parametro β0. Estos impactos se produjeron cuando la verdadera
distribucion fue la lognormal y cuando se aumento el valor de σ2b .
Los resultados de los ajustes de los modelos mixtos Poisson y BN con intercepto y
pendiente aleatoria mostraron que efectivamente hay un impacto de la especificacion
incorrecta de las distribuciones de dichos efectos. Para el modelo Poisson los mayores
impactos se presentaron en la estimacion de los parametros β0 y β1 y en el com-
ponente de varianza σ2b0
, en donde en este ultimo, los valores de distancia relativa
alcanzaron hasta la frontera de 1800 %. Tambien se observo que en casi todas las con-
figuraciones, la distribucion Tukey bivariada fue la que obtuvo los mayores valores
de las medianas de las distancias relativas, senalando con esto, los mayores impactos
de la especificacion incorrecta de la distribucion de los efectos aleatorios.
En los ajustes de un modelo BN con intercepto y pendiente aleatoria se obtuvieron
resultados muy diferentes a los encontrados en los ajustes tanto de los modelos de
efectos mixtos con intercepto y con intercepto y pendiente aleatoria con variable de
respuesta Poisson, puesto que para las estimaciones del parametro β0 y de σ2b0
los ma-
yores valores de las distancias relativas resultaron ser para las distribuciones normal
y t-student bivariadas, sabiendo que para la primera de ellas no hay especificacion
incorrecta. En cuanto a las estimaciones de β1 y σ2b1
si se encontro un impacto de
la especificacion incorrecta y dicho impacto fue mayor cuando la verdadera distri-
bucion de los efectos aleatorios fue la Tukey bivariada. Finalmente, las estimaciones
del parametro β2 resultaron ser muy similares al verdadero valor, marcando con esto
valores de las distancias relativas no superiores al 15 %.
Con el estudio de simulacion que incluıa modelos mixtos con intercepto aleatorio uni-
camente o intercepto y pendiente aleatoria se logro identificar, en terminos generales,
que sı hay un impacto de la especificacion incorrecta de la distribucion de los efectos
aleatorios y que dicho impacto se presento en mayor medida para los componentes de
varianza de los efectos mixtos en ambos casos y para el parametro de β1 en los mo-
delos Poisson y BN con intercepto y pendiente aleatoria. Tambien se logro observar
que los mayores valores de DR se obtuvieron principalmente al ajustar los modelos
de dos efectos aleatorios (intercepto y pendiente aleatoria) en comparacion con los
de un solo efecto (intercepto aleatorio).
5.2 Impacto de la especificacion incorrecta sobre los errores tipo I y potencia de laprueba de Wald 49
5.2. Impacto de la especificacion incorrecta sobre los
errores tipo I y potencia de la prueba de Wald
En esta seccion el objetivo era identificar si efectivamente se presenta un impacto de
la especificacion incorrecta de la distribucion de los efectos aleatorios en los procedi-
mientos inferenciales de pruebas de hipotesis de tipo Wald. Se simularon conjuntos de
datos con variables de respuesta Poisson o BN, a los cuales se les ajustaron modelos
lineales generalizados mixtos considerando, en algunos casos, intercepto aleatorio y
en otros, intercepto y pendiente aleatoria.
Para ambos casos, Poisson y BN con intercepto aleatorio, se encontro un impacto de
especificar incorrectamente la distribucion de dicho intercepto, al obtenerse mayores
tasas de rechazo de la hipotesis H0: β2 = 0 vs H1: β2 6= 0, siendo β2 = 0; es decir,
mayores probabilidades de cometer error tipo I cuando la verdadera distribucion del
intercepto es lognormal, y que ademas el impacto es mayor a medida que se aumentan
los valores de la varianza para el intercepto aleatorio. Tambien se encontro evidencia
de dicho impacto con las menores tasas de rechazo cuando la verdadera distribucion
fue la uniforme al ser β2 6= 0; es decir, con menores tasas para la potencia del test.
En los casos en los cuales se ajustaron modelos lineales generalizados mixtos con
respuesta Poisson o BN e intercepto y pendiente aleatoria, y que el interes estuvo
en las pruebas de hipotesis de tipo Wald para determinar un efecto o del parametro
β1 o del parametro β2, se encontro efectivamente un impacto de la especificacion
incorrecta de la distribucion de los efectos aleatorios al probar la hipotesis H0: β1 = 0
vs H1: β1 6= 0, tanto para el ajuste de modelos Poisson como BN. Dicho impacto se
observo con las mayores tasas de rechazo al ser la hipotesis nula verdadera; es decir,
con las mayores probabilidades de cometer error tipo I, cuando la distribucion real
de los efectos aleatorios era Tukey bivariada y con las menores tasas de rechazo al ser
la hipotesis nula falsa, relacionado con la potencia estadıstica, cuando la verdadera
distribucion fue la exponencial bivariada. Al probar la hipotesis H0: β2 = 0 vs H1:
β2 6= 0 no se encontraron evidencias de la especificacion incorrecta de la distribucion
de los efectos aleatorios.
5.3. Trabajos a futuro
Si bien en este trabajo se abordo el problema de la especificacion incorrecta de la dis-
tribucion de los efectos aleatorios, autores como McCulloch & Neuhaus (2011) iden-
tifican otros aspectos de la especificacion incorrecta, tales como que la distribucion
de los efectos aleatorios puede depender de una covariable o que dicha dependencia
50 5 Conclusiones
puede ser sobre el tamano de muestra del conglomerado. Por tanto, como trabajo a
futuro, serıa interesante estudiar el impacto en las estimaciones de los parametros en
los modelos lineales generalizados mixtos en tales tipos de especificaciones, al igual
que las relacionadas con la especificacion incorrecta de la funcion de enlace, no tener
en cuenta la presencia de sobredispersion, etcetera.
Bibliografıa
Agresti, A., Caffo, B. & Ohman-Strickland, P. (2004), ‘Examples in which misspeci-
fication of a random effects distribution reduces efficiency, and possible remedies’,
Computational Statistics and Data Analysis 47(3), 639–653.
Alonso, A., Litiere, S. & Molenberghs, G. (2008), ‘A family of tests to detect miss-
pecifications in the random-effects structure of generalized linear mixed models’,
Computational statistics and data analysis 52(9), 4474–4486.
Alonso, A., Litiere, S. & Molenberghs, G. (2010), ‘Testing for misspecification in
generalized linear mixed models’, Biostatistics 11(4), 771–786.
Alonso, A., Milanzi, E., Molenberghs, G., Buyck, C. & Bijnens, L. (2015), ‘A new
modeling approach for quantifying expert opinion in the drug discovery process’,
Statistics in medicine 34(9), 1590–1604.
Bolker, B. M., Brooks, M. E., Clark, C. J., Geange, S. W., Poulsen, J. R., Stevens, M.
H. H. & White, J. S. (2009), ‘Generalized linear mixed models: a practical guide
for ecology and evolution’, Trends in ecology and evolution 24(3), 127–135.
Claeskens, G. & Hart, J. (2009), ‘Goodness-of-fit tests in mixed models’, Test
18(2), 213–239.
Cook, R. J., Lee, K. A. & Li, H. (2007), ‘Non-inferiority trial design for recurrent
events’, Statistics in medicine 26(25), 4563–4577.
DeGroot, M. H. & Schervish, M. J. (1988), Probabilidad y estadıstica, Editorial Ad-
dison Wesley, Mexico.
Efendi, A., Drikvandi, R., Verbeke, G. & Molenberghs, G. (2014), ‘A goodness-of-fit
test for the random-effects distribution in mixed models’, Statistical methods in
medical research .
Fabio, L. C., Paula, G. A. & De Castro, M. (2012), ‘A Poisson mixed model with
nonnormal random effect distribution’, Computational Statistics and Data Analysis
56(6), 1499–1510.
52 Bibliografıa
Fitzmaurice, G. M., Laird, N. M. & Ware, J. H. (2011), Applied longitudinal analysis,
segunda edn, John Wiley and Sons, Boston, Massachusetts.
Gad, A. M. & El Kholy, R. B. (2012), ‘Generalized Linear mixed models for Longi-
tudinal Data’, International Journal of Probability and Statistics 1(3), 41–47.
Heagerty, P. J. & Kurland, B. F. (2001), ‘Misspecified maximum likelihood estimates
and generalised linear mixed models’, Biometrika 88(4), 973–985.
Hilbe, J. M. (2011), Negative binomial regression, Cambridge University Press.
Huang, X. (2009), ‘Diagnosis of Random-Effect Model Misspecification in Generalized
Linear Mixed Models for Binary Response’, Biometrics 65(2), 361–368.
Huang, X. (2011), ‘Detecting random-effects model misspecification via coarsened
data’, Computational Statistics and Data Analysis 55(1), 703–714.
Huang, X. (2013), ‘TESTS FOR RANDOM EFFECTS IN LINEAR MIXED MO-
DELS USING MISSING DATA’, Statistica Sinica pp. 1043–1070.
Kojima, M. & Kubokawa, T. (2013), ‘Bartlett-type adjustments for hypothesis testing
in linear models with general error covariance matrices’, Journal of Multivariate
Analysis 122, 162–174.
Komarek, A. & Lesaffre, E. (2008), ‘Generalized linear mixed model with a penalized
Gaussian mixture as a random effects distribution’, Computational Statistics and
Data Analysis 52(7), 3441–3458.
Kondo, Y., Zhao, Y. & Petkau, J. (2015), ‘A flexible mixed-effect negative binomial
regression model for detecting unusual increases in MRI lesion counts in individual
multiple sclerosis patients’, Statistics in medicine 34(13), 2165–2180.
Lagishetty, C. & Duffull, S. (2015), ‘Evaluation of Approaches to Deal with Low-
Frequency Nuisance Covariates in Population Pharmacokinetic Analyses’, The
AAPS journal 17(6), 1388–1394.
Lange, N. & Ryan, L. (1989), ‘Assessing normality in random effects models’, The
Annals of Statistics pp. 624–642.
Laouenan, C., Guedj, J. & Mentre, F. (2013), ‘Clinical trial simulation to evaluate
power to compare the antiviral effectiveness of two hepatitis C protease inhibi-
tors using nonlinear mixed effect models: a viral kinetic approach’, BMC medical
research methodology 13(1), 1.
LeBeau, B. (2013), Misspecification of the covariance matrix in the linear mixed
model: A monte carlo simulation, PhD thesis, UNIVERSITY OF MINNESOTA.
Bibliografıa 53
Lin, K. (2010), ‘Goodness-of-fit tests for modeling longitudinal ordinal data’, Compu-
tational Statistics and Data Analysis 54(7), 1872–1880.
Litiere, S., Alonso, A. & Molenberghs, G. (2007), ‘Type I and Type II Error Under
Random-Effects Misspecification in Generalized Linear Mixed Models’, Biometrics
63(4), 1038–1044.
Litiere, S., Alonso, A. & Molenberghs, G. (2008), ‘The impact of a misspecified
random-effects distribution on the estimation and the performance of inferential
procedures in generalized linear mixed models’, Statistics in medicine 27(16), 3125–
3144.
Manor, O. & Zucker, D. (2004), ‘Small sample inference for the fixed effects in the
mixed linear model’, Computational statistics and data analysis 46(4), 801–817.
McCullagh, P. & Nelder, J. (1989), Generalized linear models, Vol. 37, CRC press.
McCulloch, C. E. & Neuhaus, J. M. (2011), ‘Misspecifying the shape of a ran-
dom effects distribution: why getting it wrong may not matter’, Statistical science
pp. 388–402.
Melo, T., Ferrari, S. & Cribari-Neto, F. (2009), ‘Improved testing inference in mixed
linear models’, Computational Statistics & Data Analysis 53(7), 2573–2582.
Milanzi, E., Alonso, A. & Molenberghs, G. (2012), ‘Ignoring overdispersion in hie-
rarchical loglinear models: Possible problems and solutions’, Statistics in medicine
31(14), 1475–1482.
Molenberghs, G. & Verbeke, G. (2005), Models for Discrete Longitudinal Data. Sprin-
ger Series in Statistics, Springer.
Nelder, J. & Wedderburn, R. (1972), ‘Generalized Linear Models’, Journal of the
Royal Statistical Society. Series A (general) 135(3), 370–384.
Neuhaus, J. M., Hauck, W. W. & Kalbfleisch, J. D. (1992), ‘The effects of mixture
distribution misspecification when fitting mixed-effects logistic models’, Biometrika
79(4), 755–762.
Neuhaus, J. M. & McCulloch, C. E. (2006), ‘Separating between-and within-cluster
covariate effects by using conditional and partitioning methods’, Journal of the
Royal Statistical Society: Series B (Statistical Methodology) 68(5), 859–872.
Neuhaus, J. M. & McCulloch, C. E. (2011a), ‘Estimation of covariate effects in gene-
ralized linear mixed models with informative cluster sizes’, Biometrika 98(1), 147–
162.
54 Bibliografıa
Neuhaus, J. M. & McCulloch, C. E. (2011b), ‘The effect of misspecification of random
effects distributions in clustered data settings with outcome-dependent sampling’,
Canadian Journal of Statistics 39(3), 488–497.
Neuhaus, J. M., McCulloch, C. E. & Boylan, R. (2011), ‘A Note on Type II Error
Under Random Effects Misspecification in Generalized Linear Mixed Models’, Bio-
metrics 67(2), 654–656.
Neuhaus, J. M., McCulloch, C. E. & Boylan, R. (2012), ‘Estimation of covariate ef-
fects in generalized linear mixed models with a misspecified distribution of random
intercepts and slopes’, Statistics in medicine 32(14), 2419–2429.
Noe, D., Bailer, A. & Noble, R. (2010), ‘Comparing methods for analyzing overdis-
persed count data in aquatic toxicology’, Environmental Toxicology and Chemistry
29(1), 212–219.
Oberfeld, D. & Franke, T. (2013), ‘Evaluating the robustness of repeated measures
analyses: The case of small sample sizes and nonnormal data’, Behavior Research
Methods 45(3), 792–812.
Overall, J. & Tonidandel, S. (2004), ‘Robustness of generalized estimating equation
(GEE) tests of significance against misspecification of the error structure model’,
Biometrical Journal 46(2), 203–213.
Panhard, X. & Mentre, F. (2005), ‘Evaluation by simulation of tests based on
non-linear mixed-effects models in pharmacokinetic interaction and bioequivalence
cross-over trials’, Statistics in medicine 24(10), 1509–1524.
Pinheiro, J., Liu, C. & Wu, Y. N. (2001), ‘Efficient algorithms for robust estimation
in linear mixed-effects models using the multivariate t distribution’, Journal of
Computational and Graphical Statistics 10(2), 249–276.
Retout, S., Comets, E., Samson, A. & Mentre, F. (2007), ‘Design in nonlinear mixed
effects models: optimization using the Fedorov–Wynn algorithm and power of the
Wald test for binary covariates’, Statistics in Medicine 26(28), 5162–5179.
Spiessens, B., Lesaffre, E., Verbeke, G. & Kim, K. (2002), ‘Group Sequential Methods
for an Ordinal Logistic Random-Effects Model Under Misspecification’, Biometrics
58(3), 569–575.
Trochez, J. (2016), Efecto de la variacion en el metodo de estimacion del modelo lineal
mixto usando distribuciones sesgadas, Master’s thesis, Universidad Nacional.
Bibliografıa 55
Tsonaka, R., Rizopoulos, D., Verbeke, G. & Lesaffre, E. (2010), ‘Nonignorable
models for intermittently missing categorical longitudinal responses’, Biometrics
66(3), 834–844.
Valencia, A. (2014), ‘El uso de la distribucion gh en riesgo operativo’, Contadurıa y
administracion 59(1), 123–148.
Valencia, M. (2010), Estimacion en modelos lineales mixtos con datos continuos usan-
do transformaciones y distribuciones no normales, Master’s thesis, Universidad
Nacional.
Vaudor, L., Lamouroux, N., Olivier, J. & Forcellini, M. (2015), ‘How sampling in-
fluences the statistical power to detect changes in abundance: an application to
river restoration’, Freshwater Biology 60(6), 1192–1207.
Verbeke, G. & Lesaffre, E. (1997), ‘The effect of misspecifying the random-effects
distribution in linear mixed models for longitudinal data’, Computational Statistics
and Data Analysis 23(4), 541–556.
Verbeke, G. & Molenberghs, G. (2000), Linear mixed models for longitudinal data,
Springer.
Verbeke, G. & Molenberghs, G. (2013), ‘The gradient function as an exploratory
goodness-of-fit assessment of the random-effects distribution in mixed models’,
Biostatistics 14(3), 477.
Vock, D., Davidian, M. & Tsiatis, A. (2014), ‘SNP NLMM: A SAS Macro to Im-
plement a Flexible Random Effects Density for Generalized Linear and Nonlinear
Mixed Models’, Journal of statistical software 56, 2.
Wu, P., Zhu, L. & Fang, Y. (2012), ‘Checking for normality in linear mixed models’,
Science China Mathematics 55(4), 787–804.
Xiang, L., Yau, K. K. & Lee, A. H. (2012), ‘The robust estimation method for a
finite mixture of Poisson mixed-effect models’, Computational Statistics and Data
Analysis 56(6), 1994–2005.
Zhang, B., Liu, W., Zhang, H., Chen, Q. & Zhang, Z. (2016), ‘A note on misspecifi-
cation in joint modeling of correlated data with informative cluster sizes’, Journal
of Statistical Planning and Inference 170, 46–63.
Zhang, D. & Davidian, M. (2001), ‘Linear mixed models with flexible distributions
of random effects for longitudinal data’, Biometrics 57(3), 795–802.
56 Bibliografıa
Zhao, Y., Li, D. K., Petkau, A. J., Riddehough, A. & Traboulsee, A. (2014), ‘Detection
of unusual increases in MRI lesion counts in individual multiple sclerosis patients’,
Journal of the American Statistical Association 109(505), 119–132.