Impacto de especi car incorrectamente la distribuci on de ...

Impacto de especificarincorrectamente la distribucion de los

efectos aleatorios en los modeloslineales generalizados mixtos: caso

Poisson y Binomial Negativa

Diana Marıa Arango Botero

Universidad Nacional de Colombia

Sede Medellın

Facultad de Ciencias

Escuela de Estadıstica

Medellın, Colombia

2016

Impacto de especificarincorrectamente la distribucion de los

efectos aleatorios en los modeloslineales generalizados mixtos: caso

Poisson y Binomial Negativa

Diana Marıa Arango Botero

Trabajo presentado como requisito parcial para optar al tıtulo de:

Magıster en Estadıstica

Director:

Freddy Hernandez Barajas, Ph.D. en Estadıstica

Universidad Nacional de Colombia

Sede Medellın

Facultad de Ciencias

Escuela de Estadıstica

Medellın, Colombia

2016

Don’t let your dreams, be dreams!

Agradecimientos

Cuando la gratitud es tan absoluta las palabras sobran (Alvaro Mutis).

Supongo que hizo referencia a dicha frase porque en lugar de pronunciar su gratitud con

las palabras, lo hacıa a traves de una mirada, de una sonrıa, de algun gesto caracterıstico,

en fin. . .

Aunque tambien ya lo he hecho de la misma manera, pienso que de ninguna forma las

palabras sobran y por eso quiero expresar mis profundos agradecimientos a:

Mi director, porque con su apoyo, paciencia y ensenanzas, finalmente pude completar este

trabajo de investigacion.

Mi familia, porque con su presencia, justifican este paso y muchos mas por dar.

La Universidad Nacional de Colombia y a todos los integrantes que participaron en los

procesos academicos y administrativos para hacer esto posible.

La Fundacion Juan Pablo Gutierrez Caceres, porque gracias a ellos es que hoy puedo decir

que la confianza que depositaron en mı, al concederme la beca – credito, no fue en vano.

Los companeros y jefes que hacen parte del Instituto Tecnologico Metropolitano, por brin-

darme la oportunidad de sumergirme aun mas en este cuento de la investigacion.

Al amor, hecho persona.

ix

Resumen

Los modelos lineales generalizados mixtos extienden los modelos lineales al considerar

variables de respuesta, cuya funcion de densidad de probabilidad provienen de cualquiera

de las distribuciones pertenecientes a la familia exponencial (Normal, Poisson, Gamma,

Binomial, Beta, entre otras), y tambien permiten considerar la inclusion de efectos aleato-

rios. La estimacion de los parametros fijos en dichos modelos se basa principalmente en la

funcion de maxima verosimilitud, en donde se suponen que las asunciones sobre el modelo

son correctas. Una de estas asunciones radica en la especificacion de la distribucion de

los efectos aleatorios. En la literatura estadıstica algunos autores han abordado los efectos

de la incorrecta especificacion de dicha distribucion en los modelos lineales generalizados

mixtos con respuesta normal y binaria (Neuhaus et al. 1992, Heagerty & Kurland 2001,

Neuhaus & McCulloch 2006, Litiere et al. 2007, Komarek & Lesaffre 2008, Huang 2009,

Neuhaus & McCulloch 2011b), pero han sido pocos los trabajos en los que se han analiza-

do modelos lineales generalizados mixtos con respuesta Poisson (Fabio et al. 2012, Milanzi

et al. 2012, Cook et al. 2007) y con respuesta Binomial Negativa (Kondo et al. 2015, Zhao

et al. 2014). A traves de un estudio de simulacion, en donde se consideraron diferentes

distribuciones para los efectos aleatorios en modelos lineales generalizados mixtos, con una

variable de respuesta Poisson y Binomial Negativa, se logro identificar el impacto de espe-

cificar incorrectamente dicha distribucion. El impacto en la estimacion de los parametros

fijos y en los componentes de varianza de los efectos aleatorios se evaluo en terminos de la

distancia relativa, presentandose los mayores valores para los componentes de varianza en

general y al ajustar modelos de intercepto y pendiente aleatoria. Respecto al impacto de

la especificacion incorrecta sobre los errores tipo I y potencia de la prueba de Wald, dicho

impacto fue determinado mediante las tasas de rechazo de las hipotesis de no efecto de los

parametros evaluados, obteniendose las mayores tasas cuando la verdadera distribucion fue

la lognormal en el caso de modelos con intercepto aleatorio y Tukey bivariada, para los de

intercepto y pendiente aleatoria.

Palabras clave: Modelos lineales generalizados mixtos, especificacion incorrecta, efectos aleato-

rios, error tipo I, potencia estadıstica, prueba de Wald.

Abstract

The generalized linear mixed models extend the linear models to consider response va-

riables, whose probability density function derive from any of the distributions belonging

to the exponential family (Normal, Poisson, Gamma, Binomial, Beta, etc.), and also allow

consider the inclusion of random effects. The estimation of fixed parameters in these mo-

dels is mainly based on the maximum likelihood function, where it is assumed that the

x

assumptions of the model are correct. One of these assumptions is in the specification of

the distribution of random effects. In the statistical literature some authors have addressed

the effects of misspecification of such distribution in generalized linear mixed models with

normal and binary response (Neuhaus et al. 1992, Heagerty & Kurland 2001, Neuhaus

& McCulloch 2006, Litiere et al. 2007, Komarek & Lesaffre 2008, Huang 2009, Neuhaus

& McCulloch 2011b), but there have been few jobs that have analyzed generalized linear

mixed models with Poisson response (Fabio et al. 2012, Milanzi et al. 2012, Cook et al.

2007) and with Negative Binomial response (Kondo et al. 2015, Zhao et al. 2014). Through

a simulation study, where different distributions were considered for the random effects

in the generalized linear mixed models, with a Poisson and Negative Binomial response

variable, the impact of misspecification of such distribution was identified. The impact on

the estimation of the fixed parameters and on the variance components of the random

effects was evaluated in terms of the relative distance, presenting the highest values for

the components of variance in general and adjusting random intercept and slope models.

Regarding the impact of the incorrect specification on Type I rates and power for the

Wald-test, this impact was determined by the rejection rates of the non-effect hypothesis

of the evaluated parameters, obtaining the highest rates when the true distribution was

the Lognormal in the case of random intercept models and Tukey bivariate, for those of

random intercept and slope.

Keywords: Generalized linear mixed models, misspecification, random effects, type I error, sta-

tistical power, Wald-test.

Contenido

Agradecimientos VII

Resumen IX

1 Introduccion 1

2 Marco teorico 3

2.1 Modelos lineales generalizados mixtos . . . . . . . . . . . . . . . . . . . . . 3

2.2 Distribucion Poisson y Binomial Negativa . . . . . . . . . . . . . . . . . . 5

2.3 Inferencias en los GLMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.4 Prueba de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.5 Estimacion de los parametros fijos . . . . . . . . . . . . . . . . . . . . . . . 8

2.6 Error tipo I y potencia en las pruebas de hipotesis . . . . . . . . . . . . . . 13

2.7 Ejemplos con datos reales en donde los efectos aleatorios no son normales . 16

2.7.1 Onicomicosis por dermatofito en la una del dedo del pie . . . . . . . 16

2.7.2 Datos de la vivienda en Boston . . . . . . . . . . . . . . . . . . . . 16

2.7.3 Actividad enzimatica . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.7.4 Crecimiento de la distancia de ortodoncia en ninos y ninas . . . . . 17

2.7.5 Niveles de colesterol – Estudio de Framingham . . . . . . . . . . . . 17

2.7.6 Esquizofrenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3 Estudio de simulacion 19

3.1 Impacto sobre la estimacion de los parametros fijos . . . . . . . . . . . . . 19

3.1.1 Modelos Poisson y Binomial Negativa con intercepto aleatorio . . . 19

3.1.2 Modelos Poisson y Binomial Negativa con intercepto y pendiente

aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.2 Impacto sobre el error tipo I y la potencia de la prueba de Wald . . . . . . 23

3.2.1 Modelos GLMM con intercepto aleatorio y variable respuesta Poisson

y Binomial Negativa . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.2.2 Modelos GLMM con intercepto y pendiente aleatoria y variable de

respuesta Poisson y Binomial Negativa . . . . . . . . . . . . . . . . 25

xii Contenido

4 Resultados del estudio de simulacion 27

4.1 Impacto sobre la estimacion de los parametros . . . . . . . . . . . . . . . . 27

4.1.1 Resultados para el caso de modelos con intercepto aleatorio . . . . . 27

4.1.2 Resultados para el caso de modelos con intercepto y pendiente aleatoria 32

4.2 Impacto sobre los errores tipo I y la potencia de la prueba de Wald . . . . 40

4.2.1 Resultados para los modelos GLMM con intercepto aleatorio . . . . 40

4.2.2 Resultados para los modelos GLMM con intercepto y pendiente alea-

toria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5 Conclusiones 47

5.1 Impacto de la especificacion incorrecta sobre la estimacion de los parametros 47

5.2 Impacto de la especificacion incorrecta sobre los errores tipo I y potencia de

la prueba de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

5.3 Trabajos a futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

Bibliografıa 51

Lista de Tablas

2-1. Metodos de estimacion en los GLMM . . . . . . . . . . . . . . . . . . . . . . 7

2-2. Capacidades de los diferentes paquetes de software para el analisis de GLMM . . 15

3-1. Datos simulados del modelo mixto Poisson con m = 100, ni = 6, σ2b = 4 e

intercepto aleatorio normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3-2. Hipotesis de interes y valores de β2 usados para las simulaciones de modelos

GLMM con intercepto aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . 25

3-3. Hipotesis de interes y valores de los parametros usados en las simulaciones de

modelos GLMM Poisson y BN con intercepto y pendiente aleatoria . . . . . . . 26

Lista de Figuras

3-1. Distribuciones consideradas para el intercepto aleatorio: normal, mezcla de

normales, uniforme y lognormal, con media igual a 0 y varianza igual a 2. . 21

3-2. Contornos de las distribuciones consideradas para el intercepto y pendien-

te aleatoria: normal bivariada, t-student bivariada, exponencial bivariada y

Tukey bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4-1. Mediana de las distancias relativas para β0 en un GLMM Poisson con inter-

cepto aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28


cepto aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4-3. Mediana de las distancias relativas para σ2b en un GLMM Poisson con inter-

cepto aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4-4. Mediana de las distancias relativas para β0 en un GLMM BN con intercepto

aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4-5. Mediana de las distancias relativas para β1 en un GLMM BN con intercepto

aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4-6. Mediana de las distancias relativas para σ2b en un GLMM BN con intercepto

aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32


cepto y pendiente aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 33





4-10.Mediana de las distancias relativas para σ2b0i

en un GLMM Poisson con

intercepto y pendiente aleatoria . . . . . . . . . . . . . . . . . . . . . . . . 35


en un GLMM Poisson con

intercepto y pendiente aleatoria . . . . . . . . . . . . . . . . . . . . . . . . 35

4-12.Mediana de las distancias relativas para β0 en un GLMM BN con intercepto

y pendiente aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36



xvi Lista de Figuras




en un GLMM BN con intercepto



en un GLMM BN con intercepto


4-17.Errores tipo I y potencia - test de Wald en un GLMM Poisson con intercepto

aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4-18.Errores tipo I y potencia - test de Wald en un GLMM BN con intercepto

aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4-19.Errores tipo I y potencia - test de Wald para H0: β1 = 0 en un GLMM

Poisson con intercepto y pendiente aleatoria . . . . . . . . . . . . . . . . . 43

4-20.Errores tipo I y potencia - test de Wald para H0: β2 = 0 en un GLMM

Poisson con intercepto y pendiente aleatoria . . . . . . . . . . . . . . . . . 44

4-21.Errores tipo I y potencia - test de Wald para H0: β1 = 0 en un GLMM BN

con intercepto y pendiente aleatoria . . . . . . . . . . . . . . . . . . . . . . 45

4-22.Errores tipo I y potencia - test de Wald para H0: β2 = 0 en un GLMM BN

con intercepto y pendiente aleatoria . . . . . . . . . . . . . . . . . . . . . . 46

1 Introduccion

En los modelos lineales generalizados mixtos es comun que se asuma la distribucion normal

para la distribucion de los efectos aleatorios, pero ¿que pasarıa si se cambian los supuestos

de normalidad sobre dicha distribucion? En la literatura estadıstica algunos autores han

abordado los efectos de la especificacion incorrecta de la distribucion de los efectos aleato-

rios en los modelos lineales generalizados mixtos con respuesta normal y binaria (Neuhaus

et al. 1992, Heagerty & Kurland 2001, Neuhaus & McCulloch 2006, Litiere et al. 2007,

Komarek & Lesaffre 2008, Huang 2009, Neuhaus & McCulloch 2011b), pero han sido po-

cos los trabajos en los que se han analizado modelos lineales generalizados mixtos con

respuesta Poisson (Fabio et al. 2012, Milanzi et al. 2012, Cook et al. 2007) y con respuesta

Binomial Negativa (Kondo et al. 2015, Zhao et al. 2014). Por lo anterior, el objetivo de

este trabajo de investigacion es el de identificar el impacto de la especificacion incorrecta

de la distribucion de los efectos aleatorios tanto en las estimaciones de los parametros fijos

y los componentes de varianza, como en los errores tipo I y la potencia estadıstica de la

prueba de Wald en modelos lineales generalizados mixtos.

Para llevar a cabo dicho objetivo, este trabajo considera los siguientes capıtulos. En el

capıtulo dos se presenta el marco teorico, el cual incluye una breve descripcion de los

modelos lineales generalizados mixtos, sus metodos de inferencia, algunas funciones y pa-

quetes de software para ajustarlos, una revision de literatura con los principales aportes

de investigadores y academicos frente al problema de la especificacion incorrecta de la dis-

tribucion de los efectos aleatorios en algunos procedimientos inferenciales relacionados con

la estimacion de los parametros fijos y pruebas de hipotesis asociadas a estos; ademas de

presentar algunos ejemplos de casos reales en donde se ha demostrado la no normalidad

de los efectos aleatorios. En el capıtulo tres se describe el estudio de simulacion realizado

para determinar el impacto de especificar incorrectamente la distribucion de los efectos

aleatorios en modelos lineales generalizados mixtos con respuesta Poisson y Binomial Ne-

gativa sobre: 1)la estimacion de los parametros fijos y 2) el error tipo I y potencia del

test estadıstico de Wald. En el capıtulo cuatro se presentan los principales resultados del

estudio de simulacion y finalmente en el capıtulo cinco se establecen las conclusiones del

trabajo de investigacion.

2 Marco teorico

En este capıtulo se presenta una breve descripcion de los modelos lineales generalizados

mixtos y una revision de literatura que abarca los principales aportes de investigadores

respecto al impacto de la especificacion incorrecta de la distribucion de los efectos aleatorios

tanto en la estimacion de los parametros fijos como en algunos procedimientos inferenciales

de prueba de hipotesis sobre dichos parametros.

2.1. Modelos lineales generalizados mixtos

Suponga que el resultado de un proceso se denota por una variable aleatoria Y , llamada

variable dependiente (o de estudio), y que la media de esta depende de p variables inde-

pendientes (o explicativas) denotadas por X1, ..., Xp. Suponga que el comportamiento de

Y se puede explicar por una relacion lineal dada por:

Yi = β0 +X1iβ1 + ...+Xpiβp + εi, i = 1, ..,m (2-1)

El modelo (2-1) se llama modelo de regresion lineal multiple. Se necesitan algunos supuestos

sobre dicho modelo para la elaboracion de las inferencias estadısticas. Para este proposito,

se supone que: εi ∼ N(0, σ2), para cada i = 1, ...,m, E(εiεj) = 0, para todo i 6= j y las

variables Xi son linealmente independientes entre sı (no hay colinealidad).

El Modelo Lineal Generalizado (GLM, por sus siglas en ingles), formulado por Nelder &

Wedderburn (1972), extiende el modelo de regresion lineal, en el sentido de que permite:

i) Modelar variables respuesta discretas. GLM asume que la variable respuesta tiene una

distribucion de probabilidad que pertenece a la llamada familia exponencial de distribu-

ciones. Por ejemplo, las distribuciones Normal, Bernoulli, Binomial Negativa, Multinomial,

Ji-cuadrada, Beta, Binomial y Poisson pertenecen a la familia exponencial (Fitzmaurice

et al. 2011) y ii) Trabajar con funciones de enlace diferentes a la funcion identidad (McCu-

llagh & Nelder 1989). La funcion de enlace es aquella funcion que aplica una transformacion

a la media y luego vincula las covariables, a traves del predictor lineal, a la media transfor-

mada de la distribucion de las respuestas (Fitzmaurice et al. 2011). La principal motivacion

4 2 Marco teorico

para considerar funciones de enlace distintas de la identidad es asegurar que el predictor

lineal produzca predicciones de la respuesta media que estan dentro del rango permitido.

Los modelos lineales mixtos (LMM, por sus siglas en ingles) son ampliamente usados en

aplicaciones estadısticas en biologıa, agricultura, sociologıa, y medio ambiente, donde infor-

macion correlacionada es recolectada frecuentemente (Huang 2011). Incluyendo los efectos

aleatorios en un modelo estadıstico se obtiene una forma matematicamente elegante para

caracterizar diferentes estructuras de correlacion en los datos tales como medidas repeti-

das, datos correlacionados espacialmente en geoestadıstica y observaciones multivariadas

(Huang 2013).

Sea Yi = (Yi1, ..., Yini)> el i− esimo vector respuesta observado, para i = 1, ...,m. Un LMM

consiste de dos modelos de componentes. El primer modelo de componente es un modelo

condicional de Yi dado las covariables, los efectos fijos, y los efectos aleatorios,

Yi = Xiβ + Zibi + εi, (2-2)

donde β es el vector p-dimensional de efectos fijos, bi es el vector q dimensional de efectos

aleatorios, Xi y Zi son matrices de diseno ni× p y ni× q para los efectos fijos y los efectos

aleatorios, respectivamente, y se asume que εi ∼ N(0ni×1,∑

i), independientes de bi, con la

matriz ni×ni de varianza-covarianza∑

i. El segundo modelo de componente es un modelo

para bi, con densidad fb(bi;∑

b), donde∑

b incluye los componentes de varianza y otros

parametros necesarios en el modelo de efectos aleatorios (Huang 2013).

Las estructuras autorregresivas de correlacion y los datos faltantes no favorecen el uso del

modelo lineal ordinario ANOVA para medidas repetidas. Dos procedimientos propuestos

para hacer frente a estos problemas implican el uso de modelos lineales generalizados mixtos

(GLMM, por sus siglas en ingles) o una solucion de ecuaciones de estimacion generalizadas

(GEE, por sus siglas en ingles) (Overall & Tonidandel 2004).

Los GLMM amplıan la regresion ordinaria al permitir respuestas no normales (Lin 2010)

y la inclusion de efectos aleatorios al predictor lineal (Neuhaus & McCulloch 2011b). Un

ejemplo de esto es el estudio de Noe et al. (2010), en donde se considera un GLMM para

el analisis de datos de conteo, asumiendo una variable respuesta Poisson. Ademas, los

GLMM son comunmente usados en los estudios de medidas repetidas y dan cuenta de

la dependencia entre las observaciones obtenidas de la misma unidad experimental (Melo

et al. 2009). Los disenos de medidas repetidas en el que cada unidad experimental (por

ejemplo, sujeto) es probado en mas de una condicion experimental son muy comunes en

psicologıa, las neurociencias, la medicina, las ciencias sociales, y la investigacion agrıcola

(Oberfeld & Franke 2013).

De igual forma que los modelos lineales generalizados, los GLMM pueden ser formulados

2.2 Distribucion Poisson y Binomial Negativa 5

usando una especificacion de tres partes (Fitzmaurice et al. 2011), en donde Yij representa

la j-esima variable respuesta de interes (j = 1, 2, ..., ni) dentro del conglomerado i (i =

1, 2, ...,m):

1. La distribucion condicional de cada Yij, dado un vector q×1 de efectos aleatorios bi,

pertenece a la familia exponencial de distribuciones (Binomial, Binomial Negativa,

Poisson, Normal, Gamma, entre otras). La V ar(Yij|bi) = φυ(E(Yij|bi)), donde υ(·) es

una funcion conocida para la varianza, una funcion de la media condicional, E(Yij|bi)y φ es un parametro escalar que puede ser conocido o ser necesario estimarlo. En

adicion, dado los efectos aleatorios bi, se asume que los Yij son independientes entre

sı, lo cual es la asuncion de independencia condicional.

2. La media condicional de Yij, que depende de los efectos fijos β y los efectos aleatorios

bi, se relaciona con el predictor lineal ηij, vıa la aplicacion de una funcion de enlace

conocida, g(·), la cual es monotona y diferenciable (Gad & El Kholy 2012), de la

siguiente manera:

g{E(yij|bi,xij, zij)} = ηij = x′ijβ + z′ijbi (2-3)

donde xij y zij son dos vectores de covariables p+1 dimensionales y q dimensionales,

respectivamente.

Aunque cualquier funcion puede ser escogida para g(·), cada distribucion que perte-

nece a la familia exponencial tiene una funcion de enlace especial llamada funcion de

enlace canonica. La funcion de enlace canonica es definida como esa funcion g(·) tal

que

g{E(yij)} = θi, (2-4)

donde θi es el parametro de localizacion canonico.

3. En principio, cualquier distribucion multivariada puede ser asumida para los bi. En

la practica, es comun asumir que los bi tienen una distribucion normal multivariada,

con media cero y matriz de covarianza D de dimensiones q × q. Adicionalmente los

efectos aleatorios bi se asumen independientes de las covariables Xi.

2.2. Distribucion Poisson y Binomial Negativa

Dentro de la familia exponencial, como ya se menciono anteriormente, se encuentran

las distribuciones Poisson y Binomial Negativa (BN). En este apartado se profundi-

6 2 Marco teorico

zara sobre cada una de ellas, debido a que son las distribuciones consideradas en el

estudio de simulacion.

La distribucion Poisson, sobre la que la regresion Poisson esta basada, se origina

desde el trabajo de Simeon Poisson (1781-1840; citado por Hilbe 2011). El, primero

introdujo la distribucion como un caso lımite de la binomial en su “Research on the

Probability of Judgments in Criminal and Civil Matters” (1838).

Una variable aleatoria X tiene distribucion Poisson con media λ > 0, si la distribucion

de masa de probabilidad es como sigue (DeGroot & Schervish 1988):

f(x|λ) =e−λλx

x!para x = 0, 1, 2, ... (2-5)

donde E(X) = λ y V ar(X) = λ.

La Binomial Negativa tradicional se deriva de una mezcla de distribucion Poisson-

Gamma. Pero tal mezcla de distribuciones es solo una de las maneras en la que la

funcion de masa de probabilidad de la BN puede ser definida. La caracterıstica in-

teresante de esta parametrizacion es que permite modelar la heterogeneidad de la

Poisson (Hilbe 2011). Como se detallo anteriormente, la media y la varianza de la

Poisson son iguales. Cuanto mayor es el valor de la media, mayor es la variabilidad

de los datos, medido por la varianza estadıstica. Esta caracterıstica de los datos se

denomina equidispersion y es un supuesto de la distribucion de los datos de Poisson.

Inherente a esta suposicion esta el requisito de que los conteos sean independientes

unos de otro. Cuando no es ası, las propiedades de la distribucion Poisson son vio-

ladas, lo que resulta en extra-dispersion. La media y la varianza ya no pueden ser

identicas. La forma de extra-dispersion es casi siempre una de sobredispersion. Es

decir, la varianza es mayor, en valor, que la de la media. El modelo BN, como un

modelo de mezcla Poisson-gamma, es apropiado de utilizar cuando la sobredispersion

en un modelo de Poisson esta presente (Hilbe 2011). Es ası, como la distribucion BN

depende de un parametro extra comparado con la distribucion Poisson, el cual per-

mite que la sobredispersion sea tenida en cuenta. Este parametro es denotado con

la letra α(α > 0) y entre mas grande sea su valor, mayor sera la sobredispersion. El

modelo de Poisson corresponde a un α = 0.

La funcion de masa de probabilidad de la BN esta dada por:

f(x|µ, α) =

(x+ 1

α− 1

1α− 1

)(1

1 + αµ

) 1α(

αµ

1 + αµ

)x(2-6)

donde E(X) = µ y V ar(X) = µ+ αµ2, con µ > 0 y α > 0.

2.3 Inferencias en los GLMM 7

2.3. Inferencias en los GLMM

Los efectos sujeto-especıficos bi se asumen con frecuencia que se distribuyen como

una normal con media cero y matriz de varianza-covarianza D. El ajuste del modelo

requiere maximizacion de la verosimilitud marginal, la cual es obtenida integrando

sobre los efectos aleatorios.

La eleccion de la distribucion normal para estos efectos aleatorios generalmente con-

duce a funciones de verosimilitud intratables, con la excepcion del modelo lineal mixto

(LMM, por sus siglas en ingles), en donde la variable de respuesta tiene una distri-

bucion normal (Alonso et al. 2008). En respuesta, varias aproximaciones numericas a

la verosimilitud se han implementado en los paquetes de software disponibles (Tabla

2-1)

Tabla 2-1: Metodos de estimacion en los GLMM

Metodos para la

estimacion de los

parametros en

GLMM

Ventajas Desventajas Paquetes computacionales

Cuasi-

verosimilitud

penalizada (PQL)

Flexible,

imple-

mentada

ampliamen-

te

inferencia de la ve-

rosimilitud puede ser

inapropiada; sesgo para

varianzas grandes o me-

dias pequenas

PROC GLIMMIX (SAS), GLMM

(GenStat), glmmPQL (R:MASS),

ASREML-R

Aproximacion de

Laplace

Mejor apro-

ximacion

que PQL

Mas lenta y menos flexi-

ble que PQL

glmer (R:lme4,lme4a), glmm.admb

(R:glmmADMB), AD Model Buil-

der, HLM

Cuadratura

Gauss-Hermite

Mejor apro-

ximacion

que Laplace

Mas lenta que Laplace;

limitada a 2-3 efectos

aleatorios

PROC NLMIXED (SAS),

glmer (R:lme4, lme4a), glmmML

(R:glmmML), xtlogit (Stata)

Cadenas de Mar-

kov de Monte

Carlo

Altamente

flexibles,

numero

arbitrario

de efectos

aleatorios

Muy lento, tecnicamen-

te desafiante, marco de

referencia bayesiano

MCMCglmm (R:MCMCglmm),

MCMCpack (R),

WinBUGS/OpenBUGS

(R:BRugs/R2WinBUGS), JAGS

(R:rjags/R2jags), AD Model

Builder (R:R2admb), glmm.admb1

(R:glmmADMB)

Fuente: Adaptado de Bolker et al. (2009)

8 2 Marco teorico

2.4. Prueba de Wald

En muchas situaciones, los analistas de datos consideran las estadısticas de prueba

y los valores p correspondientes para evaluar, por ejemplo, si un farmaco tiene o

no una influencia significativa. A pesar de que la consistencia ha sido estudiada

hasta cierto punto en la literatura, no parece haber mucha investigacion sobre el

comportamiento de las estadısticas de prueba (Litiere et al. 2008). Por tanto, uno

de los objetivos de este trabajo de investigacion consiste en estudiar el impacto de

la especificacion incorrecta de la distribucion de los efectos aleatorios sobre el error

tipo I y la potencia del test estadıstico de Wald en los modelos lineales generalizados

mixtos, con respuesta Poisson y Binomial Negativa, con intercepto e intercepto y

pendiente aleatorias.

La prueba estadıstica de Wald, que sirve para probar una hipotesis de tipo H0 : β = 0

vs H1 : β 6= 0, fue establecida de la forma (LeBeau 2013):

Z =β − βSE(β)

(2-7)

Donde β es la estimacion del parametro, β es el valor del parametro real y SE es el

error estandar empırico calculado del modelo ajustado. El test estadıstico de Wald

se asume que sigue una distribucion normal estandar.

2.5. Estimacion de los parametros fijos

La estimacion de los parametros de un modelo estadıstico es un paso clave en la ma-

yorıa de los analisis estadısticos. Para los GLMM, estos parametros son los parametros

de efectos fijos (efectos de las covariables, diferencias entre los tratamientos e inter-

acciones) y los parametros de las componentes de varianza de los efectos aleatorios

(las desviaciones estandar de los efectos aleatorios) (Bolker et al. 2009).

La estimacion en modelos lineales generalizados mixtos para datos longitudinales no

gaussianos a menudo se basa en la teorıa de maxima verosimilitud, la cual supone

que el modelo de probabilidad subyacente se ha especificado correctamente (Alonso

et al. 2008); pero no siempre es el caso. Neuhaus & McCulloch (2011a) consideran

dos enfoques populares para la estimacion de los parametros fijos vıa maxima vero-

similitud (condicional y marginal). La estimacion y las inferencias basadas en estos

enfoques dependen de la suposicion de que la estructura de los efectos aleatorios

esta correctamente especificada (Alonso et al. 2008, Molenberghs & Verbeke 2005).

2.5 Estimacion de los parametros fijos 9

En la clase general de modelos de efectos mixtos (incluyendo modelos de efectos mix-

tos generalizados), se hace un supuesto especıfico sobre la distribucion parametrica

para los efectos aleatorios (por ejemplo, gamma, normal), ya sea por razones conven-

cionales (Tsonaka et al. 2010) o por consideraciones computacionales (Litiere et al.

2007). Sin embargo, a menudo hay poca informacion acerca de la forma de la distri-

bucion conjunta de los efectos aleatorios, de modo que el supuesto de la distribucion

para estos efectos aleatorios no observados no se puede evaluar directamente (Xiang

et al. 2012) y por esta razon, una preocupacion natural en el uso de GLMM es la

especificacion incorrecta del modelo para los efectos aleatorios (Huang 2009).

En un modelo de regresion pueden aparecer diferentes tipos de especificaciones inco-

rrectas, algunas de los cuales son mas difıciles de detectar que otras (Spiessens et al.

2002). Aunque la especificacion incorrecta de la distribucion de los efectos aleatorios

puede afectar gravemente la estimacion y los procedimientos inferenciales en GLMM,

otros tipos de especificaciones incorrectas de la estructura de los efectos aleatorios

tambien son importantes (Alonso et al. 2008). Por ejemplo, McCulloch & Neuhaus

(2011) identifican otros dos aspectos de la especificacion incorrecta: la distribucion

de los efectos aleatorios puede depender de una covariable y la dependencia de la

distribucion de los efectos aleatorios sobre el tamano de muestra del conglomerado.

Otros tipos de especificaciones incorrectas tambien son posibles: la especificacion in-

correcta de la funcion de enlace, no tener en cuenta la presencia de sobredispersion,

etcetera.

En los modelos lineales generalizados mixtos, la distribucion de los efectos aleatorios

usualmente se asume normal (Alonso et al. 2010) y esta distribucion es frecuentemen-

te usada en los paquetes de software populares como SAS, Stata y R (McCulloch &

Neuhaus 2011). Aunque la hipotesis de normalidad para los efectos aleatorios a menu-

do se da por sentada, es importante darse cuenta que, dado que los efectos aleatorios

son cantidades hipoteticas latentes no observables, este supuesto no se puede evaluar

directamente, y no parece haber un consenso general sobre el impacto de especifi-

car incorrectamente la distribucion de los efectos aleatorios (Verbeke & Molenberghs

2013).

A nivel nacional, ha habido cierto interes por estudiar el impacto sobre las estima-

ciones de los parametros en los modelos lineales mixtos cuando no se cumplen los

supuestos de normalidad en la componente aleatoria. Valencia (2010), por ejemplo,

resalta la importancia de determinar los efectos en las estimaciones del modelo lineal

mixto, dado la procedencia de distribuciones diferentes de la normal para el error y el

efecto aleatorio; y ademas, propone una alternativa para mejorar tales estimaciones.

Trochez (2016), en su trabajo de Tesis de Maestrıa, aborda la pregunta de investiga-

cion: ¿Que efectos tienen los parametros estimados del modelo lineal mixto cuando

10 2 Marco teorico

los datos longitudinales son sesgados?.

Verbeke & Lesaffre (1997) para los modelos lineales mixtos, mostraron que los estima-

dores de maxima verosimilitud (ML, por sus siglas en ingles) de los efectos fijos y los

componentes de varianza, obtenidos bajo el supuesto de efectos aleatorios normales,

son consistentes y asintoticamente normales, incluso cuando esta mal especificada la

distribucion de efectos aleatorios. Sin embargo, la investigacion llevada a cabo en los

ultimos anos ilustra que resultados similares no son validos para GLMM (Litiere et al.

2008). Por ejemplo, Komarek & Lesaffre (2008) indicaron que, en contraste con el

modelo lineal mixto, la mala especificacion de la distribucion de los efectos aleatorios

en GLMM podrıa influir en la inferencia de los efectos fijos, que son generalmente de

interes primario, pero la situacion no es clara. Litiere et al. (2008) trataron de ilustrar

que la especificacion incorrecta de la distribucion de los efectos aleatorios en GLMM

puede tener un efecto sobre los estimadores ML y los procedimientos de inferencia.

Sus simulaciones indican que diferentes aspectos del modelo se ven afectados de di-

ferentes maneras y en diferentes grados. Es importante destacar que esta conclusion

parece ser independiente de la estrategia adoptada para estudiar la especificacion

erronea. El impacto parece depender de la complejidad de la estructura de los efectos

aleatorios, la varianza de la distribucion de los efectos aleatorios subyacente, y los

parametros de interes.

Litiere et al. (2007) exponen que hay una amplia variedad de opiniones sobre el

impacto de la especificacion incorrecta de los efectos aleatorios en GLMM. Segun

Huang (2009), investigaciones anteriores para abordar esta preocupacion han sugerido

que la especificacion incorrecta de los modelos para los efectos aleatorios, por lo

general, solo da lugar a una pequena cantidad de sesgo en los estimadores de maxima

verosimilitud (MLE, por sus siglas en ingles) para los efectos fijos. Sin embargo, varios

autores han afirmado sensibilidad a la especificacion parametrica de una distribucion

de efectos aleatorios (McCulloch & Neuhaus 2011). Por ejemplo, Agresti et al. (2004)

llevaron a cabo estudios empıricos sobre el impacto de la especificacion incorrecta

del modelo para los efectos aleatorios en GLMM, mostrando que los MLE para los

efectos fijos pueden ser muy sensibles al modelo asumido para los efectos aleatorios.

Alonso et al. (2015) exponen que, en general, si la seleccion del modelo esta mal

especificada entonces las estimaciones de los parametros en el modelo pueden estar

sesgadas y los procedimientos de inferencia, al igual que los intervalos de confianza,

se pueden afectar tambien. Por lo tanto, un analisis de sensibilidad para evaluar la

estabilidad de los resultados es siempre altamente recomendada (Geneletti et al.,

2011; citado por Alonso et al. 2015). Un artıculo muy citado es el de Heckman

y Singer (1984; citado por McCulloch & Neuhaus 2011), el cual hace referencia a

que las estimaciones de los parametros estructurales obtenidos de los procedimientos

2.5 Estimacion de los parametros fijos 11

convencionales son muy sensibles a la eleccion de la mezcla de distribuciones.

Segun Litiere et al. (2007), para estudiar el impacto de la especificacion incorrecta

de la distribucion de los efectos aleatorios en las inferencias, los investigadores sue-

len utilizar disenos de simulacion en las cuales se consideran varias opciones para la

verdadera distribucion subyacente de los efectos aleatorios, mientras que la distribu-

cion asumida se mantiene fija. Ellos ilustran que la potencia puede ser seriamente

alterada, dependiendo de la forma y la varianza de la distribucion subyacente de

los efectos aleatorios. Aunque, Neuhaus et al. (2011) expusieron que el trabajo de

Litiere et al. (2007) contiene una falacia logica que invalida esta afirmacion, porque

para demostrar los efectos de la especificacion incorrecta, se necesita variar la distri-

bucion ajustada asumida, mientras se mantiene constante la verdadera distribucion.

Ellos presentan estudios de simulacion logicamente correctos que demuestran poco

aumento en el error de tipo II, en consonancia con el trabajo anterior que muestra

poco sesgo en las estimaciones de los efectos de covarianza debido a la especificacion

incorrecta. Ademas, la evidencia mas fuerte para apoyar las conclusiones de (Litiere

et al. 2007) proviene de simulaciones que fueron incapaces de replicar, a pesar de usar

programacion muy cuidadosa.

Se sabe que los estimadores de maxima verosimilitud y los procedimientos inferencia-

les asociados pueden ser afectados por especificaciones incorrectas de la estructura de

efectos aleatorios en GLMM (Alonso et al. 2008). Por esa razon, muchos autores se

han preocupado por pruebas para detectar la especificacion incorrecta. Huang (2009)

propuso un metodo de diagnostico de dos etapas para detectar la especificacion inco-

rrecta del modelo de los efectos aleatorios en GLMM. Este metodo utiliza tanto los

datos observados y unos datos reconstruidos creados a partir de los datos observa-

dos. Alonso et al. (2010) propusieron dos pruebas de diagnostico que se basan en 2

representaciones equivalentes de la matriz de informacion del modelo. Ellos evalua-

ron el poder de ambas pruebas usando consideraciones teoricas, ası como simulacion.

Waagepetersen (2006; citado por Alonso et al. 2010) propuso una prueba basada en

la simulacion para evaluar la idoneidad de la eleccion de la distribucion de los efectos

aleatorios, mediante la generacion de efectos aleatorios mientras condiciona sobre las

observaciones. Tchetgen y Coull (2006; citado por Alonso et al. 2010) introdujeron

una prueba de diagnostico para evaluar la distribucion asumida de los efectos aleato-

rios, mediante la comparacion de estimadores ML marginales y condicionales de un

subconjunto de efectos fijos en el modelo. Muchos autores han considerado probar la

especificacion incorrecta en los modelos mixtos, por ejemplo, mediante la compara-

cion de inferencias robustas y basadas en el modelo (Alonso et al. 2008), mediante la

comparacion de las estimaciones de maxima verosimilitud marginales y condicionales

(Tchetgen y Coull , 2006; citado por Verbeke & Molenberghs 2013), mediante la com-

paracion de inferencias basadas en el modelo original y en los resultados obtenidos

12 2 Marco teorico

(Huang 2009), o mediante la comparacion de las distribuciones de los residuales y/o

efectos aleatorios predichos con sus distribuciones esperadas bajo el modelo asumido

(Ritz, 2004; Pan & Lin, 2005; citados por Verbeke & Molenberghs 2013).

Komarek & Lesaffre (2008) trataron de mostrar como la ”mezcla gaussiana pena-

lizada”(PGM, por sus siglas en ingles) se puede utilizar como una herramienta de

diagnostico para comprobar supuestos parametricos sobre la distribucion de los efec-

tos aleatorios. El enfoque se basa en la idea de suavizamiento penalizado, promovido

por Eilers y Marx (1996; citado por Komarek & Lesaffre 2008). Verbeke & Molen-

berghs (2013) desarrollaron una herramienta de diagnostico exploratoria sencilla para

comprobar graficamente la idoneidad de un supuesto parametrico especıfico (a menu-

do la normalidad) acerca de la distribucion de los efectos aleatorios en diversos tipos

de modelos mixtos. Su tecnica no requiere ningun calculo, ademas de los calculos

necesarios para ajustar el modelo, y en caso de cualquier evidencia de especifica-

cion erronea, su metodo indica como el modelo parametrico puede ser mejorado para

describir mejor los datos observados.

Es importante senalar que se han sugerido algunos enfoques diferentes para tratar

con la especificacion incorrecta de la distribucion de los efectos aleatorios. Un area de

trabajo con un enfoque ligeramente diferente ha sido el de la estimacion de la forma

de la distribucion de los efectos aleatorios, ademas de establecer hipotesis de ajustes

mas flexibles de la distribucion para los efectos aleatorios (McCulloch & Neuhaus

2011). Chen et al. (2002; citado por Litiere et al. 2008) sugirieron una distribucion

de los efectos aleatorios semi-parametrica, permitiendo que la densidad de los efectos

aleatorios sea sesgada, multimodal, de cola delgada o pesada, e incluyendo la normal

como un caso especial. Lee y Thompson (2007; citado por Litiere et al. 2008) utiliza-

ron metodos MCMC (Monte Carlo Markov Chain) para ajustar modelos con efectos

aleatorios siguiendo una distribucion t, y extensiones de la normal y la distribucion

t. Otro enfoque consiste en la sustitucion de la distribucion normal de los efectos

aleatorios mediante mezclas de distribuciones normales (Magder & Zeger, 1996; Caf-

fo, An & Rohde, 2007; citados por McCulloch & Neuhaus 2011) y ajustes suaves no

parametricos (Laird, 1978; Davidian & Galan, 1993; Zhang & Davidian, 2001; Ghi-

dey, Lesaffre & Filers, 2004; citados por McCulloch & Neuhaus 2011). Litiere et al.

(2008) y Verbeke & Molenberghs (2013) tambien utilizaron un enfoque con mezclas

de distribuciones normales para ajustar las distribuciones de los efectos aleatorios.

2.6 Error tipo I y potencia en las pruebas de hipotesis 13

2.6. Error tipo I y potencia en las pruebas de

hipotesis

De acuerdo con Litiere et al. (2008), una cuestion que no ha sido objeto de atencion

en los estudios de GLMM tiene que ver con el impacto de la especificacion incorrecta

sobre los procedimientos de inferencia de uso comun como la prueba de Wald. Los

tests de prueba de hipotesis Wald Z, χ2, t y pruebas F para GLMMs prueban una

hipotesis nula de no efecto ajustando las estimaciones de los parametros o combina-

ciones de parametros por sus errores estandar estimados y comparando el estadıstico

del test resultante con el cero (Bolker et al. 2009).

Varios estudios hacen referencia al uso de la prueba de Wald para la evaluacion de la

significancia estadıstica. Por ejemplo, Lagishetty & Duffull (2015), Laouenan et al.

(2013), Retout et al. (2007), Panhard & Mentre (2005) utilizaron tal prueba en un

marco de modelamiento de efectos mixtos no lineales y evaluaron sus errores tipo I

y la potencia estadıstica.

En investigacion basica, los analistas a menudo ponen mas enfasis en evitar los errores

tipo I que en evitar errores tipo II (Oberfeld & Franke 2013). Por otro lado, el analisis

de la potencia estadıstica (es decir, la probabilidad de que una prueba rechazara la

hipotesis nula cuando la hipotesis nula es falsa, alternativamente, 1 - P(error tipo II))

ha ganado mucha aceptacion entre los cientıficos durante los ultimos treinta anos. El

numero de ocurrencias en la pagina Web de ciencia de Thomson Reuters para una

busqueda de ’sampl * and power analysis’ aumento de 115 durante los anos 1996

a 2000 a 214 durante el periodo 2001-2005 y 265 durante 2006-2010 (Vaudor et al.

2015).

Varios estudios evaluan los errores tipo I y la potencia de las estadısticas de pruebas

relacionadas con la inferencia de los parametros fijos. Por ejemplo, Zhang et al. (2016)

en su estudio, ampliamente investigaron como la especificacion incorrecta del tamano

del cluster del modelo afecta la inferencia en el modelamiento conjunto, mediante la

prueba de Wald y el error tipo I y la potencia asociada a esta. Litiere et al. (2008)

y Litiere et al. (2007) abordaron el impacto de la especificacion incorrecta de la

distribucion de los efectos aleatorios sobre los errores tipo I y la potencia de la prueba

de Wald para la estructura de la media en GLMMs.

Las pruebas de Wald Z y χ2 solo son adecuadas para GLMM sin sobredispersion,

mientras que las pruebas de Wald t y F dan cuenta de la incertidumbre en las

estimaciones de sobredispersion. Esta incertidumbre depende del numero de grados de

libertad de los residuos, que puede ser muy difıcil de calcular debido a que el numero

efectivo de parametros utilizados por un efecto aleatorio esta entre 1 (es decir, un solo

14 2 Marco teorico

parametro de desviacion estandar) y N − 1 (es decir, un parametro para cada nivel

adicional del efecto aleatorio) (Bolker et al. 2009). Aunque una evaluacion exhaustiva

de la actuacion para muestras pequenas de la prueba asintotica de tipo Wald para

probar los efectos fijos en el modelo mixto no haya sido reportada, hay evidencia que

indica que la aproximacion normal o chi-cuadrado es poco fiable (Manor & Zucker

2004).

Una estrategia que se ha sugerido para la mejora de la prueba de tipo Wald implica la

sustitucion de la aproximacion asintotica basada en las distribuciones normal y chi-

cuadrado con aproximaciones basadas en las distribuciones t y F . Se han propuesto

varios metodos para definir los grados de libertad del denominador eficaces utilizados

en las aproximaciones t y F (Manor & Zucker 2004). Los grados de libertad para los

efectos aleatorios, necesarios para las pruebas de Wald t o F deben estar entre 1 y

N − 1 (donde N es el numero de niveles de los efectos aleatorios). Los paquetes de

software varıan enormemente en su enfoque para el calculo de los grados de libertad.

El enfoque mas simple (el valor por defecto en SAS) utiliza el numero mınimo de

grados de libertad aportado por los efectos aleatorios que afectan el termino que se

esta probando. Las aproximaciones de Satterthwaite y Kenward-Roger (KR) utilizan

reglas mas complicadas para aproximarse a los grados de libertad y ajustar los errores

estandar. KR, solo disponible en SAS, generalmente funciona mejor (al menos para

los modelos lineales mixtos). La aproximacion de Satterthwaite esta disponible en el

PROC MIXED de SAS (Bolker et al. 2009).

Otro enfoque es utilizar la prueba basada en la prueba de tipo Wald con el metodo

del sandwich, donde la matriz de covarianza se calcula mediante

Sand(V ar(β)) =

(n∑i=1

X ′iΣ−1i Xi

)−1 n∑i=1

X ′iΣ−1i

× (yi −Xiβ)(yi −Xiβ)′Σ−1i Xi

(n∑i=1

X ′iΣ−1i Xi

)−1 (2-8)

El procedimiento sandwich para la estimacion de la matriz de covarianza es valido

incluso si el modelo esta especificado incorrectamente, siempre que la estructura de

la media de yi se haya especificado correctamente. Este procedimiento de estimacion

es, por lo tanto, referido como estimacion robusta (Manor & Zucker 2004). En la

tabla 2-2 se presentan las capacidades relacionadas con los metodos de inferencia de

diferentes paquetes de software para el analisis de GLMM.

Una alternativa a la prueba de Wald para los efectos fijos es la prueba de razon de

verosimilitud (LRT, por sus siglas en ingles).

2.6 Error tipo I y potencia en las pruebas de hipotesis 15

Tabla 2-2: Capacidades de los diferentes paquetes de software para el analisis de GLMM

Software Funcion Cuasi ve-

rosimilitud

penalizada

Laplace Cuadratura de

Gauss-Hermite

Pruebas

de Wald

χ2 o F

Grados de li-

bertad

SAS PROC GLIMMIX X X X X BW, S, KR

PROC NLMIXED X X BW, S, KR

R glmmPQL X X BW

glmmML X X

glmer X X

glmmADMB X

GLMM X X

BW: between-within; S: Satterthwaite; KR: Kenward-Roger.

Fuente: Adaptado de Bolker et al. (2009)

La prueba de razon de verosimilitud compara el logaritmo de la verosimilitud de dos

modelos en el que uno esta anidado del otro (LeBeau 2013). La prueba de Wald es

computacionalmente menos intensiva, ya que esta se puede realizar sobre cualquier

analisis sin la necesidad de repetir el analisis para el modelo nulo. Esto puede tener

ventajas para algunas estrategias de construccion de modelos de covarianza (Lagis-

hetty & Duffull 2015). En Manor & Zucker (2004) se propuso una correccion de

tipo Barlett para la prueba de razon de verosimilitud. La esencia de la correccion

Bartlett es multiplicar la estadıstica de LRT por un factor de escala que resulte en

una estadıstica que tenga momentos mas cercanos a los de una chi-cuadrado. Adi-

cional, Melo et al. (2009) desarrollaron versiones modificadas de la prueba de razon

de verosimilitud para la inferencia de los efectos fijos en modelos lineales mixtos.

En particular, ellos derivaron una correccion Bartlett a una prueba de este tipo, y

tambien a una prueba obtenida a partir de una funcion de perfil de verosimilitud

modificada.

Segun Kojima & Kubokawa (2013), las pruebas de Wald y de razon de verosimilitud

(LR), junto a la de Score (otra prueba para probar hipotesis) son conocidas por

tener errores tipo I incorrectos. Por esa razon, ellos consideraron una extension de los

resultados de Rothenberg (1984) para el caso de estimadores consistentes generales y

trataron de derivar sus propias correcciones de tipo Bartlett. En su investigacion, ellos

estudiaron los comportamientos de los errores tipo I y la potencia de las tres pruebas

clasicas mencionadas anteriormente y de las pruebas ajustadas con las correcciones

de tipo Barlett a traves de una simulacion de Monte Carlo.

16 2 Marco teorico

2.7. Ejemplos con datos reales en donde los efectos

aleatorios no son normales

2.7.1. Onicomicosis por dermatofito en la una del dedo del pie

Efendi et al. (2014) confirmaron la no-normalidad de la distribucion de los interceptos

aleatorios, que fue probada previamente por Verbeke & Molenberghs (2000), a traves

de la funcion gradiente, en el siguiente modelo donde Yij representa la severidad de

la infeccion de la una del pie para el paciente i en la medicion j.

yij|bi ∼ Bernoulli (πij)

logit (πij) = β0 + bi + β1treati + β2tij + β3treatitij,(2-9)

donde treati es el indicador del tratamiento para el paciente i, tij es el punto en el

tiempo (en meses) en el cual la j-esima medida fue tomada para el paciente i-esimo,

y bi es el intercepto aleatorio sujeto-especıfico.

Los autores Vock et al. (2014) tambien probaron la no normalidad de la distribucion

de los interceptos aleatorios para este modelo.

Efendi et al. (2014) utilizaron pruebas de diagnostico propuestas por Alonso et al.

(2008) y Alonso et al. (2010) (the determinant test y determinant-trace test), en

donde llegaron a los mismos resultados de no-normalidad de la distribucion de los in-

terceptos aleatorios. Aunque como senalan estos ultimos autores, un resultado signifi-

cativo (rechazar el supuesto de normalidad) de sus pruebas no implica necesariamente

que exista un problema con la distribucion de los efectos aleatorios. Por ejemplo, una

covariable o un efecto aleatorio puede no haber sido incluido en el modelo.

2.7.2. Datos de la vivienda en Boston

Lange & Ryan (1989) incluyeron un ejemplo para mostrar los resultados de ajustar

un modelo de efecto aleatorio en un estudio de los precios de la vivienda en el Area

estadıstica metropolitana de Boston, en el cual obtuvieron evidencia de la desviacion

del supuesto de normalidad de la distribucion del efecto aleatorio, evaluada a traves

del metodo propuesto en su investigacion.

2.7 Ejemplos con datos reales en donde los efectos aleatorios no son normales 17

2.7.3. Actividad enzimatica

En un experimento que investigo la actividad enzimatica en la masa de pan de cen-

teno, las mediciones se tomaron durante siete etapas diferentes de produccion y para

dos tipos diferentes de harina. Los grupos de las mediciones de tamano 8−12 se basan

en el mismo extracto de la masa, y se espera una correlacion entre tales mediciones.

Se tienen en total 56 extractos. El modelo inicial considera un efecto de cada etapa,

el cual es modelado por un termino de interaccion (efecto fijo), mientras que el efecto

del extracto fue tomado como aleatorio:

yj = α(stagej, typej

)+ u (extractj) + ej (j = 1, ..., 602) , (2-10)

Los autores proporcionaron evidencia en contra de la asuncion de normalidad del

intercepto aleatorio, al igual que Wu et al. (2012), con el test utilizado en su investi-

gacion.

2.7.4. Crecimiento de la distancia de ortodoncia en ninos y

ninas

Pinheiro et al. (2001) compararon el rendimiento de los modelos en los que se asume

una distribucion normal para los efectos aleatorios y los errores de las mediciones

para cada sujeto contra aquellos modelos en los que se asumen una distribucion

t–multivariada para ambos, bajo diferentes patrones de valores atıpicos; para lo cual

utilizaron un modelo de crecimiento de la distancia de ortodoncia en ninos y ninas.

Los resultados demostraron que la distribucion t-multivariada sustancialmente supera

al modelo gaussiano cuando hay valores extremos en los datos, incluso en cantidades

moderadas.

2.7.5. Niveles de colesterol – Estudio de Framingham

Aunque la normalidad condicional dentro de los sujetos puede ser realista, la asun-

cion de normalidad sobre los efectos aleatorios puede ser demasiado restrictiva para

proporcionar una representacion aproximada de la variacion entre los individuos. Lo

anterior fue expuesto en la investigacion de Zhang & Davidian (2001), quienes en

un estudio que muestra los niveles de colesterol en el tiempo de 200 individuos se-

leccionados aleatoriamente del estudio de Framingham, probaron que el supuesto de

normalidad dentro de los individuos era valido; pero no pasaba lo mismo entre los

18 2 Marco teorico

individuos. Los autores Wu et al. (2012) y Claeskens & Hart (2009) tambien encon-

traron evidencias para rechazar la normalidad de los efectos aleatorios (intercepto y

pendiente aleatoria).

2.7.6. Esquizofrenia

Los autores Litiere et al. (2008) utilizaron una variable de respuesta binaria para

caracterizar la condicion mental de los sujetos con el objetivo de comparar el efecto

de la risperidona sobre los farmacos antipsicoticos convencionales para el tratamiento

de la esquizofrenia. El tratamiento se administro a 128 pacientes durante 8 semanas

y el resultado se midio en 6 puntos de tiempo fijo: Al comienzo del estudio y despues

de 1, 2, 4, 6 y 8 semanas. Los datos se analizaron utilizando un modelo de intercep-

cion aleatoria, considerando diferentes funciones de enlace y estructuras medias. Se

supuso siempre que el intercepto aleatorio seguıa una distribucion normal con me-

dia cero y varianza σ2b . Ellos encontraron evidencia para afirmar que la asuncion de

una distribucion normal para los efectos aleatorios era cuestionable dado las altas

varianzas para el efecto aleatorio de los dos grupos (control y tratamiento), las cuales

sugieren una correlacion muy fuerte y similar dentro de los sujetos, en cada grupo de

tratamiento.

3 Estudio de simulacion

En este capıtulo se presentan los modelos considerados en el estudio de simulacion

tanto para la identificacion del impacto de la especificacion incorrecta de la distribu-

cion de los efectos aleatorios en modelos lineales generalizados mixtos con respuesta

Poisson y BN sobre: 1) La estimacion de los parametros fijos en modelos de solo

intercepto aleatorio y modelos de intercepto y pendiente aleatoria y 2) el error tipo

I y la potencia estadıstica de la prueba estadıstica de Wald para un modelo de solo

intercepto aleatorio como para un modelo de intercepto y pendiente aleatoria.

3.1. Impacto sobre la estimacion de los parametros

fijos

El impacto sobre la estimacion de los parametros fijos fue estudiada tanto en modelos

lineales generalizados mixtos con intercepto aleatorio como con intercepto y pendien-

te aleatoria. A continuacion se presentan los modelos considerados para el caso de

intercepto aleatorio.

3.1.1. Modelos Poisson y Binomial Negativa con intercepto

aleatorio

Para el estudio de simulacion se generaron respuestas Poisson y Binomial Negativa

a partir de los GLMM con intercepto aleatorio, en donde se consideraron m = 100

conglomerados de 5 tamanos diferentes ni = 3, 6, 9, 12, 15.

20 3 Estudio de simulacion

Para el caso Poisson se considero el siguiente modelo con intercepto aleatorio:

yij|biind.∼ Poisson(µij)

log(µij) = β0 + β1x1ij + β2x2ij + bi(3-1)

con β0 = 1, β1 = 2, β2 = 3, i = 1, 2, ...,m y j = 1, 2, ..., ni. Las covariables x1ij y

x2ij representan covariables dentro de los conglomerados (covariables cuyos valores

cambian para cada conglomerado i y cada observacion j), con x1 ∼ N(0, 1) y x2 ∼U(0, 1).

En la Tabla 3-1 se presentan algunos datos simulados de un modelo mixto Poisson

con m = 100, ni = 6, σ2b = 4 e intercepto aleatorio normal, correspondiente a la

ecuacion (3-1).

Tabla 3-1: Datos simulados del modelo mixto Poisson con m = 100, ni = 6, σ2b = 4 e intercepto

aleatorio normal

X1 X2 Y conglomerado

−0.44 0.26 3 7

−0.17 0.65 3 7

−0.07 0.81 0 7

0.37 0.40 2 7

2.95 0.20 1 7

−0.73 0.26 1 7

−1.05 0.69 2 26

−1.39 0.87 3 26

−0.48 0.28 1 26

−0.65 0.75 6 26

−0.22 0.50 4 26

−0.87 0.00 2 26

Fuente: elaboracion propia

Para el caso Binomial Negativa el siguiente modelo mixto con intercepto aleatorio

fue considerado:

yij|biind.∼ BN(µij, α)

log(µij) = β0 + β1x1ij + β2x2ij + bi

α = 0.5

(3-2)

3.1 Impacto sobre la estimacion de los parametros fijos 21

donde β0 = 1, β1 = 2 y β2 = 3. Al igual que el modelo mixto Poisson, x1 ∼ N(0, 1) y

x2 ∼ U(0, 1).

Para los modelos de las expresiones (3-1) y (3-2) los bi fueron generados a partir de

4 distribuciones diferentes: normal, mezcla de dos normales, uniforme y lognormal

(Figura 3-1) (Alonso et al. 2008, Spiessens et al. 2002, Verbeke & Lesaffre 1997) con

media cero y 4 valores de varianza σ2b = 1, 2, 4, 16. El vector de parametros de interes

para los dos modelos mencionados anteriormente es θ = (β0, β1, β2, σ2)>.

normal

Den

sida

d

−4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

0.25

0.30

mezcla de normales

Den

sida

d

−4 −2 0 2 4

0.00

0.05

0.10

0.15

0.20

0.25

0.30

uniforme

Den

sida

d

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

lognormal

Den

sida

d

−1 0 1 2

0.0

0.2

0.4

0.6

0.8

Figura 3-1: Distribuciones consideradas para el intercepto aleatorio: normal, mezcla de

normales, uniforme y lognormal, con media igual a 0 y varianza igual a 2.

En total se simularon 500 repeticiones, a las cuales se les ajusto un modelo Poisson

o BN de efectos mixtos, en donde se asumio un intercepto aleatorio que sigue una

distribucion normal. Para el ajuste del modelo y obtencion del vector de parametros

θ se utilizo la funcion glmmadmb del paquete glmmADMB de R . El impacto de la

especificacion incorrecta se evaluo con la distancia relativa DR, entre el verdadero

valor del parametro simbolizado por la letra θ y su valor estimado θ (Verbeke &

Lesaffre 1997). A mayor valor del indicador, mayor es el impacto de la especificacion

incorrecta.

DR =

∥∥∥θ − θ∥∥∥‖θ‖

(3-3)


3.1.2. Modelos Poisson y Binomial Negativa con intercepto y

pendiente aleatoria

El impacto de la especificacion incorrecta de la distribucion de los efectos aleatorios

tambien se evaluo en datos provenientes de poblaciones con respuesta Poisson y BN,

con intercepto y pendiente aleatoria; para lo cual se consideraron dos covariables

dentro de los conglomerados: x1 ∼ N(0, 1) y x2 ∼ U(0, 1). Se generaron m = 100

conglomerados con 5 tamanos diferentes ni = 3, 6, 9, 12, 15.

El modelo considerado en este caso es:

yij|biind.∼ Poisson(µij) o yij|bi

ind.∼ BN(µij, α = 0.5)

log(µij) = β0 + b0i + (β1 + b1i)x1ij + β2x2ij

i = 1, 2, ...,m = 100, j = 1, 2, ..., ni

(3-4)

Los bi = (b0i, b1i)> fueron generados a partir de 4 distribuciones diferentes con µb0i =

µb1i = 0, cuatro valores de varianza σ2b0

= var(b0i) = σ2b1

= var(b1i) = 0.5, 1, 2, 4 y

una correlacion de 0.5 entre el intercepto y la pendiente aleatoria. Las distribuciones

consideradas para bi se muestran a continuacion, las cuales fueron tomadas del trabajo

de Neuhaus et al. (2012).

a) bi ∼ normal bivariada.

b) bi ∼ t-student bivariada con 3 grados de libertad.

c) bi ∼ exponencial bivariada (1).

d) bi ∼ Tukey bivariada (g = 0.446, h = 0.05), donde el parametro g controla

la cantidad y direccion de asimetrıa, mientras que el parametro h controla la

cantidad de elongacion (curtosis) de la distribucion Tukey bivariada (Valencia

2014).

En la Figura 3-2 se presentan los contornos de las cuatro distribuciones consideradas

para el intercepto y la pendiente aleatoria.

Para medir el impacto de la especificacion incorrecta de la distribucion de los efectos

aleatorios se fijaron los valores de β0 = 1, β1 = 2, β2 = 3 y se asumio una correlacion

entre b0i y b1i de 0.5. Al igual que para el intercepto aleatorio, se utilizo la distancia

relativa para evaluar el impacto de la especificacion incorrecta. Los valores estimados

fueron obtenidos a traves de los ajustes de un modelo Poisson o BN de intercepto

y pendiente aleatoria asumiendo para este caso una distribucion normal bivariada.

Para el ajuste se utilizo la funcion glmmadmb, del paquete glmmADMB de R.

3.2 Impacto sobre el error tipo I y la potencia de la prueba de Wald 23

Normal bivariada

0.01

0.01

0.02

0.02 0.03

0.03

0.03

0.03

0.04

0.05

0.06

0.07

0.08

0.09

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

t−student bivariada

0.02

0.04

0.06

0.08

0.1 0.12

0.14

0.16

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

Exponencial bivariada

0.05

0.1

0.15

0.2

0.25

0.3 0.35

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

Tukey bivariada

0.02

0.04 0.06

0.08

0.1

0.12

0.14 0.16

0.18

0.2

0.22

−3 −2 −1 0 1 2 3−

3−

2−

10

12

3

Figura 3-2: Contornos de las distribuciones consideradas para el intercepto y pendien-

te aleatoria: normal bivariada, t-student bivariada, exponencial bivariada y

Tukey bivariada, con media de µb0i = µb1i = 0, y σ2b0i

= σ2b1i

= 2.

3.2. Impacto sobre el error tipo I y la potencia de la

prueba de Wald

Se llevo a cabo un estudio de simulacion para identificar el impacto de especificar

incorrectamente la distribucion de los efectos aleatorios sobre los errores tipo I y la

potencia en la prueba de Wald para los modelos lineales generalizados mixtos. En la

primera parte se consideraron modelos lineales generalizados mixtos con intercepto

aleatorio y variable de respuesta Poisson y BN. En la segunda parte se consideraron

modelos lineales generalizados mixtos con intercepto y pendiente aleatoria y variable

de respuesta Poisson y BN.

3.2.1. Modelos GLMM con intercepto aleatorio y variable

respuesta Poisson y Binomial Negativa

Para el estudio de simulacion de modelos lineales generalizados mixtos con respuesta

Poisson o BN e intercepto aleatorio se utilizo la misma estructura del artıculo de

Milanzi et al. (2012), en donde el interes se centro en estudiar el impacto sobre la

probabilidad de cometer un error tipo I al ignorar la sobredispersion en configuracio-

nes longitudinales, para lo cual los autores generaron respuestas Poisson y BN con


media µij = exp(β0 + bi + β1tij + β2zi + β3tijzi).

Con i = 1, 2, ...,m y tij = 1, 2, ..., ni denotando el sujeto y el tiempo de medida res-

pectivamente. Ademas, bi ∼ N(0, σ2b ) y zi es una variable indicadora del tratamiento

del grupo tomando valores de 0/1.

En la ecuacion (3-5) se presenta el modelo que se utilizo para la Poisson y en la

ecuacion (3-6) el que se utilizo para BN:

yij|biind.∼ Poisson(µij),

log(µij) = β0 + bi + β1tij + β2zi + β3tijzi

biind.∼ GT

(3-5)

yij|biind.∼ BN(µij, α = 0.5),

log(µij) = β0 + bi + β1tij + β2zi + β3tijzi

biind.∼ GT

(3-6)

Los bi fueron generados a partir de 4 distribuciones diferentes GT : normal, mezcla de

dos normales, uniforme y lognormal (Alonso et al. 2008, Spiessens et al. 2002, Verbeke

& Lesaffre 1997), con media cero y 4 valores de varianza σ2b = 1, 2, 4, 8 (Figura 3-1).

Para evaluar el impacto de especificar incorrectamente la distribucion del intercepto

aleatorio sobre los errores tipo I y la potencia de la prueba de Wald se utilizo como

parametro de interes a β2, al que se le asignaron los valores de β2 = 0, 0.5, 1, 1.5 para

el caso de respuesta Poisson y los valores de β2 = 0, 1.5, 2, 2.5 para el caso BN (Tabla

3-2). Para los demas parametros se usaron los valores que utilizaron los autores de

referencia: β0 = −2, β1 = −0.5 y β3 = 1. Ademas, se consideraron cuatro tamanos

de muestra diferentes ni = 5, 10, 15, 20 y un numero de conglomerados de m = 100.

Para cada escenario dado por la combinacion de ni, β2, la distribucion verdadera

de bi y σ2b , se simularon 1000 conjuntos de datos con la estructura (3-5) o (3-6), y

posteriormente se les ajusto el modelo GLMM con la funcion glmer para el caso

Poisson y con la funcion glmer.nb para el caso BN, que se encuentran en el paquete

lme4 de R. La proporcion de veces que se detecto un efecto del parametro de interes

diferente de cero fue calculada; es decir, las veces que se rechazo H0: β2 = 0 con un

nivel de significancia del 5 %. Cuando no hay efecto del parametro (β2 = 0), esta

proporcion corresponde al error tipo I y para otros valores de β2, esta proporcion

representa la potencia de la prueba que esta bajo estudio (Litiere et al. 2008).

3.2 Impacto sobre el error tipo I y la potencia de la prueba de Wald 25

Tabla 3-2: Hipotesis de interes y valores de β2 usados para las simulaciones de modelos GLMM

con intercepto aleatorio

Hipotesis Poisson BN

H0: β2 = 0 vs. H1: β2 6= 0 β2 = 0, 0.5, 1, 1.5 β2 = 0, 1.5, 2, 2.5


3.2.2. Modelos GLMM con intercepto y pendiente aleatoria y

variable de respuesta Poisson y Binomial Negativa

Se realizo un estudio de simulacion para estudiar el impacto de la especificacion

incorrecta de la distribucion de los efectos aleatorios para el caso de modelos lineales

generalizados mixtos con respuesta Poisson e intercepto y pendiente aleatoria. Se

considero la siguiente estructura tomada de Neuhaus et al. (2012):

yij|biind.∼ Poisson(µij)

g(µij) = β0 + b0i + (β1 + b1i)x1ij + β2x2ij + β3x3i

biind.∼ GT

(3-7)

con i = 1, 2, ...,m, j = 1, 2, ..., ni.

Partiendo de la estructura propuesta por Neuhaus et al. (2012), tambien se simularon

variables de respuesta BN con la siguiente estructura:

yij|biind.∼ BN(µij, α = 0.5)

log(µij) = β0 + b0 + (β1 + bi)x1ij + β2x2ij + β3x3i

biind.∼ GT

(3-8)

Con x1ij, que tiene valores igualmente espaciados entre −1 y 1; x2ij, una covariable

dentro de los conglomerados con valores x2i = (−0.5, 1, 0,−1, 0.5)>; y una covariable

binaria entre los conglomerados, x3i, que fue establecida para tomar el valor de 0 para

la mitad de los conglomerados y 1 para el resto. Las tres covariables son mutuamente

ortogonales entre sı (Neuhaus et al. 2012). Ademas, se consideraron cuatro tamanos

de muestra ni = 5, 10, 15, 20 y un numero de conglomerados de m = 100.

El intercepto y la pendiente aleatoria, tanto para la Poisson como para la BN bi =

(b0i, b1i)> fueron generados a partir de 4 distribuciones diferentes GT con µb0i = µb1i =


0, cuatro valores de varianza σ2b0i

= σ2b1i

= 1, 2, 4, 8 y una correlacion de 0.5 entre el

intercepto y la pendiente aleatoria:

a) bi ∼ normal bivariada.

b) bi ∼ t-student bivariada con 3 grados de libertad.

c) bi ∼ exponencial bivariada.

d) bi ∼ Tukey bivariada g−h, donde el parametro g controla la cantidad y direccion

de asimetrıa, mientras que el parametro h controla la cantidad de elongacion

(curtosis) de la distribucion Tukey bivariada (Valencia 2014).

En la Figura 3-2 se presentan los contornos para las cuatro distribuciones usadas

para simular el intercepto y la pendiente aleatoria.

1000 repeticiones fueron generadas para cada combinacion de ni, βk con k = 1, 2, la

distribucion verdadera de bi, σ2b0i

y σ2b1i

con la estructura 3-7 o 3-8, a los cuales se

les ajusto el modelo con la funcion glmer para el caso Poisson y la funcion glmer.nb

para el caso BN, ambas incorporadas en el paquete lme4 de R.

Al igual que para los modelos lineales generalizados mixtos con intercepto aleatorio,

el interes se centro en determinar la proporcion de veces que se detecto un efecto

del parametro de interes, que para este caso, son dos: β1 y β2; es decir, en donde

se rechazo H0: βk = 0 con un nivel de significancia del 5 %, correspondiendo esta

proporcion al error tipo I si βk = 0 y para otros valores del parametro, esta proporcion

representa la potencia de la prueba del analisis (Litiere et al. 2008), con k = 1, 2. Los

valores usados para los parametros de β1 y β2 se presentan en la Tabla 3-3. Para los

demas parametros se usaron los valores de β0 = −2.5 y β3 = 1.0.

Tabla 3-3: Hipotesis de interes y valores de los parametros usados en las simulaciones de modelos

GLMM Poisson y BN con intercepto y pendiente aleatoria

Casos Hipotesis Poisson BN

Caso 1: H0: β1 = 0 vs. H1: β1 6= 0 β2 = 1.0 β2 = 1.0

β1 = 0, 0.3, 0.6, 0.9 β1 = 0, 0.7, 1.4, 2.1

Caso 2: H0: β2 = 0 vs. H1: β2 6= 0 β1 = 1.0 β1 = 1.0

β2 = 0, 0.04, 0.08, 0.12 β2 = 0, 0.2, 0.4, 0.6


4 Resultados del estudio de

simulacion

En este capıtulo se presentan los resultados para los modelos descritos en la seccion

anterior.

4.1. Impacto sobre la estimacion de los parametros

Los resultados del estudio de simulacion para determinar el impacto de la especifica-

cion incorrecta de la distribucion de los efectos aleatorios sobre la estimacion de los

parametros consta de dos partes. En la primera se presentan los correspondiente a

los modelos con intercepto aleatorio y en la segunda, los que tienen tanto intercepto

como pendiente aleatoria.

4.1.1. Resultados para el caso de modelos con intercepto

aleatorio

Para el caso de GLMM con intercepto aleatorio y variable de respuesta Poisson, los

resultados se presentan en las Figuras 4-1,4-2 y 4-3.

La Figura 4-1 muestra las medianas de las distancias relativas correspondientes a

las estimaciones del parametro β0. Para el caso de la varianza de 16 se presenta un

menor impacto cuando la verdadera distribucion es la lognormal, seguido por las

distribuciones normal y mezcla de normales, y por ultimo, se encuentra la uniforme,

representada por la lınea punteada (· · ·). Para las varianzas de 1, 2 y 4 no se observan

diferencias para las cuatro distribuciones consideradas.

28 4 Resultados del estudio de simulacion

σ2 = 1

Tamaño del conglomerado (ni)

DR

3 6 9 12 15

0.0

0.5

1.0

1.5

2.0

2.5

σ2 = 2


DR

3 6 9 12 15

0.0

0.5

1.0

1.5

2.0

2.5

σ2 = 4


DR

3 6 9 12 15

0.0

0.5

1.0

1.5

2.0

2.5

σ2 = 16


DR

3 6 9 12 15

0.0

0.5

1.0

1.5

2.0

2.5

Figura 4-1: Mediana de las distancias relativas para β0 en un GLMM Poisson, con σ2b =

1, 2, 4, 16 y cuatro distribuciones para el intercepto aleatorio: —normal, · · ·uniforme, - - - mezcla de normales, − · − lognormal.

De acuerdo a la Figura 4-2 el impacto de la especificacion incorrecta de las distri-

buciones de los efectos aleatorios para la estimacion del parametro β1 es indiferente

para las cuatro distribuciones consideradas, puesto que presentan el mismo compor-

tamiento, el cual tiene una tendencia decreciente a medida que aumenta el tamano

del conglomerado ni. Un comportamiento similar se presenta para las estimaciones

del parametro β2.

4.1 Impacto sobre la estimacion de los parametros 29

σ2 = 1


DR

3 6 9 12 15

0.000

0.005

0.010

0.015

σ2 = 2


DR

3 6 9 12 15

0.000

0.005

0.010

0.015

σ2 = 4


DR

3 6 9 12 15

0.000

0.005

0.010

0.015

σ2 = 16


DR

3 6 9 12 15

0.000

0.005

0.010

0.015

Figura 4-2: Mediana de las distancias relativas para las estimaciones de β1 en un GLMM

Poisson, con σ2b = 1, 2, 4, 16 y cuatro distribuciones para el intercepto aleato-

rio: —normal, · · · uniforme, - - - mezcla de normales, − · − lognormal.

σ2 = 1


DR

3 6 9 12 15

0.0

0.2

0.4

0.6

0.8

1.0

σ2 = 2


DR

3 6 9 12 15

0.0

0.2

0.4

0.6

0.8

1.0

σ2 = 4


DR

3 6 9 12 15

0.0

0.2

0.4

0.6

0.8

1.0

σ2 = 16


DR

3 6 9 12 15

0.0

0.2

0.4

0.6

0.8

1.0

Figura 4-3: Mediana de las distancias relativas para σ2b en un GLMM Poisson, con σ2

b =




es mayor para la lognormal que para las otras distribuciones si se comparan las

estimaciones para σ2b de dicho intercepto, lo cual es mucho mas evidente a medida

que se aumenta el verdadero valor de σ2b , tal y como se muestra en la Figura 4-3.

Ademas, para cada una de las varianzas el impacto de la especificacion incorrecta

decrece a medida que se aumenta el tamano de los conglomerados ni.

En las Figuras 4-4, 4-5 y 4-6 se muestran los resultados del estudio de simulacion

correspondientes al GLMM de intercepto aleatorio con respuesta BN.

Al ajustar un GLMM y obtener las respectivas estimaciones para el parametro β0 se

obtuvo un impacto mayor en la especificacion incorrecta cuando la verdadera distri-

bucion del efecto aleatorio es la lognormal; lo cual, aunque es mucho mas evidente a

medida que se aumenta la varianza, tiende a disminuir con el aumento del tamano

del conglomerado ni, como se muestra en la Figura 4-4.

σ2 = 1


DR

3 6 9 12 15

0.0

0.5

1.0

1.5

2.0

σ2 = 2


DR

3 6 9 12 15

0.0

0.5

1.0

1.5

2.0

σ2 = 4


DR

3 6 9 12 15

0.0

0.5

1.0

1.5

2.0

σ2 = 16


DR

3 6 9 12 15

0.0

0.5

1.0

1.5

2.0

Figura 4-4: Mediana de las distancias relativas para β0 en un GLMM BN, con σ2b =



σ2 = 1


DR

3 6 9 12 15

0.00

0.01

0.02

0.03

0.04

0.05

0.06

σ2 = 2


DR

3 6 9 12 15

0.00

0.01

0.02

0.03

0.04

0.05

0.06

σ2 = 4


DR

3 6 9 12 15

0.00

0.01

0.02

0.03

0.04

0.05

0.06

σ2 = 16


DR

3 6 9 12 15

0.00

0.01

0.02

0.03

0.04

0.05

0.06

Figura 4-5: Mediana de las distancias relativas para las estimaciones de β1 en un GLMM

BN, con σ2b = 1, 2, 4, 16 y cuatro distribuciones para el intercepto aleatorio:

—normal, · · · uniforme, - - - mezcla de normales, − · − lognormal.

Para las estimaciones del parametro β1, tal y como se evidencio en el caso de respues-

ta Poisson, parece ser que no hay mucha diferencia en cuanto a la consideracion de las

cuatro distribuciones para los efectos aleatorios, de acuerdo a la Figura 4-5. Ademas,

se evidencia una tendencia decreciente de las medianas de las distancias relativas a

medida que aumenta el tamano del conglomerado ni, marcando con ello una reduc-

cion del impacto de la especificacion incorrecta. Las estimaciones correspondientes al

parametro β2 presentaron resultados muy similares a las de β1.

Lo observado en cuanto a las estimaciones de σ2b del intercepto aleatorio (Figura 4-6)

es similar que para el caso de respuesta Poisson, ya que de acuerdo a los valores de

las medianas de las distancias relativas, no solo se observa un impacto mayor cuando

la verdadera distribucion del efecto aleatorio es lognormal, sino tambien un aumento

de dicho impacto a medida que aumenta el valor de la varianza.


σ2 = 1


DR

3 6 9 12 15

0.0

0.2

0.4

0.6

0.8

σ2 = 2


DR

3 6 9 12 15

0.0

0.2

0.4

0.6

0.8

σ2 = 4


DR

3 6 9 12 15

0.0

0.2

0.4

0.6

0.8

σ2 = 16


DR

3 6 9 12 15

0.0

0.2

0.4

0.6

0.8

Figura 4-6: Mediana de las distancias relativas para σ2b en un GLMM BN, con σ2

b =

1, 2, 4, 16 y cuatro distribuciones para el intercepto aleatorio: —normal · · ·uniforme - - - mezcla de normales − · − lognormal.

4.1.2. Resultados para el caso de modelos con intercepto y

pendiente aleatoria

En la Figura 4-7 se presentan los resultados de las medianas de las distancias relati-

vas de la estimacion del parametro β0 para los diferentes tamanos de conglomerado

ni = 3, 6, 9, 12 y las cuatro distribuciones bivariadas para el intercepto y pendiente

aleatoria considerados (normal, t-student, exponencial y Tukey). Se observa que para

las distribuciones Tukey y exponencial bivariadas, distribuciones que se alejan de la

propiedad de simetrıa que tiene la distribucion normal (distribucion asumida para

para los efectos aleatorios), son las que presentan mayores valores de las medianas

de las distancias relativas; es decir, un sesgo mayor respecto al verdadero valor del

parametro (β0 = 1). Por tanto, se evidencia un impacto de la especificacion incorrecta

de la distribucion de los efectos aleatorios para dicho parametro poblacional.

El mismo comportamiento de la Figura 4-7 se presenta para la estimacion del parame-

tro β1 (Figura 4-8), en donde nuevamente las distribuciones verdaderas de los efectos

aleatorios Tukey y exponencial bivariadas son las que presentan mayores valores de las

medianas de las distancias relativas, y con ello, un mayor impacto de la especificacion

incorrecta en dichas distribuciones.

La estimacion del parametro β2 (Figura 4-9) resulto ser la menos afectada por la


σb0

2 = σb1

2 = 0.5


DR

3 6 9 12

0.0

0.5

1.0

1.5

2.0

σb0

2 = σb1

2 = 1


DR

3 6 9 12

0.0

0.5

1.0

1.5

2.0

σb0

2 = σb1

2 = 2


DR

3 6 9 12

0.0

0.5

1.0

1.5

2.0

σb0

2 = σb1

2 = 4


DR

3 6 9 12

0.0

0.5

1.0

1.5

2.0

Figura 4-7: Mediana de las distancias relativas para β0 en un GLMM Poisson, con

σ2b0

= σ2b1

= 0.5, 1, 2, 4 y cuatro distribuciones bivariadas para el intercep-

to y pendiente aleatoria: —normal, · · · t-student, - - - exponencial, − · −Tukey.

σb0

2 = σb1

2 = 0.5


DR

3 6 9 12

0.0

0.2

0.4

0.6

0.8

1.0

1.2

σb0

2 = σb1

2 = 1


DR

3 6 9 12

0.0

0.2

0.4

0.6

0.8

1.0

1.2

σb0

2 = σb1

2 = 2


DR

3 6 9 12

0.0

0.2

0.4

0.6

0.8

1.0

1.2

σb0

2 = σb1

2 = 4


DR

3 6 9 12

0.0

0.2

0.4

0.6

0.8

1.0

1.2


σ2b0

= σ2b1




σb0

2 = σb1

2 = 0.5


DR

3 6 9 12

0.00

0.01

0.02

0.03

0.04

σb0

2 = σb1

2 = 1


DR

3 6 9 12

0.00

0.01

0.02

0.03

0.04

σb0

2 = σb1

2 = 2


DR

3 6 9 12

0.00

0.01

0.02

0.03

0.04

σb0

2 = σb1

2 = 4


DR

3 6 9 12

0.00

0.01

0.02

0.03

0.04


σ2b0

= σ2b1



especificacion incorrecta de la distribucion de los efectos aleatorios con valores que

oscilan entre 0 % y el 3 % para todas las configuraciones consideradas, rescatandose

que los valores de las medianas de las distancias relativas decrecen a medida que

aumenta el tamano del conglomerado ni. Contrario a los resultados encontrados para

el modelo mixto Poisson de intercepto aleatorio, se observan diferencias entre las

estimaciones de los parametros β1 y β2, puesto que aquı hay una pendiente aleatoria

b1i asociada con el primero.

Las estimaciones de los componentes de varianza (σ2b0

y σ2b1

) de ambos efectos aleato-

rios se vieron ampliamente afectados por la especificacion incorrecta de las distribu-

ciones de dichos efectos. En la Figura 4-10 se observan los resultados de las medianas

de las distancias relativas para las estimaciones de σ2b0i

, en donde claramente se evi-

dencia que la distribucion Tukey bivariada es la que presenta los mayores valores de

las medianas para todos los casos, excepto cuando σ2b0

= 4. Ademas, las medianas

parecen aumentar a medida que aumenta el tamano del conglomerado ni en todos

los casos, excepto cuando σ2b0i

= 4.


σb0

2 = σb1

2 = 0.5


DR

3 6 9 12

0

5

10

15

σb0

2 = σb1

2 = 1


DR

3 6 9 12

0

5

10

15

σb0

2 = σb1

2 = 2


DR

3 6 9 12

0

5

10

15

σb0

2 = σb1

2 = 4


DR

3 6 9 12

0

5

10

15

Figura 4-10: Mediana de las distancias relativas para ˆσb0i2 en un GLMM Poisson, con

σ2b0

= σ2b1

= 0.5, 1, 2, 4 y cuatro distribuciones bivariadas para el intercepto y

pendiente aleatoria: —normal, · · · t-student, - - - exponencial, − ·− Tukey.

σb0

2 = σb1

2 = 0.5


DR

3 6 9 12

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

σb0

2 = σb1

2 = 1


DR

3 6 9 12

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

σb0

2 = σb1

2 = 2


DR

3 6 9 12

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

σb0

2 = σb1

2 = 4


DR

3 6 9 12

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

Figura 4-11: Mediana de las distancias relativas para ˆσb1i2 en un GLMM Poisson, con

σ2b0

= σ2b1

= 0.5, 1, 2, 4 y cuatro distribuciones bivariadas para el intercepto y

pendiente aleatoria: —normal, · · · t-student, - - - exponencial, − ·− Tukey.


Para la estimacion del componente de varianza σ2b1

(Figura 4-11) tambien se observa

un impacto de la especificacion incorrecta, pero en menor proporcion que la de la

estimacion de σ2b0

, en donde nuevamente la distribucion Tukey bivariada es la que

presenta los mayores valores de las medianas de las distancias relativas cuando σ2b1

=

0.5, 1 y por ende, un mayor impacto. En esta Figura tambien se observa un impacto

relativamente mayor cuando la distribucion verdadera es la exponencial bivariada

frente a las distribuciones normal y t-student bivariadas, para los casos mencionados

anteriormente.

Las figuras 4-12, 4-13, 4-14, 4-15 y 4-16 presentan los resultados de las medianas

de las distancias relativas para las simulaciones del modelo mixto BN con intercepto

y pendiente aleatoria. La Figura 4-12 corresponde al parametro de β0. Allı se observa

que contrario a todos los resultados encontrados hasta aquı, la distribucion normal

bivariada es la que presenta los mayores valores de las medianas de las distancias

relativas, sabiendo que para esta distribucion, que es la distribucion asumida para el

ajuste del modelo mixto con intercepto y pendiente aleatoria no hay especificacion

incorrecta. Un comportamiento similar al de la normal bivariada lo presenta la dis-

tribucion exponencial bivariada. El menor impacto de la especificacion incorrecta de

la distribucion de los efectos aleatorios se presento cuando la distribucion verdadera

fue la t-student bivariada.

σb0

2 = σb1

2 = 0.5


DR

3 6 9 12

0.0

0.5

1.0

1.5

σb0

2 = σb1

2 = 1


DR

3 6 9 12

0.0

0.5

1.0

1.5

σb0

2 = σb1

2 = 2


DR

3 6 9 12

0.0

0.5

1.0

1.5

σb0

2 = σb1

2 = 4


DR

3 6 9 12

0.0

0.5

1.0

1.5

Figura 4-12: Mediana de las distancias relativas para β0 en un GLMM BN con σ2b0

= σ2b1

=

0.5, 1, 2, 4 y cuatro distribuciones bivariadas para el intercepto y pendiente

aleatoria: —normal, · · · t-student, - - - exponencial, − · − Tukey.


En cuanto al impacto de la especificacion incorrecta para el parametro β1 (Figura

4-13), se observa que la distribucion Tukey bivariada es la que presenta los mayores

valores de las distancias relativas, y ası, los mayores impactos de la especificacion

incorrecta. Le sigue la distribucion t-student bivariada con valores que oscilan entre

el 34 % y el 100 %.

σb0

2 = σb1

2 = 0.5


DR

3 6 9 12

0.0

0.5

1.0

1.5

σb0

2 = σb1

2 = 1


DR

3 6 9 12

0.0

0.5

1.0

1.5

σb0

2 = σb1

2 = 2


DR

3 6 9 12

0.0

0.5

1.0

1.5

σb0

2 = σb1

2 = 4


DR

3 6 9 12

0.0

0.5

1.0

1.5


= σ2b1

=



La Figura 4-14 contiene la representacion de las medianas de las distancias relativas

de la estimacion del parametro β2, cuyos valores no sobrepasen el 15 % y que no

muestra diferencias entre las cuatro distribuciones bivariadas consideradas tanto para

el intercepto como para la pendiente aleatoria. A diferencia del modelo mixto BN de

intercepto aleatorio, no se observa un comportamiento igual para las estimaciones de

los parametros β1 y β2, puesto que aquı se esta asumiendo una pendiente aleatoria

b1i, asociada con el primero.

La estimacion del componente de varianza correspondiente al intercepto aleatorio σ2b0

y las medidas de cuanto se aleja del verdadero valor de este se puede visualizar en la

Figura 4-15, donde se encuentra un comportamiento muy parecido al que se presenta

para las estimaciones de β0, con los mayores valores de las distancias relativas cuando

las verdaderas distribuciones de los efectos aleatorios son la normal y la exponencial

bivariadas, sabiendo que para la primera, no hay especificacion incorrecta.

Para la estimacion del componente de varianza σ2b1

(Figura 4-16) se tienen resultados


σb0

2 = σb1

2 = 0.5


DR

3 6 9 12

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

σb0

2 = σb1

2 = 1


DR

3 6 9 12

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

σb0

2 = σb1

2 = 2


DR

3 6 9 12

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

σb0

2 = σb1

2 = 4


DR

3 6 9 12

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14


= σ2b1

=



σb0

2 = σb1

2 = 0.5


DR

3 6 9 12

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

σb0

2 = σb1

2 = 1


DR

3 6 9 12

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

σb0

2 = σb1

2 = 2


DR

3 6 9 12

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

σb0

2 = σb1

2 = 4


DR

3 6 9 12

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Figura 4-15: Mediana de las distancias relativas para ˆσb0i2 en un GLMM BN con σ2

b0=

σ2b1

= 0.5, 1, 2, 4 y cuatro distribuciones bivariadas para el intercepto y pen-

diente aleatoria: —normal, · · · t-student, - - - exponencial, − · − Tukey.


muy diferentes que los obtenidos para σ2b0

, ya que aquı es posible observar que efecti-

vamente hay un impacto de la especificacion incorrecta si la distribucion verdadera es

Tukey bivariada, puesto que es la que presenta los mayores valores de las distancias

relativas, excepto cuando σ2b1

= 2.

σb0

2 = σb1

2 = 0.5


DR

3 6 9 12

0.0

0.1

0.2

0.3

0.4

0.5

σb0

2 = σb1

2 = 1


DR

3 6 9 12

0.0

0.1

0.2

0.3

0.4

0.5

σb0

2 = σb1

2 = 2


DR

3 6 9 12

0.0

0.1

0.2

0.3

0.4

0.5

σb0

2 = σb1

2 = 4


DR

3 6 9 12

0.0

0.1

0.2

0.3

0.4

0.5

Figura 4-16: Mediana de las distancias relativas para ˆσb1i2 en un GLMM BN con σ2

b0=

σ2b1

= 0.5, 1, 2, 4 y cuatro distribuciones bivariadas para el intercepto y pen-

diente aleatoria: —normal, · · · t-student, - - - exponencial, − · − Tukey.


4.2. Impacto sobre los errores tipo I y la potencia de

la prueba de Wald


sobre los errores tipo I y la potencia de la prueba de Wald fue estudiada en modelos

lineales generalizados mixtos con intercepto y con intercepto y pendiente aleatoria.

A continuacion se presentan los resultados para el primer caso.

4.2.1. Resultados para los modelos GLMM con intercepto

aleatorio

En las Figuras 4-17 y 4-18 se presentan los resultados de los errores tipo I y de la

potencia para el test estadıstico de Wald al probar la hipotesis de H0: β2 = 0 vs H1:

β2 6= 0 en modelos lineales mixtos generalizados con variable de respuesta Poisson y

BN, respectivamente, usando diferentes valores para β2 (Tabla 3-2) y cuatro tamanos

de muestra ni = 5, 10, 15, 20.

Al ser la distribucion normal, la distribucion asumida para el ajuste del intercepto

aleatorio, se espera que las tasas de rechazo de la hipotesis nula H0: β2 = 0, siendo

β2 = 0 (error tipo I) sean menores cuando la verdadera distribucion del intercepto

aleatorio es normal (lınea —); lo cual efectivamente se logra visualizar en la columna

1 (de izquierda a derecha) en la Figura 4-17. Las mayores tasas se observan cuando

la verdadera distribucion es la lognormal (lınea - · -), indicando con ello un impacto

de la especificacion incorrecta de la distribucion del intercepto aleatorio. Las colum-

nas 2, 3 y 4 corresponden a las tasas de rechazo de la hipotesis H0: β2 = 0, siendo

β2 = 0.5, 1, 1.5, respectivamente. Aquı se espera que las tasas suban hasta llegar al

100 % a medida que aumenta tanto el valor de β2 como el valor de ni y que las corres-

pondientes a la distribucion normal, sean las mayores para todas las configuraciones.

En la Figura 4-17 se observa que para todos los casos, excepto cuando la verdadera

distribucion es la lognormal, las mayores tasas de rechazo corresponden a la normal

y que ademas, para la uniforme, representada por la lınea · · ·, se tienen tasas por

debajo de la normal, lo cual indica tambien un impacto de la especificacion incorrecta

de la distribucion del intercepto aleatorio.

4.2 Impacto sobre los errores tipo I y la potencia de la prueba de Wald 41

β2 = 0, σb2 = 1


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.8

β2 = 0.5, σb2 = 1


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.8

β2 = 1, σb2 = 1


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.8

β2 = 1.5, σb2 = 1


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.8

β2 = 0, σb2 = 2


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.8

β2 = 0.5, σb2 = 2


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.8

β2 = 1, σb2 = 2


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.8

β2 = 1.5, σb2 = 2


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.8

β2 = 0, σb2 = 4


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.8

β2 = 0.5, σb2 = 4


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.8

β2 = 1, σb2 = 4

Tamaño del conglomerado (ni)P

oten

cia

prue

ba

5 10 15 20

0.00.20.40.60.8

β2 = 1.5, σb2 = 4


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.8

β2 = 0, σb2 = 8


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.8

β2 = 0.5, σb2 = 8


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.8

β2 = 1, σb2 = 8


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.8

β2 = 1.5, σb2 = 8


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.8

Figura 4-17: Errores tipo I y potencia para el test de Wald al probar H0: β2 = 0 vs H1:

β2 6= 0 en un GLMM Poisson con intercepto aleatorio, con σ2b = 1, 2, 4, 8 y

cuatro distribuciones para el intercepto aleatorio: —normal - - - mezcla de

normales · · · uniforme - · - lognormal.

La Figura 4-18 presenta un comportamiento similar al encontrado en la Figura 4-2,

ya que se visualiza un impacto de especificar incorrectamente la distribucion del in-

tercepto aleatorio al asumirlo normal cuando en realidad proviene de una distribucion

lognormal. Al igual que los resultados para un modelo GLMM Poisson, el impacto

es mayor a medida que se aumenta los valores de la varianza (se presentan mayores

tasas de rechazo; es decir, mayor probabilidad de cometer un error tipo I).


β2 = 0, σb2 = 1

Tamaño del cluster (ni)

Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β2 = 1.5, σb2 = 1


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 2, σb2 = 1


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 2.5, σb2 = 1


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0, σb2 = 2


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β2 = 1.5, σb2 = 2


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 2, σb2 = 2


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 2.5, σb2 = 2


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0, σb2 = 4


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β2 = 1.5, σb2 = 4


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 2, σb2 = 4


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 2.5, σb2 = 4


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0, σb2 = 8


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β2 = 1.5, σb2 = 8


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 2, σb2 = 8


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 2.5, σb2 = 8


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0


β2 6= 0 en un GLMM BN con intercepto aleatorio, con σ2b = 1, 2, 4, 8 y cuatro

distribuciones para el intercepto aleatorio: —normal - - - mezcla de normales

· · · uniforme - · - lognormal.

4.2.2. Resultados para los modelos GLMM con intercepto y

pendiente aleatoria

Los resultados de los errores tipo I y de la potencia para el test estadıstico de Wald

para las pruebas de hipotesis establecidas en la Tabla 3-3 en el caso de modelos con

respuesta Poisson o BN e intercepto y pendiente aleatoria son presentados en las

Figuras 4-19, 4-20, 4-21 y 4-22.

En la Figura 4-19 se presenta el error tipo I y la potencia del test de Wald para la

prueba de hipotesis H0: β1 = 0 vs H1: β1 6= 0 en un GLMM Poisson, para el que se

consideraron cuatro valores de β1 = 0, 0.3, 0.6, 0.9 y cuatro tamanos de muestra dife-

rentes ni = 5, 10, 15, 20. Las menores tasas de rechazo de la hipotesis nula, siendo esta

verdadera, que se presentan en la columna 1, corresponden a la distribucion normal,

como era lo esperado. Para σ2b0i

= σ2b1i

= 2 y 8 las mayores tasas corresponden a la

distribucion Tukey bivariada (- · -), evidenciandose con esto un impacto de especifi-

car incorrectamente la distribucion de los efectos aleatorios, al asumirlos normales en


lugar de Tukey. En cuanto a las tasas de rechazo cuando β1 6= 0, representadas en las

columnas 2, 3 y 4, tambien es posible evidenciar un impacto de dicha especificacion

al obtenerse menores tasas que la normal para la distribucion exponencial bivariada

(lınea · · ·).

β1 = 0, σb2 = 1


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β1 = 0.3, σb2 = 1


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 0.6, σb2 = 1


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 0.9, σb2 = 1


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 0, σb2 = 2


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β1 = 0.3, σb2 = 2


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 0.6, σb2 = 2

Tamaño del conglomerado (ni)P

oten

cia

prue

ba5 10 15 20

0.00.20.40.60.81.0

β1 = 0.9, σb2 = 2


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 0, σb2 = 4


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β1 = 0.3, σb2 = 4


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 0.6, σb2 = 4


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 0.9, σb2 = 4


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 0, σb2 = 8


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β1 = 0.3, σb2 = 8


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 0.6, σb2 = 8


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 0.9, σb2 = 8


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

Figura 4-19: Errores tipo I y potencia para el test de Wald para la prueba de hipotesis

H0: β1 = 0 vs H1: β1 6= 0 en un GLMM Poisson, con σ2b0i

= σ2b1i

= 1, 2, 4, 8

y cuatro distribuciones bivariadas para el intercepto y pendiente aleatoria:

—normal - - - t-student · · · exponencial - · - Tukey.


Los resultados del error tipo I y la potencia del test de Wald al probar la hipotesis

H0: β2 = 0 vs H1: β2 6= 0 en un GLMM Poisson con cuatro valores diferentes para

β2 = 0, 0.04, 0.08, 0.12 y cuatro tamanos de muestra ni = 5, 10, 15, 20 son presentados

en la Figura 4-20. Opuesto a lo encontrado al probar la hipotesis H0: β1 = 0 vs H1:

β1 6= 0, no parece haber un impacto de especificar incorrectamente la distribucion

del intercepto y pendiente aleatoria, puesto que no hay diferencias en las tasas de

rechazo cuando β2 = 0 al comparar las cuatro distribuciones verdaderas para los

efectos aleatorios (columna 1). Respecto a las tasas de rechazo de la hipotesis cuando

β2 6= 0(columnas 2, 3 y 4), no se observan tasas por debajo de la distribucion normal,

pudiendo concluir que tampoco se tienen evidencias de un impacto de especificar

incorrectamente la distribucion de los efectos aleatorios para este caso.

β2 = 0, σb2 = 1


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.04, σb2 = 1


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.08, σb2 = 1


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.12, σb2 = 1


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0, σb2 = 2


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.04, σb2 = 2


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.08, σb2 = 2


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.12, σb2 = 2


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0, σb2 = 4


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.04, σb2 = 4


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.08, σb2 = 4


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.12, σb2 = 4


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0, σb2 = 8


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.04, σb2 = 8


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.08, σb2 = 8


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.12, σb2 = 8


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

Figura 4-20: Errores tipo I y potencia para el test de Wald al probar H0: β2 = 0 vs

H1: β2 6= 0 en un GLMM Poisson, con σ2b0i

= σ2b1i

= 1, 2, 4, 8 y cuatro

distribuciones bivariadas para el intercepto y pendiente aleatoria: —normal

- - - t-student · · · exponencial - · - Tukey.


Las Figuras 4-21 y 4-22 por su parte, presentan las tasas de rechazo de las hipotesis

nulas H0: β1 = 0 y H0: β2 = 0 respectivamente, y los resultados de la potencia para

el test estadıstico de Wald asumiendo valores para β1 = 0, 0.7, 1.4, 2.1 y valores para

β2 = 0, 0.2, 0.4, 0.6 en un GLMM BN con intercepto y pendiente aleatoria.

β1 = 0, σb2 = 1


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β1 = 0.7, σb2 = 1


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 1.4, σb2 = 1


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 2.1, σb2 = 1


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 0, σb2 = 2


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β1 = 0.7, σb2 = 2


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 1.4, σb2 = 2

Tamaño del cluster (ni)P

oten

cia

prue

ba5 10 15 20

0.00.20.40.60.81.0

β1 = 2.1, σb2 = 2


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 0, σb2 = 4


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β1 = 0.7, σb2 = 4


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 1.4, σb2 = 4


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 2.1, σb2 = 4


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 0, σb2 = 8


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β1 = 0.7, σb2 = 8


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 1.4, σb2 = 8


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β1 = 2.1, σb2 = 8


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0


β1 6= 0 en un GLMM BN con intercepto y pendiente aleatoria y σ2b0i

= σ2b1i

=

1, 2, 4, 8 y cuatro distribuciones bivariadas para el intercepto y pendiente

aleatoria: —normal - - - t-student · · · exponencial - · - Tukey.

La Figura 4-21, similar a lo encontrado para modelos GLMM Poisson con intercepto

y pendiente aleatoria, presenta evidencias para afirmar que efectivamente hay un

impacto de especificar incorrectamente la distribucion de los efectos aleatorios, puesto

que en la columna 1, en donde se presentan las tasas de rechazo de la hipotesis H0:

β1 = 0 vs H1: β1 6= 0, cuando β1 = 0 (error tipo I), las mayores tasas corresponden a

las distribuciones exponencial y Tukey bivariadas, lo cual se hace mucho mas evidente

a medida que aumenta el valor de la varianza y cuando esta tiene un valor de σ2b0i

=

σ2b1i

= 8. Adicional, si se observan las columnas 2, 3 y 4, en donde se presenta

la potencia del test de Wald al rechazar la hipotesis de interes, siendo esta falsa,

se puede observar como para algunos valores de β1 y de σ2b0i

= σ2b1i

las tasas son

menores cuando la verdadera distribucion de los efectos es la exponencial bivariada,

si se compara con los resultados obtenidos para la distribucion normal bivariada,


senalando un impacto de la especificacion incorrecta de la distribucion de los efectos

aleatorios.

β2 = 0, σb2 = 1


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.2, σb2 = 1


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.4, σb2 = 1


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.6, σb2 = 1


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0, σb2 = 2


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.2, σb2 = 2


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.4, σb2 = 2

Tamaño del cluster (ni)P

oten

cia

prue

ba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.6, σb2 = 2


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0, σb2 = 4


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.2, σb2 = 4


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.4, σb2 = 4


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.6, σb2 = 4


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0, σb2 = 8


Tasa

de

rech

azo

(H0)

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.2, σb2 = 8


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.4, σb2 = 8


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0

β2 = 0.6, σb2 = 8


Pot

enci

a pr

ueba

5 10 15 20

0.00.20.40.60.81.0


β2 6= 0 en un GLMM BN con intercepto y pendiente aleatoria y σ2b0i

= σ2b1i

=

1, 2, 4, 8 y cuatro distribuciones bivariadas para el intercepto y pendiente

aleatoria: —normal - - - t-student · · · exponencial - · - Tukey.

Finalmente, en la Figura 4-22 son presentadas las tasas de rechazo de la prueba de

hipotesis H0: β2 = 0 vs H1: β2 6= 0 en un GLMM BN con intercepto y pendiente

aleatoria, que al igual que lo observado en un GLMM Poisson, no parece haber

evidencia del impacto de especificar incorrectamente la distribucion de los efectos

aleatorios.

5 Conclusiones

A traves de un estudio de simulacion, que considero diferentes modelos lineales gene-

ralizados mixtos con variables de respuesta Poisson o BN y con intercepto e intercepto

y pendiente aleatoria, se logro cuantificar el impacto de la especificacion incorrecta de

la distribucion de los efectos aleatorios. A continuacion se presentan las principales

conclusiones en cuanto al impacto sobre la estimacion de los parametros y sobre los

errores tipo I y potencia de la prueba de Wald.

5.1. Impacto de la especificacion incorrecta sobre la

estimacion de los parametros

En los resultados presentados del ajuste de un modelo mixto Poisson con intercepto

aleatorio se observo un impacto de la especificacion incorrecta de la distribucion del

efecto aleatorio en la estimacion del valor de σ2b , y a medida que este valor aumento de

σ2b = 1 a σ2

b = 16. Este impacto fue mayor cuando la verdadera distribucion fue la

lognormal.

Para el caso de un modelo mixto BN con intercepto aleatorio el impacto de la espe-

cificacion incorrecta es mayor para el parametro poblacional β0 en comparacion con

los demas parametros, ya que tiene los valores mas altos para las medianas de las

distancias relativas y como se indico a lo largo de las secciones 2 y 3 “a mayor valor

de la distancia relativa, mayor sera el impacto de la especificacion incorrecta”. Por

otra parte, dicho impacto tambien fue mayor al simular el intercepto aleatorio con

una distribucion lognormal, que por sus caracterısticas, es la que mas se aleja de la

normalidad, en cuanto a las distribuciones consideradas para el estudio; lo cual se

hace mucho mas evidente al aumentar la varianza. Tambien hay que resaltar de los

resultados del estudio de simulacion que el impacto de la especificacion incorrecta

disminuye a medida que se aumenta el tamano del conglomerado ni, al igual que lo

observado con el modelo mixto Poisson de intercepto aleatorio.

En terminos generales, se encontro que las estimaciones del componente de varianza

σ2b fueron las mas afectadas por la especificacion incorrecta de la distribucion del

48 5 Conclusiones

efecto aleatorio al ajustar tanto un modelo mixto Poisson y un BN con intercep-

to aleatorio. Ademas, para este ultimo caso, tambien se encontro un impacto para

la estimacion del parametro β0. Estos impactos se produjeron cuando la verdadera

distribucion fue la lognormal y cuando se aumento el valor de σ2b .

Los resultados de los ajustes de los modelos mixtos Poisson y BN con intercepto y

pendiente aleatoria mostraron que efectivamente hay un impacto de la especificacion

incorrecta de las distribuciones de dichos efectos. Para el modelo Poisson los mayores

impactos se presentaron en la estimacion de los parametros β0 y β1 y en el com-

ponente de varianza σ2b0

, en donde en este ultimo, los valores de distancia relativa

alcanzaron hasta la frontera de 1800 %. Tambien se observo que en casi todas las con-

figuraciones, la distribucion Tukey bivariada fue la que obtuvo los mayores valores

de las medianas de las distancias relativas, senalando con esto, los mayores impactos

de la especificacion incorrecta de la distribucion de los efectos aleatorios.

En los ajustes de un modelo BN con intercepto y pendiente aleatoria se obtuvieron

resultados muy diferentes a los encontrados en los ajustes tanto de los modelos de

efectos mixtos con intercepto y con intercepto y pendiente aleatoria con variable de

respuesta Poisson, puesto que para las estimaciones del parametro β0 y de σ2b0

los ma-

yores valores de las distancias relativas resultaron ser para las distribuciones normal

y t-student bivariadas, sabiendo que para la primera de ellas no hay especificacion

incorrecta. En cuanto a las estimaciones de β1 y σ2b1

si se encontro un impacto de

la especificacion incorrecta y dicho impacto fue mayor cuando la verdadera distri-

bucion de los efectos aleatorios fue la Tukey bivariada. Finalmente, las estimaciones

del parametro β2 resultaron ser muy similares al verdadero valor, marcando con esto

valores de las distancias relativas no superiores al 15 %.

Con el estudio de simulacion que incluıa modelos mixtos con intercepto aleatorio uni-

camente o intercepto y pendiente aleatoria se logro identificar, en terminos generales,

que sı hay un impacto de la especificacion incorrecta de la distribucion de los efectos

aleatorios y que dicho impacto se presento en mayor medida para los componentes de

varianza de los efectos mixtos en ambos casos y para el parametro de β1 en los mo-

delos Poisson y BN con intercepto y pendiente aleatoria. Tambien se logro observar

que los mayores valores de DR se obtuvieron principalmente al ajustar los modelos

de dos efectos aleatorios (intercepto y pendiente aleatoria) en comparacion con los

de un solo efecto (intercepto aleatorio).

5.2 Impacto de la especificacion incorrecta sobre los errores tipo I y potencia de laprueba de Wald 49

5.2. Impacto de la especificacion incorrecta sobre los

errores tipo I y potencia de la prueba de Wald

En esta seccion el objetivo era identificar si efectivamente se presenta un impacto de

la especificacion incorrecta de la distribucion de los efectos aleatorios en los procedi-

mientos inferenciales de pruebas de hipotesis de tipo Wald. Se simularon conjuntos de

datos con variables de respuesta Poisson o BN, a los cuales se les ajustaron modelos

lineales generalizados mixtos considerando, en algunos casos, intercepto aleatorio y

en otros, intercepto y pendiente aleatoria.

Para ambos casos, Poisson y BN con intercepto aleatorio, se encontro un impacto de

especificar incorrectamente la distribucion de dicho intercepto, al obtenerse mayores

tasas de rechazo de la hipotesis H0: β2 = 0 vs H1: β2 6= 0, siendo β2 = 0; es decir,

mayores probabilidades de cometer error tipo I cuando la verdadera distribucion del

intercepto es lognormal, y que ademas el impacto es mayor a medida que se aumentan

los valores de la varianza para el intercepto aleatorio. Tambien se encontro evidencia

de dicho impacto con las menores tasas de rechazo cuando la verdadera distribucion

fue la uniforme al ser β2 6= 0; es decir, con menores tasas para la potencia del test.

En los casos en los cuales se ajustaron modelos lineales generalizados mixtos con

respuesta Poisson o BN e intercepto y pendiente aleatoria, y que el interes estuvo

en las pruebas de hipotesis de tipo Wald para determinar un efecto o del parametro

β1 o del parametro β2, se encontro efectivamente un impacto de la especificacion

incorrecta de la distribucion de los efectos aleatorios al probar la hipotesis H0: β1 = 0

vs H1: β1 6= 0, tanto para el ajuste de modelos Poisson como BN. Dicho impacto se

observo con las mayores tasas de rechazo al ser la hipotesis nula verdadera; es decir,

con las mayores probabilidades de cometer error tipo I, cuando la distribucion real

de los efectos aleatorios era Tukey bivariada y con las menores tasas de rechazo al ser

la hipotesis nula falsa, relacionado con la potencia estadıstica, cuando la verdadera

distribucion fue la exponencial bivariada. Al probar la hipotesis H0: β2 = 0 vs H1:

β2 6= 0 no se encontraron evidencias de la especificacion incorrecta de la distribucion

de los efectos aleatorios.

5.3. Trabajos a futuro

Si bien en este trabajo se abordo el problema de la especificacion incorrecta de la dis-

tribucion de los efectos aleatorios, autores como McCulloch & Neuhaus (2011) iden-

tifican otros aspectos de la especificacion incorrecta, tales como que la distribucion

de los efectos aleatorios puede depender de una covariable o que dicha dependencia

50 5 Conclusiones

puede ser sobre el tamano de muestra del conglomerado. Por tanto, como trabajo a

futuro, serıa interesante estudiar el impacto en las estimaciones de los parametros en

los modelos lineales generalizados mixtos en tales tipos de especificaciones, al igual

que las relacionadas con la especificacion incorrecta de la funcion de enlace, no tener

en cuenta la presencia de sobredispersion, etcetera.

Bibliografıa

Agresti, A., Caffo, B. & Ohman-Strickland, P. (2004), ‘Examples in which misspeci-

fication of a random effects distribution reduces efficiency, and possible remedies’,

Computational Statistics and Data Analysis 47(3), 639–653.

Alonso, A., Litiere, S. & Molenberghs, G. (2008), ‘A family of tests to detect miss-

pecifications in the random-effects structure of generalized linear mixed models’,

Computational statistics and data analysis 52(9), 4474–4486.

Alonso, A., Litiere, S. & Molenberghs, G. (2010), ‘Testing for misspecification in

generalized linear mixed models’, Biostatistics 11(4), 771–786.

Alonso, A., Milanzi, E., Molenberghs, G., Buyck, C. & Bijnens, L. (2015), ‘A new

modeling approach for quantifying expert opinion in the drug discovery process’,

Statistics in medicine 34(9), 1590–1604.

Bolker, B. M., Brooks, M. E., Clark, C. J., Geange, S. W., Poulsen, J. R., Stevens, M.

H. H. & White, J. S. (2009), ‘Generalized linear mixed models: a practical guide

for ecology and evolution’, Trends in ecology and evolution 24(3), 127–135.

Claeskens, G. & Hart, J. (2009), ‘Goodness-of-fit tests in mixed models’, Test

18(2), 213–239.

Cook, R. J., Lee, K. A. & Li, H. (2007), ‘Non-inferiority trial design for recurrent

events’, Statistics in medicine 26(25), 4563–4577.

DeGroot, M. H. & Schervish, M. J. (1988), Probabilidad y estadıstica, Editorial Ad-

dison Wesley, Mexico.

Efendi, A., Drikvandi, R., Verbeke, G. & Molenberghs, G. (2014), ‘A goodness-of-fit

test for the random-effects distribution in mixed models’, Statistical methods in

medical research .

Fabio, L. C., Paula, G. A. & De Castro, M. (2012), ‘A Poisson mixed model with

nonnormal random effect distribution’, Computational Statistics and Data Analysis

56(6), 1499–1510.

52 Bibliografıa

Fitzmaurice, G. M., Laird, N. M. & Ware, J. H. (2011), Applied longitudinal analysis,

segunda edn, John Wiley and Sons, Boston, Massachusetts.

Gad, A. M. & El Kholy, R. B. (2012), ‘Generalized Linear mixed models for Longi-

tudinal Data’, International Journal of Probability and Statistics 1(3), 41–47.

Heagerty, P. J. & Kurland, B. F. (2001), ‘Misspecified maximum likelihood estimates

and generalised linear mixed models’, Biometrika 88(4), 973–985.

Hilbe, J. M. (2011), Negative binomial regression, Cambridge University Press.

Huang, X. (2009), ‘Diagnosis of Random-Effect Model Misspecification in Generalized

Linear Mixed Models for Binary Response’, Biometrics 65(2), 361–368.

Huang, X. (2011), ‘Detecting random-effects model misspecification via coarsened

data’, Computational Statistics and Data Analysis 55(1), 703–714.

Huang, X. (2013), ‘TESTS FOR RANDOM EFFECTS IN LINEAR MIXED MO-

DELS USING MISSING DATA’, Statistica Sinica pp. 1043–1070.

Kojima, M. & Kubokawa, T. (2013), ‘Bartlett-type adjustments for hypothesis testing

in linear models with general error covariance matrices’, Journal of Multivariate

Analysis 122, 162–174.

Komarek, A. & Lesaffre, E. (2008), ‘Generalized linear mixed model with a penalized

Gaussian mixture as a random effects distribution’, Computational Statistics and

Data Analysis 52(7), 3441–3458.

Kondo, Y., Zhao, Y. & Petkau, J. (2015), ‘A flexible mixed-effect negative binomial

regression model for detecting unusual increases in MRI lesion counts in individual

multiple sclerosis patients’, Statistics in medicine 34(13), 2165–2180.

Lagishetty, C. & Duffull, S. (2015), ‘Evaluation of Approaches to Deal with Low-

Frequency Nuisance Covariates in Population Pharmacokinetic Analyses’, The

AAPS journal 17(6), 1388–1394.

Lange, N. & Ryan, L. (1989), ‘Assessing normality in random effects models’, The

Annals of Statistics pp. 624–642.

Laouenan, C., Guedj, J. & Mentre, F. (2013), ‘Clinical trial simulation to evaluate

power to compare the antiviral effectiveness of two hepatitis C protease inhibi-

tors using nonlinear mixed effect models: a viral kinetic approach’, BMC medical

research methodology 13(1), 1.

LeBeau, B. (2013), Misspecification of the covariance matrix in the linear mixed

model: A monte carlo simulation, PhD thesis, UNIVERSITY OF MINNESOTA.

Bibliografıa 53

Lin, K. (2010), ‘Goodness-of-fit tests for modeling longitudinal ordinal data’, Compu-

tational Statistics and Data Analysis 54(7), 1872–1880.

Litiere, S., Alonso, A. & Molenberghs, G. (2007), ‘Type I and Type II Error Under

Random-Effects Misspecification in Generalized Linear Mixed Models’, Biometrics

63(4), 1038–1044.

Litiere, S., Alonso, A. & Molenberghs, G. (2008), ‘The impact of a misspecified

random-effects distribution on the estimation and the performance of inferential

procedures in generalized linear mixed models’, Statistics in medicine 27(16), 3125–

3144.

Manor, O. & Zucker, D. (2004), ‘Small sample inference for the fixed effects in the

mixed linear model’, Computational statistics and data analysis 46(4), 801–817.

McCullagh, P. & Nelder, J. (1989), Generalized linear models, Vol. 37, CRC press.

McCulloch, C. E. & Neuhaus, J. M. (2011), ‘Misspecifying the shape of a ran-

dom effects distribution: why getting it wrong may not matter’, Statistical science

pp. 388–402.

Melo, T., Ferrari, S. & Cribari-Neto, F. (2009), ‘Improved testing inference in mixed

linear models’, Computational Statistics & Data Analysis 53(7), 2573–2582.

Milanzi, E., Alonso, A. & Molenberghs, G. (2012), ‘Ignoring overdispersion in hie-

rarchical loglinear models: Possible problems and solutions’, Statistics in medicine

31(14), 1475–1482.

Molenberghs, G. & Verbeke, G. (2005), Models for Discrete Longitudinal Data. Sprin-

ger Series in Statistics, Springer.

Nelder, J. & Wedderburn, R. (1972), ‘Generalized Linear Models’, Journal of the

Royal Statistical Society. Series A (general) 135(3), 370–384.

Neuhaus, J. M., Hauck, W. W. & Kalbfleisch, J. D. (1992), ‘The effects of mixture

distribution misspecification when fitting mixed-effects logistic models’, Biometrika

79(4), 755–762.

Neuhaus, J. M. & McCulloch, C. E. (2006), ‘Separating between-and within-cluster

covariate effects by using conditional and partitioning methods’, Journal of the

Royal Statistical Society: Series B (Statistical Methodology) 68(5), 859–872.

Neuhaus, J. M. & McCulloch, C. E. (2011a), ‘Estimation of covariate effects in gene-

ralized linear mixed models with informative cluster sizes’, Biometrika 98(1), 147–

162.

54 Bibliografıa

Neuhaus, J. M. & McCulloch, C. E. (2011b), ‘The effect of misspecification of random

effects distributions in clustered data settings with outcome-dependent sampling’,

Canadian Journal of Statistics 39(3), 488–497.

Neuhaus, J. M., McCulloch, C. E. & Boylan, R. (2011), ‘A Note on Type II Error

Under Random Effects Misspecification in Generalized Linear Mixed Models’, Bio-

metrics 67(2), 654–656.

Neuhaus, J. M., McCulloch, C. E. & Boylan, R. (2012), ‘Estimation of covariate ef-

fects in generalized linear mixed models with a misspecified distribution of random

intercepts and slopes’, Statistics in medicine 32(14), 2419–2429.

Noe, D., Bailer, A. & Noble, R. (2010), ‘Comparing methods for analyzing overdis-

persed count data in aquatic toxicology’, Environmental Toxicology and Chemistry

29(1), 212–219.

Oberfeld, D. & Franke, T. (2013), ‘Evaluating the robustness of repeated measures

analyses: The case of small sample sizes and nonnormal data’, Behavior Research

Methods 45(3), 792–812.

Overall, J. & Tonidandel, S. (2004), ‘Robustness of generalized estimating equation

(GEE) tests of significance against misspecification of the error structure model’,

Biometrical Journal 46(2), 203–213.

Panhard, X. & Mentre, F. (2005), ‘Evaluation by simulation of tests based on

non-linear mixed-effects models in pharmacokinetic interaction and bioequivalence

cross-over trials’, Statistics in medicine 24(10), 1509–1524.

Pinheiro, J., Liu, C. & Wu, Y. N. (2001), ‘Efficient algorithms for robust estimation

in linear mixed-effects models using the multivariate t distribution’, Journal of

Computational and Graphical Statistics 10(2), 249–276.

Retout, S., Comets, E., Samson, A. & Mentre, F. (2007), ‘Design in nonlinear mixed

effects models: optimization using the Fedorov–Wynn algorithm and power of the

Wald test for binary covariates’, Statistics in Medicine 26(28), 5162–5179.

Spiessens, B., Lesaffre, E., Verbeke, G. & Kim, K. (2002), ‘Group Sequential Methods

for an Ordinal Logistic Random-Effects Model Under Misspecification’, Biometrics

58(3), 569–575.

Trochez, J. (2016), Efecto de la variacion en el metodo de estimacion del modelo lineal

mixto usando distribuciones sesgadas, Master’s thesis, Universidad Nacional.

Bibliografıa 55

Tsonaka, R., Rizopoulos, D., Verbeke, G. & Lesaffre, E. (2010), ‘Nonignorable

models for intermittently missing categorical longitudinal responses’, Biometrics

66(3), 834–844.

Valencia, A. (2014), ‘El uso de la distribucion gh en riesgo operativo’, Contadurıa y

administracion 59(1), 123–148.

Valencia, M. (2010), Estimacion en modelos lineales mixtos con datos continuos usan-

do transformaciones y distribuciones no normales, Master’s thesis, Universidad

Nacional.

Vaudor, L., Lamouroux, N., Olivier, J. & Forcellini, M. (2015), ‘How sampling in-

fluences the statistical power to detect changes in abundance: an application to

river restoration’, Freshwater Biology 60(6), 1192–1207.

Verbeke, G. & Lesaffre, E. (1997), ‘The effect of misspecifying the random-effects

distribution in linear mixed models for longitudinal data’, Computational Statistics

and Data Analysis 23(4), 541–556.

Verbeke, G. & Molenberghs, G. (2000), Linear mixed models for longitudinal data,

Springer.

Verbeke, G. & Molenberghs, G. (2013), ‘The gradient function as an exploratory

goodness-of-fit assessment of the random-effects distribution in mixed models’,

Biostatistics 14(3), 477.

Vock, D., Davidian, M. & Tsiatis, A. (2014), ‘SNP NLMM: A SAS Macro to Im-

plement a Flexible Random Effects Density for Generalized Linear and Nonlinear

Mixed Models’, Journal of statistical software 56, 2.

Wu, P., Zhu, L. & Fang, Y. (2012), ‘Checking for normality in linear mixed models’,

Science China Mathematics 55(4), 787–804.

Xiang, L., Yau, K. K. & Lee, A. H. (2012), ‘The robust estimation method for a

finite mixture of Poisson mixed-effect models’, Computational Statistics and Data

Analysis 56(6), 1994–2005.

Zhang, B., Liu, W., Zhang, H., Chen, Q. & Zhang, Z. (2016), ‘A note on misspecifi-

cation in joint modeling of correlated data with informative cluster sizes’, Journal

of Statistical Planning and Inference 170, 46–63.

Zhang, D. & Davidian, M. (2001), ‘Linear mixed models with flexible distributions

of random effects for longitudinal data’, Biometrics 57(3), 795–802.

56 Bibliografıa

Zhao, Y., Li, D. K., Petkau, A. J., Riddehough, A. & Traboulsee, A. (2014), ‘Detection

of unusual increases in MRI lesion counts in individual multiple sclerosis patients’,

Journal of the American Statistical Association 109(505), 119–132.

Impacto de especi car incorrectamente la distribuci on de ...

Documents

Transcript of Impacto de especi car incorrectamente la distribuci on de ...