Estad6.pdf

19
Probabilidad y Estadística M.A. Víctor Damián Pinilla Morán. Noviembre 2009 81 Variables aleatorias conjuntas M. en A. Víctor D. Pinilla Morán Facultad de Ingeniería, UNAM Resumen La finalidad de la Inferencia Estadística. El concepto y la definición de muestra aleatoria y estadístico. El concepto, la definición y las diferencias de la distribución poblacional, la muestral y la de frecuencias. El concepto y la definición de un estimador de un parámetro. Diferencia entre parámetros de la población y sus estimadores estadísticos y los valores de estos estadísticos que se obtienen de la muestra. Las medidas de la muestra como puntos del estadístico correspondiente. Estudio y caracterización de las distribuciones muestrales de la media, diferencia de medias, varianza, relación de varianzas, proporción y diferencia de proporciones. Distribuciones t-Student, X 2 (ji-cuadrada), y F-Fisher. 6.1 El concepto y la definición de muestra aleatoria y estadístico. Muestreo aleatorio simple. Los conceptos básicos de Probabilidad y de distribuciones muestrales sirven como introducción al método de Inferencia Estadística; esta se compone en dos áreas: Estimación Pruebas de Hipótesis La estimación se encarga de buscar establecer los valores de los parámetros de la población. Las pruebas de Hipótesis constituyen un proceso relacionado con aceptar o rechazar declaraciones acerca de los parámetros de la población. Supóngase que un fabricante de lápices compra a un proveedor borradores engomados. El fabricante tiene que decidir si el lote de borradores del proveedor es de

Transcript of Estad6.pdf

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    81

    Variables aleatorias conjuntas

    M. en A. Vctor D. Pinilla Morn Facultad de Ingeniera, UNAM

    Resumen

    La finalidad de la Inferencia Estadstica. El concepto y la definicin de muestra aleatoria y estadstico.

    El concepto, la definicin y las diferencias de la distribucin

    poblacional, la muestral y la de frecuencias. El concepto y la definicin de un estimador de un parmetro. Diferencia entre parmetros de la poblacin y sus estimadores estadsticos y los valores de estos estadsticos que se obtienen de la muestra. Las medidas de la muestra como puntos del estadstico correspondiente.

    Estudio y caracterizacin de las distribuciones muestrales de la

    media, diferencia de medias, varianza, relacin de varianzas, proporcin y diferencia de proporciones.

    Distribuciones t-Student, X2 (ji-cuadrada), y F-Fisher.

    6.1 El concepto y la definicin de muestra aleatoria y estadstico. Muestreo aleatorio simple.

    Los conceptos bsicos de Probabilidad y de distribuciones muestrales sirven como introduccin al mtodo de Inferencia Estadstica; esta se compone en dos reas:

    Estimacin Pruebas de Hiptesis

    La estimacin se encarga de buscar establecer los valores de los parmetros de la poblacin. Las pruebas de Hiptesis constituyen un proceso relacionado con aceptar o rechazar declaraciones acerca de los parmetros de la poblacin. Supngase que un fabricante de lpices compra a un proveedor borradores engomados. El fabricante tiene que decidir si el lote de borradores del proveedor es de

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    82

    calidad aceptable, si contiene el 15% o menos borradores defectuosos. Desde luego, no puede inspeccionar cada borrador engomado del lote. Debido a esto, obtiene una muestra de 20 borradores de cada lote y la inspecciona. Decide que si hay 3 o menos borradores defectuosos en la muestra, aceptar un lote; si hay ms de 3 defectuoso rechazar el lote y lo de volver al proveedor. Sin embargo, si acepta un lote cuando ste contiene ms del 15% de borradores defectuosos, ha cometido un error. Por otra parte si rechaza un lote cundo contiene menos del 15% de borradores defectuosos, tambin ha cometido un error. Con base en la evidencia proporcionada por la muestra, el fabricante ha tratado de responder a la pregunta tiene el lote una proporcin de lpices defectuoso tan grande que sea necesario rechazarlo? Al responder a esto, el fabricante de lpices ha tomado una decisin acerca de la proporcin de defectos en la poblacin general, ya que la proporcin en la poblacin es un parmetro de la poblacin y las decisiones acerca de los parmetros de la poblacin constituyen el proceso de pruebas de hiptesis, en realidad el fabricante ha realizado la tarea de probar hiptesis. Si el fabricante est interesado en estimar la verdadera proporcin de defectos con base a su informacin muestral, tendr que intentar responder a la pregunta Qu afirmacin puedo hacer acerca de la proporcin de la poblacin que es defectuosa? Esta pregunta corresponde a Estimacin.

    Finalidad. La Teora de la Inferencia Estadstica, se compone de aquellos mtodos con los cuales se pueden realizar generalizaciones de una poblacin a partir de los atributos de una muestra.

    Concepto y definicin de muestra aleatoria y estadstico. La esencia de la inferencia estadstica es conocer la naturaleza de las poblaciones. Una poblacin representa el estado de la naturaleza o la forma de las cosas con respecto a un fenmeno aleatorio en particular, mismo que puede identificarse a travs de una caracterstica medible X. La manera en que ocurren las cosas en relacin con X pueden definirse por un modelo de probabilidad que recibe el nombre de distribucin de probabilidad de la poblacin. Por otro lado, la muestra es una coleccin de datos que se obtienen al llevar a cabo repetidos ensayos de un experimento para lograr una evidencia representativa acerca de la poblacin en relacin con la caracterstica X. Si la manera de obtener la muestra es imparcial y tcnicamente buena, entonces la muestra puede contener informacin til con respecto al estado de la naturaleza y a partir de ello se podrn formular inferencias. Ahora bien, estas ltimas son inductivas y, por lo tanto, estn sujetas a riesgo, dado que representan un razonamientos que va de lo particular a lo general. Como la inferencia estadstica se formula con base en una muestra de objetos de la poblacin de inters, el proceso por medio del cual se obtiene ser aquel que asegure la seleccin de una buena muestra. El proceso que se privilegia es el muestreo aleatorio simple, En este contexto, la palabra aleatorio sugiere una total imparcialidad en la seleccin de la muestra. En el caso de experimentos que involucran fenmenos aleatorios en la Ingeniera y las ciencias fsicas, la poblacin se considera constituida por un nmero infinito de posibles resultados para alguna caracterstica medible de inters.

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    83

    El procedimiento para muestrear este tipo de poblacin es disear un experimento y se llevarlo a cabo para proporcionar la observacin X1 de la caracterstica medible X. El experimento se repite bajo las mismas condiciones proporcionando el valor X2. El proceso se continuar hasta tener n observaciones de la caracterstica X. En esencia, las observaciones bajo las mismas condiciones como resultado de repetidos ensayos independientes de un experimento constituye un muestreo aleatorio simple con reemplazo. De acuerdo con lo anterior, cada una de las observaciones X1, X2, X3, . . ., Xn es una variable aleatoria cuya distribucin de probabilidad es idntica a la de la poblacin. De tal forma, si las variables aleatorias X1, X2, X3, . . ., Xn tienen la misma distribucin de probabilidad que la distribucin de la poblacin y su funcin conjunta de probabilidad es igual al producto de las marginales, entonces X1, X2, X3, . . ., Xn forman un conjunto de n variables aleatorias independientes e idnticamente distribuidas que constituyen una muestra aleatoria de la poblacin. Para colocar a las estadsticas en una mejor perspectivas se debe definir y analizar un parmetro de la poblacin. Un parmetro es una caracterizacin numrica de la distribucin de la poblacin de manera que describe, parcial o completamente, la funcin de densidad de probabilidad de la caracterstica de inters. Desde un punto de vista clsico (no bayesiano), un parmetro se considera como una constante fija cuyo valor se desconoce. Desde una perspectiva bayesiana un parmetro siempre es una variable aleatoria con algn tipo de distribucin de probabilidad. Un estadstico1 es cualquier funcin de las variables aleatorias que se observaron en la muestra de manera que esta funcin no contiene cantidades desconocidas. 1 Tambin son llamados estadsticas

    De manera general, dentese a un estadstico como )(XT = . Dado que T es una funcin de variables aleatorias, es en s misma una variable aleatoria. Si se utiliza un estadstico T para estimar un parmetro desconocido , entonces T recibe el nombre de estimador de . Esto es, un estimador es un estadstico que identifica el mecanismo funcional por medio del cual, una vez que las observaciones en la muestra se realizan, se obtiene una estimacin. Un estadstico es, sustancialmente, diferente de un parmetro. Un parmetro es una constante y un estadstico es una variable aleatoria Los parmetros o sus funciones se estiman se estiman con base en estadsticos que, a su vez se obtienen a partir de la informacin contenida en una muestra aleatoria. Concepto, definicin y diferencias de la distribucin poblacional, muestral y de frecuencias. Como se ha comentado ya, la forma en que la estadstica descriptiva organiza los datos obtenidos a partir de un proceso de muestreo se denomina distribucin de frecuencias; su uso fundamental es construir las grficas descriptivas histograma, polgono y ojiva de frecuencias. Asimismo, la distribucin poblacional es aquella que describe el comportamiento de un atributo de una poblacin. Se ha dicho que los atributos (parmetros) son constantes, aunque no siempre conocidos. La distribucin muestral de un estadstico T es la distribucin de probabilidad de T que puede obtenerse como resultado de un nmero infinito de muestras aleatorias independientes, cada una de tamao n, provenientes de la poblacin de inters. Dado que se supone que las muestras son aleatorias, la distribucin de un estadstico es un tipo de modelo de probabilidad conjunta para variables aleatorias independientes, en donde cada variable posee una funcin de densidad de

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    84

    probabilidad igual a las dems. De manera general, la distribucin de muestreo de un estadstico no tiene a misma forma que la funcin de densidad de probabilidad en la distribucin de la poblacin.

    El concepto y la definicin de un estimador de un parmetro. Diferencia entre parmetros de la poblacin y sus estimadores estadsticos y los valores de estos estadsticos que se obtienen de la muestra. Un estimador es una regla o frmula que nos dice cmo calcular una estimacin numrica con base en las determinaciones contenidas en una muestra, es decir, es la regla de correspondencia a partir de la cual con un estimador podemos inferir el valor de un parmetro. Como se ha mencionado, los estadsticos provienen de muestras obtenidas aleatoriamente, por lo cual un estadstico es una variable aleatoria, mientras que los parmetros son caractersticas de una poblacin, que si bien pueden ser desconocidas, se consideran constantes.

    Las medidas de la muestra como puntos del estadstico correspondiente. Ejemplo. Una poblacin perteneciente al lanzamiento de un dado se compone de todos sus posibles resultados, es decir, de los nmeros 1,2,3,4,5 y 6 (son el nmero que queda en la cara superior al lanzarlo). Consideraciones:

    El dado no est cargado, lo que implica la independencia de los resultados si el dado es lanzado en varias ocasiones. El dado se puede lanzar el nmero de veces deseado. Esto implica que el experimento se puede realizar un nmero infinito de veces.

    Estos elementos nos permiten afirmar que corresponden a un muestreo aleatorio simple con reemplazo.

    La media de la poblacin es:

    ( ) ( )=

    =+++++==n

    iXPX

    15.3654321

    61

    La varianza: ( ) ( )=

    =n

    iXPX

    1

    22

    La desviacin estndar: 708.1= Ahora bien, se define el experimento lanzar el dado en dos ocasiones y obtener el promedio de los dos resultados de las caras que quedan hacia arriba. De esta forma el experimento consiste en tomar muestras independientes de tamao dos y repetirlo 36 veces. El espacio muestral del experimento es:

    1,1 2,1 3,1 4,1 5,1 6,1 1,2 2,2 3,2 4,2 5,2 6,2 1,3 2,3 3,3 4,3 5,3 6,3 1,4 2,4 3,4 4,4 5,4 6,4 1,5 2,5 3,5 4,5 5,5 6,5 1,6 2,6 3,6 4,6 5,6 6,6

    La distribucin de las medias de los resultados es:

    1 1.5 2 2.5 3 3.5 1.5 2 2.5 3 3.5 4 2 2.5 3 3.5 4 4.5 2.5 3 3.5 4 4.5 5 3 3.5 4 4.5 5 5.5 3.5 4 4.5 5 5.5 6

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    85

    La media de la distribucin de resultados es:

    [ ] 5.365.5...5.225.11361 =++++++=X

    La varianza y desviacin estndar son:

    208.1= Contrastando ambos grupos de resultados:

    Poblacin Muestra Media 3.5 3.5 Varianza 2.9173 1.458 Desviacin Estndar 1.708 1.208

    Qu es lo que debi esperarse de esta comparacin? 6.2 Teorema del lmite central. Este fenmeno es descrito por el Teorema de Lmite Central, el cual establece: Cuando una muestra de tamao n se toma de una poblacin con media y varianza finita 2 , se tienen n variables aleatorias independientes X1, X2, X3, . . . , Xn que poseen la misma distribucin, al incrementarse n, la distribucin de las medias muestrales se aproxima a la normal

    con media y varianza n

    X2

    La nica limitacin en la distribucin subyacente consiste en que la varianza es finita, y esto ocurre en casi todos los problemas de ciencias e Ingeniera.

    A partir del Teorema del Lmite Central:

    XX = nX

    X

    22 =

    Comprobando con nuestro ejemplo:

    5.3=X 5.3=X

    458.12 =X 458.1

    29173.22 ==

    nX

    Como se ver posteriormente, la importancia de la Distribucin Normal no estriba en el hecho de que realmente se obtengan numerosas variables distribuidas de una forma aproximadamente normal, sino tambin la gran cantidad de mtodos y tablas estadsticas que es posible deducir para la distribucin normal, y que se pueden aplicar, incluso en el caso de distribuciones que se apartan de la normal. En particular, mltiples tcnicas estadsticas para el muestreo emplean la distribucin normal. Estudio y caracterizacin de las distribuciones muestrales. Las muestras aleatorias obtenidas de una poblacin son, por naturaleza propia, impredecibles. No esperaramos que dos muestras aleatorias del mismo tamao y tomadas de la misma poblacin tengan la misma media muestral o que sean completamente parecidas; puede esperarse que cualquier estadstico, como la media muestral, calculado a partir de las medidas en una muestra aleatoria, cambie su valor de una muestra a otra; por ello, queremos estudiar la distribucin de todos los valores posibles de un estadstico. Tales distribuciones sern muy importantes en el estudio de la estadstica inferencial, porque las inferencias sobre poblaciones se harn usando estadsticas muestrales. Con el anlisis de las distribuciones asociadas con los estadsticos muestrales, podemos juzgar la confiabilidad de un estadstico muestral como un instrumento

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    86

    para hacer inferencias sobre un parmetro poblacional desconocido. Como los valores de un estadstico varan de una muestra aleatoria a otra, se le puede considerar como una variable aleatoria con su correspondiente distribucin de frecuencias. La distribucin de frecuencia de un estadstico muestral se denomina distribucin muestral. En general, la distribucin muestral de un estadstico es la de todos sus valores posibles calculados a partir de muestras del mismo tamao.

    En la pgina siguiente se muestra un diagrama a bloques que denota los efectos del reemplazo en el muestreo aleatorio simple. En resumen, la Distribucin muestral de un estadstico T es la distribucin de probabilidad de T que puede obtenerse como resultado de un nmero infinito de muestras aleatorias independientes, cada una de tamao n, provenientes de la poblacin de inters.

    Dado lo anterior, existen distribuciones de muestreo para la media ( X ), diferencia de medias ( 21 XX ), varianza ( 2S ), relacin de varianzas ( 2

    2

    21

    SS

    ), proporciones y

    diferencia de proporciones, entre otros. 6.3 Distribucin de la media muestral. Distribucin muestral para X (media de la muestra). La media muestral se utiliza para estimar a la media de la poblacin.

    ( ) =

    =++++=n

    iin Xn

    XXXXn

    X1

    3211...1

    y como se ha dicho, es una variable aleatoria. Partiendo del hecho de que se desconoce la distribucin de la poblacin, y por ende la distribucin de iX , lo que implica que es imposible obtener una distribucin muestral de X . Ms adelante se explicar que una de las cualidades ms importantes de un estimador es que se cumpla la siguiente propiedad: { } =E donde : es un estimador y es un parmetro.

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    87

    Conceptualmente, pensemos que el valor esperado de la media de la muestra ser la media de la poblacin. Debe recordarse que el valor esperado de una variable aleatoria iX es la media . { } =iXE --- (1)

    Si =

    =n

    iiXn

    X1

    1entonces

    { } ( ) +++=

    =

    =n

    n

    ii XXXn

    EXn

    EXE ...11 211

    { } { } { } { }[ ]nXEXEXEnXE +++= ...1 21

    sustituyendo en esta ltima expresin la definicin (1)

    { } [ ] [ ] nnn

    XE 1...1 =+++= { } =XE

    De la misma forma, utilizando el operador varianza:

    { } ( )

    +++=

    =

    =n

    n

    ii XXXn

    VarXn

    VarXVar ...11 211

    Experimento que arrojaresultados independientes(generalmente intangibles)

    Cada una de lasobservaciones representauna variable aleatoria cuyadistribucin de probabilidad

    es idntica a la de lapoblacin

    Los objetos medibles sonfinitos

    Se extrae un objetgo, seobserva y se regresa a la

    poblacin

    Se obtienenconsecutivamente sin

    reemplazo

    M. A. S.con reemplazo

    M. A. S.sin reemplazo

    M. A. S.con reemplazo

    Variable AleatoriaIndependiente e

    Indnticamente Distribuida

    IID

    Este es un casoparticular del caso 1,ya que si lapoblacin esrelativamentepequea, durante elmuestreo es muyprobable que elmismo objeto seaseleccionado ms deuna vez.

    Caso 1

    Caso 2

    Caso 3

    Cada una de lasobservaciones son variables

    aleatorias cuyasdistribuciones marginales

    son iguales a las de lapoblacin

    Caso comn en losexperimentos deIngeniera o CienciasDuras

    Connotaciones derivadas por el tipo de reemplazo en el Muestreo Aleatorio Simple

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    88

    { } { } { } { }[ ]nXVarXVarXVarnXVar +++= ...1 212

    { } [ ] [ ] nnn

    XVar 221...1 =+++=

    { }n

    XVar =

    Estas ltimas expresiones son el resultado de aplicar los operadores valor esperado y varianza para variables aleatorias independientes. Tal y como lo manifest el Teorema del Lmite Central, estas expresiones son vlidas para variables aleatorias independientes, es decir, para aquellas que provienen de muestreos aleatorios con reemplazo, o bien, para poblaciones infinitas (muy grandes). Resumiendo: A X (desviacin estndar) se le suele denominar como error estndar. La desviacin estndar de la distribucin muestral de la media X se ve afectada por el tipo de muestreo. Si la muestra se toma de una poblacin pequea y con reemplazo, cada medida en la muestra es independiente de cualquier otro valor, y el muestreo puede hacerse indefinidamente como si se tratara de una poblacin grande; en poblaciones grandes, donde el muestreo se hace sin reemplazo, la dependencia estadstica de un valor a otro es tan insignificante que usualmente se ignora, pero si el muestreo se hace en una poblacin pequea y sin reemplazo, los valores muestrales no son estadsticamente independientes y este hecho debe tomarse en cuenta cuando se calcula X .

    Desde un punto de vista prctico, lo que importa en realidad, cuando el muestreo se hace sin reemplazo y se calcula X es el tamao de la muestra con respecto al de la poblacin; entre los investigadores hay un acuerdo generalizado de que cuando el tamao de la muestra no es mayor del 5% del de la poblacin, la poblacin puede considerarse grande respecto al tamao de la muestra, y la independencia estadstica de los valores muestrales se supone generalmente como una aproximacin a la realidad; sin embargo, cuando se toman muestras sin reemplazo de poblaciones pequeas, la dependencia estadstica entre los valores debe tomarse en consideracin. Supongamos que la desviacin estndar de una poblacin grande de la que se toman muestras es 12= , y que se han elegido muestras de tamao 4=n . El error estndar es:

    64

    12 ===nX

    X

    Si ahora se aumenta el tamao de la muestra a 16=n , ahora:

    316

    12 ===nX

    X

    Se observa que si el tamao de la muestra crece, el error estndar decrece, lo que implica que las medias muestrales se acumulan ms cercanamente a su media . Si el tamao de la muestra es grande, la media ser ms parecida a la media poblacional como cualquier otra media en la misma distribucin muestral de la media, ya que las medias se acumulan cercanamente alrededor de . Por otra parte, cuando la poblacin es finita y el muestreo se hace sin reemplazo, el error estndar se altera; esto debido a la alteracin de la probabilidad al seleccionar una muestra.

    nX

    X

    xX2

    2

    ==

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    89

    Para reducir esta alteracin se debe multiplicar al error estndar por un factor de correccin, usualmente denominado Factor de Correccin para Poblacin Finita.

    1=

    NnNFCPF

    Por lo anterior, el error estndar para poblaciones finitas con muestreo sin reemplazo es:

    1=

    NnN

    nX

    X

    donde N es el tamao de la poblacin y n es el tamao de la muestra. El error estndar corregido es equivalente al error estndar para el muestreo con reemplazo cuando N es infinitamente

    grande, ya que el valor de 1

    N

    nNtiende a

    uno si N . Ejemplo. Se dispone de tres trabajadores con las siguientes antigedades:

    Trabajador Antigedad Hugo 6 Paco 4 Luis 2

    Suponga que se toman muestras aleatorias de tamao 2 sin reemplazo y se calcula la antigedad media para cada una de ellas; la coleccin de las medias muestrales constituir la distribucin muestral de la media. La media poblacional es:

    43

    642 =++=

    La desviacin estndar poblacional es:

    ( ) ( ) ( ) 63.13

    424446 222 =++=X

    Todas las posibles muestras son:

    Muestras Antigedad Media Muestral X

    Hugo, Luis (6,2) 4 Luis, Hugo (2,6) 4 Luis, Paco (2,4) 3 Paco, Luis (4,2) 3 Hugo, Paco (6,4) 5 Paco, Hugo (4,6) 5 La media muestral es:

    46

    553344 =+++++=X

    El error estndar es:

    ( ) ( ) ( ) ( ) ( ) ( ) 82.06

    454543434444 222222 =+++++=X Comprobando la relacin entre la desviacin estndar poblacional y el error estndar:

    82.01323

    263.1

    1=

    ==

    NnN

    nX

    X

    Si bien es imposible determinar la distribucin muestral de X cuando se desconoce la distribucin de la poblacin, posible calcular la distribucin lmite cuando n de una variable aleatoria cuyos valores estn estrechamente relacionados con X . Por otra parte, se puede demostrar que para un valor grande de n la distribucin de X es aproximadamente normal. De hecho, no importa si no se conoce la distribucin de la poblacin mientras la media y la varianza existan, la distribucin de muestreo de X se encontrar aproximada por la distribucin normal con media y

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    90

    desviacin estndar n

    para valores

    grandes de n, es decir, tal y como lo indica el Teorema del Lmite Central, de acuerdo a la siguiente definicin: Sean X1, X2, ... , Xn n variables aleatorias IID con una distribucin de probabilidad no especificada y que tiene una media y varianza 2 finita. El promedio muestral

    ( )nXXXnX +++= ...1

    21 tiene una

    distribucin con media y varianza n

    2

    que tiende hacia la distribucin normal conforme n tiende a infinito:

    Zn

    XLimn =

    Debe hacerse notar que si la distribucin de probabilidad de la poblacin es semejante a la distribucin normal (relativamente simtrica y una concentracin relativa alrededor del eje de simetra), la aproximacin a la normal ser aceptable. En caso contrario, slo se tendr una aproximacin aceptable para muestras grandes, que en casos prcticos ocurre cuando 30>n . En conclusin, la variable aleatoria

    n

    XZ = se utiliza para formular

    inferencias de cuando se conoce el valor de la varianza poblacional 2 . La variable Z obedece a la distribucin normal estndar cuando el muestreo se lleva a cabo sobre una poblacin que tiene distribucin normal, o bien, cuando se desconoce su distribucin, se considera normal si n es grande. Existen varios usos de esta variable aleatoria Z conforme al Teorema del Lmite Central.

    Efecto aditivo del TLC. Sea la variable

    aleatoria =

    =+++=n

    iin XXXXY

    121 ...

    que representa la sumatoria de los efectos de cada una de las variables aleatorias. Si

    =

    =n

    iiXn

    X1

    1. Enfrentando ambas

    expresiones nYX = . Esta ltima expresin

    se sustituye en la definicin de la variable aleatoria Z:

    ( )

    nnY

    nYn

    n

    nY

    n

    XZ ==

    ==

    Ejemplo. Una empresa de ferrocarriles ha determinado que con un nuevo equipo se requiere, en promedio, 6 horas para renovar un km de va, con una desviacin estndar de 3h. Cul es la probabilidad de que tarden ms de 550 h para reemplazar 85 km de va ? Se puede observar que cada uno de los 85 Km que se pretenden renovar es una variable aleatoria, con media h6= y

    h3= , por lo cual, la suma de todas ellas, hY 550= , nos conforma el total del

    experimento, cuyo plazo total se desconoce.

    hXXXY kmkmkm 550... 8521 =+++=

    6 + 3 hrs. 6 + 3 hrs. 6 + 3 h

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    91

    68 70 72 -2.11 Muestra Normalizada 2.11

    La pregunta de investigacin es: ( ) ?550 =>YP ( ) 4462.1

    853685550 ===

    nnY

    Zx

    xnn

    De tablas: ( ) ( ) %35.745.1550 =>=> ZPYP Efecto promedio del TLC. La expresin bsica que define a la variable aleatoria

    n

    XZ = donde

    ==

    n

    iiXn

    X1

    1.

    Ejemplo. Una empresa fabricante de pintura conoce que un bote cubre en promedio 70 m2 con una desviacin estndar de 6 m. Cul es la probabilidad de que el rea media cubierta por un bote de pintura de una muestra de tamao 40 est entre 68 y 72 m2 ? Datos:

    40670

    ===

    nmm

    Se percibe que la solucin al problema implica el rea promedio que puede cubir un bote de pintura perteneciente a la muestra obtenida al azar, lo que la define como una variable aleatoria. Por otra parte, al proporcionarse dos valores extremos se infiere que la solucin ser un intervalo. La pregunta es: ( ) ?7268 =

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    92

    6.4 Distribucin 2X (ji cuadrada o chi cuadrada). Esta distribucin es un caso particular de otras distribucin denominada gamma, que no es motivo de esta curso, pero bien conviene darla a conocer:

    ( ) ( ) >=

    casosotros

    xexxf

    x

    0

    01,,1

    donde ( ) =0

    1 dxex x

    para 2 = y 2=

    La distribucin 2X es un caso particular de

    la distribucin gamma con 2 = y 2= .

    La distribucin 2X se define de la siguiente forma: Sean Z1, Z2, ... , Zn variables aleatorias IID con distribucin normal estndar. Entonces

    223

    22

    21

    2 ... nZZZZX ++++= es una variable aleatoria que tiene la funcin de densidad:

    ( )

    >

    =

    casosotros

    xexxf

    x

    x

    0

    0

    22

    1 21222

    la cual recibe el nombre de distribucin 2X con grados de libertad. Esta distribucin se denota por ( )2X . La media para la distribucin 2X es : = y su varianza : 2 = 2. La distribucin 2X tiene como nico parmetro a los grados de libertad , slo posee valores positivos. Cuando los grados de libertad son bajos, la distribucin

    presenta un sesgo muy alto. A medida que aumentan los grados de libertad, el peso de la distribucin se desplaza a la derecha y se vuelve menos sesgada. Distribucin de muestreo de 2S . Un estadstico muy importante que permita hacer inferencias sobre la varianza de la poblacin 2 es la varianza de la muestra

    2S . A diferencia de la deduccin de la distribucin de la media muestral, la cual utilizando las ventajas del TLC no requiere conocer la distribucin de la poblacin. En la deduccin del muestreo de 2S se requiere de la suposicin de una poblacin normalmente distribuida. Se define a la varianza de la muestra como:

    ( )n

    XS X

    i

    =

    2

    2

    donde X1, X2, ... , Xn son una muestra aleatoria con distribucin normal con media y varianza 2 .

    = =

    =

    =n

    i

    n

    ii

    i ZXS1 1

    22

    En la figura se muestran diversas formas de la distribucin 2X para distintos grados de libertad. L a distribucin no es negativa y es asimtrica a la derecha. A medida que aumenta la distribucin se vuelve mas simtrica. Cuando k , la forma limite de la distribucin 2X es la distribucin normal.

    PAGINA 267 HIMES

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    93

    La distribucin 2X tiene media E { 2X } = y varianza Var { 2X } = 2. La distribucin 2X presenta caractersticas de aditividad de acuerdo con lo siguiente: Sean 222

    21 ,...,, nXXX variables aleatorias

    independientes con distribucin 2X y 1 , 2 ,,n grados de libertad respectivamente. La variable Y = 2X 1 + 2X 2 +,..

    + 2X n ==

    n

    iiX

    1

    2 tienen distribucin 2X

    con =

    =n

    ii

    1

    grados de libertad. Con base en la definicin anterior, se define el siguiente estadstico: Sean nXXX ,....,, 21 una muestra aleatoria con distribucin normal con media y varianza 2 conocidas. Sea la variable aleatoria Y, definida por:

    21

    2)(

    =

    =n

    IiX

    Y

    Cada una de las muestras IX tiene distribucin normal con media y varianza, por lo que es posible estandarizarlas:

    = iI XZ

    El estadstico Z tiene distribucin normal estndar con = 0 y 2 =1 Se obtiene que

    =

    =+++=n

    i

    in

    XZZZY

    12

    222

    12

    1)(

    .....

    Tiene distribucin 2X con grados de libertad.

    2S es un estadstico importante, utilizado para hacer inferencias con respecto a la varianza de la poblacin. La varianza muestral tiene la misma importancia para formular inferencias sobre la varianza poblacional 2 como la que representa la media muestral x para la media poblacional x . La varianza muestral se define como:

    ( )=

    =n

    iXXi

    nS

    1

    22 1

    ( )=

    =n

    iXXi

    nS

    1

    22

    11

    donde iX es una variable aleatoria con distribucin normal con media y varianza 2 desconocidas. Asimismo, X tiene distribucin normal con media y varianza

    n

    .

    La diferencia entre las dos versiones de 2S se denotar captulos ms adelante, as como la preferencia en su uso. Para obtener la distribucin del estadstico

    2S se procede en la siguiente forma:

    ( )1

    1

    2

    2

    ==

    n

    XXiS

    n

    i manipulando:

    tomando exclusivamente el trmino

    ( )=

    n

    iXXi

    1

    2 e igualmente

    manipulndolo:

    ( ) ( )2

    1

    2

    2

    21

    =

    =

    n

    iXXi

    Sn

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    94

    ( ) ( ) ( )[ ] = =

    =n

    i

    n

    iXXiXXi

    1

    2

    1

    2

    ( ) ( )( ) ( )[ ]=

    +=n

    iXXXiXi

    1

    22 2

    ( ) ( ) ( ) ( ) = =

    +=n

    i

    n

    iXnXiXXi

    1 1

    32 2

    Del segundo sumando se extrae el trmino

    =

    n

    iXi

    1)(

    = =

    =n

    i

    n

    inXiXi

    1 1)(

    pero: =

    =n

    iXi

    nX

    1

    1 lo que implica

    =

    =n

    iXnXi

    1

    =

    =n

    iXnXi

    1)()(

    sustituyendo de nuevo:

    =

    =n

    iXnXi

    1

    22 )()( sustituyendo de nuevo en la definicin original

    2

    2

    21

    2

    2

    2 )()(

    )1(

    == Xn

    XiSn

    n

    i

    despejando:

    2

    2

    2

    2

    21

    2

    )()1()(

    +=

    = XnSn

    Xin

    i

    1 2 3 Analizando;

    1 21

    2)(

    =

    n

    iXi

    corresponde a =

    n

    iiZ

    1

    2 ,

    de la cual se conoce que tiene distribucin 2X con = n grados de libertad.

    3

    n

    XXn2

    2

    2

    2 )()(

    = tambin tiene

    distribucin 2X pero al tratarse slo de 2X , es decir, una sola variable aleatoria, tiene un solo grado de libertad. Para que se cumpla la igualdad, se concluye que:

    2 22)1(

    Sn

    tiene distribucin 2X con

    V= n-1 grados de libertad. El estadstico utilizado para estudiar a la

    varianza poblacional es 22

    2 )1(

    SnX = que tienen distribucin 2X con = n-1 grados de libertad, donde:

    =

    =n

    iXXi

    nS

    1

    22 )(1

    1

    = =

    +=n

    i

    n

    iXnXnXiXXi

    1 1

    2222 )()(2)()(

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    95

    Xi tienen distribucin normal con media y varianza 2 y X tiene tambin distribucin normal pero con media y varianza

    n

    2

    Finalmente, definiendo

    1)1( 22

    2 ==

    nySnY , entonces:

    { } { } 22222 )1(111

    ===

    = nnyEnnyESE

    Ejemplo AL disear mecanismos para lanzar cohetes hacia el espacio, es muy importante estudiar la varianza de las distancias al centro del blanco a las que cae el proyectil. Esa varianza debe ser tan pequea como sea posible, para determinado mecanismo de lanzamiento se sabe que esas distancias tienen una distribucin normal cuya varianza es

    22 100m= . Se lleva a cabo un experimento en el que hay 25 lanzamientos. Sea S2 la varianza de las distancias entre el impacto del proyectil y el centro del blanco.

    (a) Estimar P(S2 >50); (b) Hallar P(S2 >50); (c) Calcular [ ]2SE y [ ]2SV =100 m2

    Datos:

    Las distancias tienen distribucin normal

    22 100m= n = 25

    (a) P(S2 >50) Utilizando el estimador:

    2

    22 )1(

    SnX = = ( )( ) 12

    1005024 =

    P(S2 >50) = P( X2 >12) de tablas: P( X2 >12)= 0.975 P(S2 >50)= 0.975 (b) P(S2 >150) ( )( ) 36100150242 ==X P(S2 >150)= P(X2 >36) = 0.05 (c) [ ]2SE y [ ]2SV =100 m2

    { } 33.83324

    )100(21

    2 242 === nSVar

    6.5 Distribucin t Student Se recordar que cuando se muestra una poblacin con distribucin normal con desviacin estndar conocida , la distribucin del estadstico

    n

    XZ = es

    la normal estndar. Desde un punto de vista prctico, la necesidad de conocer implica formular inferencias con respecto a debido a que generalmente se conoce el valor de la desviacin estndar de la poblacin. Resulta lgico entonces reemplazar con una estimacin S; en consecuencia, la

    distribucin de

    nSX

    cuando se muestrea

    una poblacin normal con media y varianza 2 desconocidas. Se observan dos variables aleatorias X2 y Z;

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    96

    2X tiene distribucin chi-cuadrada con grados de libertad

    Z tiene distribucin normal estndar Se define a la variable aleatoria como:

    2X

    Z=

    La variable aleatoria tiene distribucin t-Student con V grados de libertad y funcin de densidad de probabilidad dada por:

    21

    2

    121

    )(

    +

    +

    +=

    v

    vt

    v

    tft

    al valor

    vxZt

    2= recibe el nombre de

    variable aleatoria t-student. La forma de la distribucin t-Student es simtrica y uninodal e idntica en forma a la curva normal, a diferencia de que esta siempre est centrada en cero. Se puede demostrar que la distribucin t-Student tiende a ser la normal cuando . Regresando a la variable aleatoria ; de acuerdo a su definicin:

    nS

    xS

    n

    xSn

    x

    n

    Snn

    x

    xZ

    ==

    =

    ==2

    2

    2

    22

    1

    )1(

    que tiene distribucin t-Student con = n-1 grados de libertad.

    La distribucin t tiene un valor esperado

    { } 0=E y varianza { }2=

    Var para v>2. En resumen, la principal aplicacin de la distribucin t-student radica en la obtencin del estadstico:

    nS

    xt = donde ,

    =

    =n

    iXXi

    nS

    1

    22 )(1

    1.

    Que se utiliza para hacer inferencias con respecto a la media cuando el muestreo se lleva a cabo sobre una poblacin normal con media y varianza desconocidas. Ejemplo. La resistencia a la tensin de cierto tipo de alambre se distribuye normalmente con y 2 Desconocidas. Se seleccionan al azar seis segmentos de alambre de un rollo grande y se midi su resistencia a la tensin. Encuentre la probabilidad de que el promedio de la resistencia est a lo ms

    nS2

    de la verdadera media poblacional.

    La probabilidad pedida es :

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    97

    ( ) 9.022 =

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    98

    Anlogamente

    donde

    ( ) ( )

    ( )211 222

    ++=

    yx

    yyxxp nn

    SnSnS

    Caso c) Relativo a lo obtenido para el caso anterior: ( ) ( )

    y

    y

    x

    x

    yx

    nn

    YXZ

    22

    +

    =

    tienen distribucin normal estndar con

    0= y 12 = Caso d) La solucin de este caso es denominado como problema de Fisher Behrens y se encuentra fuera de los alcances de este curso.

    Ejemplo. Se llevan a cabo dos experimentos independientes en los que se comparan dos tipos diferentes de pintura. Se pintan 18 especmenes con el tipo A y en cada uno se registra el tiempo de secado en horas. L o mismo se hace con el tipo B, se sabe que las desviaciones estndar de la poblacin son ambas 1.0. Suponga que el tiempo medio de secado es igual para los dos tipos de pintura, encuentre ( ),0.1> BA XXP donde AX y BX son los tiempos promedio de secado. Datos.

    Dos experimentos independientes 18== BA nn 0.1== BA tiempo medio de secado es igual para

    los dos tipos de pintura 0== BA El problema puede resolverse conforme al caso a) c) indistintamente. ( ) ( )

    y

    y

    x

    x

    yx

    nn

    YXZ

    22

    +

    = ;

    3

    181

    181

    01 =+

    0013.0)0.3()0.1( =>=> BABA ZPXXP Ejemplo. Los cinescopios de televisin del fabricante A tienen una duracin media de 6.5 aos y un desviacin estndar de 0.9 aos, mientras que los del fabricante B tienen una duracin media de 6.0 aos y una desviacin estndar de 0.8 aos. Cul es la probabilidad de que una muestra aleatoria de 36 cinescopios del fabricante A tenga una duracin media que sea al menos de un ao ms que la duracin media de una muestra de 49 cinescopios del fabricante B?

  • Probabilidad y Estadstica

    M.A. Vctor Damin Pinilla Morn.

    Noviembre 2009

    99

    Datos Fabricante A Fabricante B

    369.05.6

    ===

    A

    A

    A

    n

    498.00.6

    ===

    B

    B

    B

    n

    La respuesta es: ( )0.1 BA XXP ( )

    ( ) ( ) 6514.2498.0

    369.0

    0.65.6122=

    +=BAZ

    ( )0.1 BA XXP = 0040.0)6514.2( =BAZP

    Bibliografa

    Canavos, Probabilidad y Estadstica, Edit. Mc Graw Hill, Mxico 1988.

    Borras, et. al. Apuntes de Probabilidad y Estadstica, Facultad de Ingeniera UNAM, Mxico 1985.

    Villarreal , Probabilidad y Modelos Probabilsticos, UAEM, Mxico 1989.

    Hines, Montgomery; Probabilidad y Estadstica, Edit. CECSA, 3 edicin, Mxico 1993.

    Captura y Edicin: M.A. Mara Torres Hernndez.