ticsdistributivos

download ticsdistributivos

of 14

Transcript of ticsdistributivos

  • R studio

    ESCUELA SUPERIOR POLITCNICA DE CHIMBORAZO

    FACULTAD DE INFORMTICA Y ELECTRNICA

    ESCUELA DE INGENIARAN SISTEMAS

    Tecnologas de la informacin aplicadas a la educacin superior

    Tema: distributivos estadsticos en Rstudio

    Por: Dennys Moyn

    Cdigo: 4867

    Riobamba-Ecuador

  • R studio

    OBJETIVO

    Realizar un cuadro comparativo de los diferentes distributivos estadsticos aplicados en ID de desarrollo Rstudio con

    sus respectivos comandos.

  • R studio TABLA DE LOS DISTINTOS DISTRIBUTIVOS APLICADOS EN R PROJECT

    La presente tabla muestra una serie de distributivos estadsticos aplicados en R Project con un ejemplo planteado y

    su respectivo cdigo en R Project.

    Distributivo estadstico EJEMPLO CDIGO EN R

    ANOVA

    Los datos provienen de un experimento en el que se medir el nivel de alerta de sujetos de ambos sexos despus de que se les haba dado una de las dos posibles dosis de una droga. Por lo tanto, este es un diseo 2X2 con los factores siendo Gnero y dosificacin. Lea el archivo de datos que contiene los datos. Observe que hay dos variables independientes en este ejemplo, separados por un asterisco. El asterisco indica a R que la interaccin entre los dos factores es interesante y debe ser analizado. Si las interacciones no son importantes, reemplace el asterisco con un signo ms (+).

    Ejemplo : # leer los datos en una tabla > data.ex2 = read.table (datafilename, header = T) # muestra los datos > data.ex2 # hacer el anlisis de la varianza > aov.ex2 = aov (Alerta ~ Sexo * Dosis, data = data.ex2) # muestra la tabla de resumen > summary (aov.ex2) # informan los medios y el nmero de asignaturas / celular > print (model.tables (aov.ex2, "medios"), dgitos = 3) # resumen grfico de los medios de las clulas > boxplot (Alerta ~ Dosis * Sexo, data = data.ex2)

    Continua Anexo 1

    T STUDENT

    la media de una poblacin: obtenemos una muestra La distribucin de los elementos de la pob. es X N (, 2 ) x = (x1 , . . . , xn ) es nuestra muestra (obs. independientes) 2 es desconocida.

    Ejemplo: #ingresamos datos a un vector > x = c(-100, 2, 3, 4, 3, 2, 4, 1, 0, 2, 3, 4, 0, 5, 2, 3, 2, 3, 5) #aplicamos el distributivo T > t.test(x, alternative="greater", mu=0.0, conf.level=0.99)

    Continua Anexo 2

    CHI-CUADRADO

    Pacientes de ataque cardiaco Este conjunto de datos es de todos los egresos hospitalarios en el estado de Nueva York con un diagnstico de admisin de un infarto agudo de miocardio (IAM), tambin llamado un ataque al corazn, que no tena la ciruga, en el ao 1993. Hay 12.844 casos. AGE da la edad en aos SEXO M es codificado para los varones F para las mujeres El diagnstico es en la forma de una Clasificacin Internacional de Enfermedades,

    > Nombres (heartatk) [1] "Paciente", "DIAGNSTICO" "SEXO" "DRG" "muri" "cargos" [7] "LOS" "AGE" > Attach (heartatk) > Mesa (SEX) SEXO FM 5065 7779 > Chisq.test (mesa (SEX)) Prueba de Chi-cuadrado de probabilidades dadas datos: mesa (SEX) X-cuadrado = 573.4815, df = 1, p-valor

  • R studio

    Novena edicin, Modificacin Clnica cdigo. Estos dicen que parte de la se vio afectada corazn.

    Continua Anexo 3

    DISTRIBUCIN BINOMIAL

    Simulacin con R-Project del ejercicio de calcular la probabilidad P(X=5) de una Distribucin Binomial Negativa con 3 xitos y probabilidad de xito 0.25. Se puede hacer de varias maneras.

    1. Sin instalar nada Programa. >dnbinom(x=5, size=3, prob=0.25) [1] 0.0778656 2. Instalando el paquete (package) de R, distr Programa. >library(distr) >X d(X)(5)

    [1] 0.0778656

    DISTRIBUCIN NORMAL

    Simulacin con R-Project del ejercicio de calcular la probabilidad

    de una distribucin normal N(32,0.3). Se eligen tres sucesos al azar con esa probabilidad, probabilidad que dos de ellos esten en el intervalo. Se puede hacer de varias maneras.

    1. Sin instalar nada

    Programa.

    >

    >

    >p

    >#Probabilidad que dos esten

    en el intervalo.

    >dbinom(2, size=3, prob=p)

    [1] 0.06885721

    2. Instalando el paquete (package) de R, distr

    Programa.

    >library(distr)

    >

    >X

    >p

    >#Probabilidad que dos esten

    en el intervalo.

    >Y

    >d(Y)(2)

    [1] 0.06885721

    Se les pidi que compararan las alturas

    medias de dos grupos. El primer grupo (A)

  • R studio

    DISTRIBUTIVO Z

    se compone de personas de nacionalidad italiana (la varianza de la poblacin italiana es 5), el segundo grupo se toma de las personas de nacionalidad alemana (la varianza de la varianza de poblacin de Alemania es de 8,5). Los datos se dan a continuacin: R: 175, 168, 168, 190, 156, 181, 182, 175, 174, 179 B: 185, 169, 173, 173, 188, 186, 175, 174, 179, 180 Puesto que tenemos la varianza de la poblacin, hay que proceder con una de dos muestras de prueba Z . Incluso en este caso no es avalilable en R en funcin de resolver el problema, pero podemos crear fcilmente

    z.test2sam = funcin (a,

    b,var.a,var.b)

    {

    na = longitud (a)

    nb = longitud (b)

    zeta = (significa (a) - significa

    (b)) / (sqrt (var. una na + var.b /

    nb)) /

    return (zeta)

    }

    Continua Anexo 4

    WILCOXON

    Contraste sobre la centralidad de una poblacin (mediana) Observaciones independientes: x1 , . . . , xn Distribucin simtrica de la poblacin

    H0 : Mediana = 0

    HA : Mediana = 0

    xpf(q=12.06,df1=3, df2=5)

    [1] 0.9900001

    2. Instalando el paquete (package) de R, distr

    Programa.

    >library(distr)

    >

    >X

    >p(X)(12.06)

    [1] 0.9900001

  • R studio

    DISTRIBUCIN DE PEARSON

    Simulacin con R-Project del ejercicio

    calcular la probabilidad . Se puede hacer de varias maneras.

    1. Sin instalar nada

    Programa.

    >

    >1-pchisq(q=6.3, df=12)

    [1] 0.9002103

    2. Instalando el paquete (package) de R, distr

    Programa.

    >library(distr)

    >X

    >1-p(X)(6.3)

    [1] 0.9002103

    DISTRIBUCIN EXPONENCIAL

    Simulacin con R-Project del ejercicio calcular la probabilidad

    de la distribucin exponencial. Se puede hacer de varias maneras.

    1. Sin instalar nada

    Programa.

    >

    >pexp(0.06, rate = 3);

    [1] 0.1647298

    2. Instalando el paquete (package) de R, distr

    Programa.

    >library(distr)

    >

    >X

    >p(X)(0.06)

    [1] 0.1647298

    1. Sin instalar nada

    Programa.

    >

    >1-punif(q=2.5, min=2, max=7)

    [1] 0.9

  • R studio

    DISTRIBUCIN UNIFORME

    Simulacin con R-Project del ejercicio calcular la probabilidad

    de la distribucin uniforme U(2,7). Se puede hacer de varias maneras.

    2. Instalando el paquete (package) de R, distr

    Programa.

    >library(distr)

    >

    >X

    >1-p(X)(2.5)

    [1] 0.9

    DISTRIBUCIN WEIBULL

    Simulacin con R-Project del ejercicio calcular la probabilidad

    de la distribucin Weibull W(0.5,0.01). Se puede hacer de varias maneras.

    1. Sin instalar nada

    Programa.

    >

    >pweibull(q=300, shape=0.5,

    scale =1/0.01)

    [1] 0.8230788

    2. Instalando el paquete (package) de R, distr

    Programa.

    >library(distr)

    >

    >X

    >p(X)(300)

    [1] 0.8230788

    1. Sin instalar nada

    Programa.

    >

    >pgamma(10, shape=3, rate =

    0.5)

    [1] 0.875348

  • R studio

    DISTRIBUCIN GAMMA

    Simulacin con R-Project del ejercicio calcular la probabilidad

    de la distribucin

    . Se puede hacer de varias maneras.

    2. Instalando el paquete (package) de R, distr

    Programa.

    >library(distr)

    >

    >X

    >p(X)(10)

    [1] 0.875348

  • R studio ANEXO 1

    La salida debera ser similar al siguiente:

    > datafilename="http://personality-project.org/r/datasets/R.appendix1.data"

    > data.ex1=read.table(datafilename,header=T) #read the data into a table

    > aov.ex1 = aov(Alertness~Dosage,data=data.ex1) #do the analysis of variance

    > summary(aov.ex1) #show the summary table

    Df Sum Sq Mean Sq F value Pr(>F)

    Dosage 2 426.25 213.12 8.7887 0.002977 **

    Residuals 15 363.75 24.25

    ---

    Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

    > print(model.tables(aov.ex1,"means"),digits=3) #report the means and the number of subjects/cell

    Tables of means

    Grand mean

    27.66667

    Dosage

    a b c

    32.5 28.2 19.2

    rep 6.0 8.0 4.0

    >

    ANEXO 2

    One Sample t-test

    data: x

    t = 7.6733, df = 18, p-value = 2.207e-07

    alternative hypothesis: true mean is greater than 0

    99 percent confidence interval:

    1.721113 Inf

    sample estimates: mean of x

    2.578947

    >

  • R studio Example 2

    > x = c(-100, 2, 3, 4, 3, 2, 4, 1, 0, 2, 3, 4, 0, 5, 2, 3, 2, 3, 5)

    > t.test(x, alternative="greater", mu=0.0, conf.level=0.99)

    One Sample t-test data: x

    t = -0.5056, df = 18, p-value = 0.6904

    alternative hypothesis: true mean is greater than 0

    99 percent confidence interval:

    -16.55349 Inf sample estimates: mean of x -2.736842

    >

  • R studio Example 3

    > x = c(0, 1, -1, 2, -2, 3, 3, 2, -2, 0, -1, 5, 2, 1, -2, -1)

    > t.test(x, alternative="two.sided", mu=0.0, conf.level=0.99)

    One Sample t-test data: x

    t = 1.1941, df = 15, p-value = 0.251

    alternative hypothesis: true mean is not equal to 0

    99 percent confidence interval:

    -0.9173398 2.1673398

    sample estimates:

    mean of x

    0.625

    >

    ANEXO 3

    Paciente DIAGNSTICO SEXO DRG MURI LOS CARGOS DE EDAD 1 41041 F 122 0 4752 0010 079

    2 41041 F 122 0 3941 0006 034

    3 41091 F 122 0 3657 0005 076

    4 41081 F 122 0 1481 0002 080

    5 41091 M 122 0 1681 0001 055

    6 41091 M 121 084 0009 0 6378.6400

    7 41091 F 121 0 0 015 084 10958.520

    8 41091 F 121 0 0 015 070 16583.930

    9 41041 M 121 076 0002 0 4015.3300

    10 41041 F 123 1 1989.4400 0001 065

    11 41041 F 121 0 7471.6300 0006 052

    12 41091 M 121 0 3930.6300 0005 072

    13 41091 F 122 0 0009 083 14 41091 F 122 0 4433.9300 0004 061

    15 41041 M 122 0 3318.2100 0002 053

    16 41041 M 122 0 4863.8300 0005 077

    17 41041 M 121 0 5000.6400 0003 053

  • R studio

    > Heartatk = read.table ("heartatk4R.txt", header = TRUE)

    El argumento header = TRUE dice R que la primera fila del archivo debe ser interpretado como nombres de variables. (Estos no deben incluir espacios.) Ahora puede obtener un ndice de lo que han creado en R con

    > Objetos ()

    Esto debera devolver heartatk junto con cualquier otra variable que haya creado. Usted no va a ver en la lista de cualquiera de las variables que se encuentran dentro de heartatk porque se

    esconden. Para verlos, tipo

    > Nombres (heartatk)

    [1] "Paciente", "DIAGNSTICO" "SEXO" "DRG" "muri" "cargos" [7] "LOS" "AGE"

    Para sacarlos de su escondite, debe "colocar" a su espacio de trabajo R. (Esto evita conflictos

    si varias tablas incluyen variables con el mismo nombre. Adjuntar slo uno a la vez.)

    > Attach (heartatk)

    Estos datos provienen de un CD ActivStats que proporcion estos antecedentes:

    Pacientes de ataque cardiaco

    Este conjunto de datos es de todos los egresos hospitalarios en el estado de Nueva York con un

    diagnstico al ingreso de un infarto agudo de miocardio (IAM), tambin conocido como ataque al corazn, que no tena la ciruga, en el ao 1993. Hay 12.844 casos.

    AGE da la edad en aos

    SEXO M es codificado para los varones F para las mujeres

    El diagnstico es en la forma de una Clasificacin Internacional de Enfermedades, 9 edicin, Clinical

    Cdigo de modificacin. Estos dicen que parte del corazn se ve afectado.

    DRG es la Diagnosis Related Group. Agrupa a los pacientes con manejo similar.

    En este conjunto de datos slo hay tres diferentes GRD.

    121 de IAM con complicaciones cardiovasculares que no murieron.

    122 de IAM sin complicaciones cardiovasculares que no murieron.

    123 de AMI, donde el paciente falleci.

    LOS da la longitud de la estancia hospitalaria en das.

  • R studio

    MUERTO tiene un 1 en los pacientes que fallecieron en el hospital y un 0 en caso contrario.

    CARGOS da los cargos hospitalarios totales en dlares.

    Datos proporcionados por la Direccin de Salud Proceso de Doylestown, PA. Despus de adjuntar la tabla de datos se puede trabajar con las variables internas que le proporciona recuerde que R se distingue entre maysculas y minsculas.

    > Mesa (sexo)

    Error en la tabla (el sexo): Nomenclatura "sexo" no encontrado

    > Mesa (SEX)

    SEXO

    FM

    5065 7779

    El comando chisq.test (mesa (SEX)) tiene una bondad chi-cuadrado de prueba de ajuste en la mesa

    para el SEXO variable. El valor predeterminado es probar para el recuento esperados iguales en

    todas las clulas. Eso no es el caso aqu. 2.2e-16 significa 2.2X10 -16 = 0.00000000000000022, que es pequea.

    Si no desea que la misma proporcin, es necesario dar una serie de proporciones para cada celda. Estas son las proporciones ms razonables (60/40) para los datos de un ataque al corazn.

    Usted puede hacer una tabulacin cruzada de dos variables categricas con mesa y hacer una prueba de la independencia o la homogeneidad con chisq.test . (Volvemos a los datos de un

    ataque al corazn.)

    > Mesa (SEXO, MUERTO)

    MUERTO

    SEXO 0 1

    F 4298 767

    M 7136 643

    > Chisq.test (mesa (SEXO, MUERTO))

    Prueba de Chi-cuadrado de Pearson con correccin de continuidad de Yates

    datos: mesa (sexo, muri) X-cuadrado = 147.7612, df = 1, p-valor

  • R studio

    b = c (185, 169, 173, 173, 188, 186, 175, 174, 179, 180)

    z. test2sam (a, b, 5, 8.5) [1] -2.926254

    El valor de la zeta es mayor que el valor del valor crtico tabulado zeta de alfa igual a 0,05 ( z tabulada = 1.96 para una prueba de dos colas): entonces se rechaza la hiptesis nula en favor de la hiptesis alternativa. Llegamos a la conclusin que las dos medias son significativamente diferentes.