ticsdistributivos

R studio

ESCUELA SUPERIOR POLITCNICA DE CHIMBORAZO

FACULTAD DE INFORMTICA Y ELECTRNICA

ESCUELA DE INGENIARAN SISTEMAS

Tecnologas de la informacin aplicadas a la educacin superior

Tema: distributivos estadsticos en Rstudio

Por: Dennys Moyn

Cdigo: 4867

Riobamba-Ecuador

R studio

OBJETIVO

Realizar un cuadro comparativo de los diferentes distributivos estadsticos aplicados en ID de desarrollo Rstudio con

sus respectivos comandos.

R studio TABLA DE LOS DISTINTOS DISTRIBUTIVOS APLICADOS EN R PROJECT

La presente tabla muestra una serie de distributivos estadsticos aplicados en R Project con un ejemplo planteado y

su respectivo cdigo en R Project.

Distributivo estadstico EJEMPLO CDIGO EN R

ANOVA

Los datos provienen de un experimento en el que se medir el nivel de alerta de sujetos de ambos sexos despus de que se les haba dado una de las dos posibles dosis de una droga. Por lo tanto, este es un diseo 2X2 con los factores siendo Gnero y dosificacin. Lea el archivo de datos que contiene los datos. Observe que hay dos variables independientes en este ejemplo, separados por un asterisco. El asterisco indica a R que la interaccin entre los dos factores es interesante y debe ser analizado. Si las interacciones no son importantes, reemplace el asterisco con un signo ms (+).

Ejemplo : # leer los datos en una tabla > data.ex2 = read.table (datafilename, header = T) # muestra los datos > data.ex2 # hacer el anlisis de la varianza > aov.ex2 = aov (Alerta ~ Sexo * Dosis, data = data.ex2) # muestra la tabla de resumen > summary (aov.ex2) # informan los medios y el nmero de asignaturas / celular > print (model.tables (aov.ex2, "medios"), dgitos = 3) # resumen grfico de los medios de las clulas > boxplot (Alerta ~ Dosis * Sexo, data = data.ex2)

Continua Anexo 1

T STUDENT

la media de una poblacin: obtenemos una muestra La distribucin de los elementos de la pob. es X N (, 2 ) x = (x1 , . . . , xn ) es nuestra muestra (obs. independientes) 2 es desconocida.

Ejemplo: #ingresamos datos a un vector > x = c(-100, 2, 3, 4, 3, 2, 4, 1, 0, 2, 3, 4, 0, 5, 2, 3, 2, 3, 5) #aplicamos el distributivo T > t.test(x, alternative="greater", mu=0.0, conf.level=0.99)

Continua Anexo 2

CHI-CUADRADO

Pacientes de ataque cardiaco Este conjunto de datos es de todos los egresos hospitalarios en el estado de Nueva York con un diagnstico de admisin de un infarto agudo de miocardio (IAM), tambin llamado un ataque al corazn, que no tena la ciruga, en el ao 1993. Hay 12.844 casos. AGE da la edad en aos SEXO M es codificado para los varones F para las mujeres El diagnstico es en la forma de una Clasificacin Internacional de Enfermedades,

> Nombres (heartatk) [1] "Paciente", "DIAGNSTICO" "SEXO" "DRG" "muri" "cargos" [7] "LOS" "AGE" > Attach (heartatk) > Mesa (SEX) SEXO FM 5065 7779 > Chisq.test (mesa (SEX)) Prueba de Chi-cuadrado de probabilidades dadas datos: mesa (SEX) X-cuadrado = 573.4815, df = 1, p-valor

R studio

Novena edicin, Modificacin Clnica cdigo. Estos dicen que parte de la se vio afectada corazn.

Continua Anexo 3

DISTRIBUCIN BINOMIAL

Simulacin con R-Project del ejercicio de calcular la probabilidad P(X=5) de una Distribucin Binomial Negativa con 3 xitos y probabilidad de xito 0.25. Se puede hacer de varias maneras.

1. Sin instalar nada Programa. >dnbinom(x=5, size=3, prob=0.25) [1] 0.0778656 2. Instalando el paquete (package) de R, distr Programa. >library(distr) >X d(X)(5)

[1] 0.0778656

DISTRIBUCIN NORMAL

Simulacin con R-Project del ejercicio de calcular la probabilidad

de una distribucin normal N(32,0.3). Se eligen tres sucesos al azar con esa probabilidad, probabilidad que dos de ellos esten en el intervalo. Se puede hacer de varias maneras.

1. Sin instalar nada

Programa.

>

>

>p

>#Probabilidad que dos esten

en el intervalo.

>dbinom(2, size=3, prob=p)

[1] 0.06885721

2. Instalando el paquete (package) de R, distr

Programa.

>library(distr)

>

>X

>p

>#Probabilidad que dos esten

en el intervalo.

>Y

>d(Y)(2)

[1] 0.06885721

Se les pidi que compararan las alturas

medias de dos grupos. El primer grupo (A)

R studio

DISTRIBUTIVO Z

se compone de personas de nacionalidad italiana (la varianza de la poblacin italiana es 5), el segundo grupo se toma de las personas de nacionalidad alemana (la varianza de la varianza de poblacin de Alemania es de 8,5). Los datos se dan a continuacin: R: 175, 168, 168, 190, 156, 181, 182, 175, 174, 179 B: 185, 169, 173, 173, 188, 186, 175, 174, 179, 180 Puesto que tenemos la varianza de la poblacin, hay que proceder con una de dos muestras de prueba Z . Incluso en este caso no es avalilable en R en funcin de resolver el problema, pero podemos crear fcilmente

z.test2sam = funcin (a,

b,var.a,var.b)

{

na = longitud (a)

nb = longitud (b)

zeta = (significa (a) - significa

(b)) / (sqrt (var. una na + var.b /

nb)) /

return (zeta)

}

Continua Anexo 4

WILCOXON

Contraste sobre la centralidad de una poblacin (mediana) Observaciones independientes: x1 , . . . , xn Distribucin simtrica de la poblacin

H0 : Mediana = 0

HA : Mediana = 0

xpf(q=12.06,df1=3, df2=5)

[1] 0.9900001


Programa.

>library(distr)

>

>X

>p(X)(12.06)

[1] 0.9900001

R studio

DISTRIBUCIN DE PEARSON

Simulacin con R-Project del ejercicio

calcular la probabilidad . Se puede hacer de varias maneras.


Programa.

>

>1-pchisq(q=6.3, df=12)

[1] 0.9002103


Programa.

>library(distr)

>X

>1-p(X)(6.3)

[1] 0.9002103

DISTRIBUCIN EXPONENCIAL

Simulacin con R-Project del ejercicio calcular la probabilidad

de la distribucin exponencial. Se puede hacer de varias maneras.


Programa.

>

>pexp(0.06, rate = 3);

[1] 0.1647298


Programa.

>library(distr)

>

>X

>p(X)(0.06)

[1] 0.1647298


Programa.

>

>1-punif(q=2.5, min=2, max=7)

[1] 0.9

R studio

DISTRIBUCIN UNIFORME


de la distribucin uniforme U(2,7). Se puede hacer de varias maneras.


Programa.

>library(distr)

>

>X

>1-p(X)(2.5)

[1] 0.9

DISTRIBUCIN WEIBULL


de la distribucin Weibull W(0.5,0.01). Se puede hacer de varias maneras.


Programa.

>

>pweibull(q=300, shape=0.5,

scale =1/0.01)

[1] 0.8230788


Programa.

>library(distr)

>

>X

>p(X)(300)

[1] 0.8230788


Programa.

>

>pgamma(10, shape=3, rate =

0.5)

[1] 0.875348

R studio

DISTRIBUCIN GAMMA


de la distribucin

. Se puede hacer de varias maneras.


Programa.

>library(distr)

>

>X

>p(X)(10)

[1] 0.875348

R studio ANEXO 1

La salida debera ser similar al siguiente:

> datafilename="http://personality-project.org/r/datasets/R.appendix1.data"

> data.ex1=read.table(datafilename,header=T) #read the data into a table

> aov.ex1 = aov(Alertness~Dosage,data=data.ex1) #do the analysis of variance

> summary(aov.ex1) #show the summary table

Df Sum Sq Mean Sq F value Pr(>F)

Dosage 2 426.25 213.12 8.7887 0.002977 **

Residuals 15 363.75 24.25

---

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

> print(model.tables(aov.ex1,"means"),digits=3) #report the means and the number of subjects/cell

Tables of means

Grand mean

27.66667

Dosage

a b c

32.5 28.2 19.2

rep 6.0 8.0 4.0

>

ANEXO 2

One Sample t-test

data: x

t = 7.6733, df = 18, p-value = 2.207e-07

alternative hypothesis: true mean is greater than 0

99 percent confidence interval:

1.721113 Inf

sample estimates: mean of x

2.578947

>

R studio Example 2

> x = c(-100, 2, 3, 4, 3, 2, 4, 1, 0, 2, 3, 4, 0, 5, 2, 3, 2, 3, 5)

> t.test(x, alternative="greater", mu=0.0, conf.level=0.99)

One Sample t-test data: x

t = -0.5056, df = 18, p-value = 0.6904

alternative hypothesis: true mean is greater than 0


-16.55349 Inf sample estimates: mean of x -2.736842

>

R studio Example 3

> x = c(0, 1, -1, 2, -2, 3, 3, 2, -2, 0, -1, 5, 2, 1, -2, -1)

> t.test(x, alternative="two.sided", mu=0.0, conf.level=0.99)

One Sample t-test data: x

t = 1.1941, df = 15, p-value = 0.251

alternative hypothesis: true mean is not equal to 0


-0.9173398 2.1673398

sample estimates:

mean of x

0.625

>

ANEXO 3

Paciente DIAGNSTICO SEXO DRG MURI LOS CARGOS DE EDAD 1 41041 F 122 0 4752 0010 079

2 41041 F 122 0 3941 0006 034

3 41091 F 122 0 3657 0005 076

4 41081 F 122 0 1481 0002 080

5 41091 M 122 0 1681 0001 055

6 41091 M 121 084 0009 0 6378.6400

7 41091 F 121 0 0 015 084 10958.520

8 41091 F 121 0 0 015 070 16583.930

9 41041 M 121 076 0002 0 4015.3300

10 41041 F 123 1 1989.4400 0001 065

11 41041 F 121 0 7471.6300 0006 052

12 41091 M 121 0 3930.6300 0005 072

13 41091 F 122 0 0009 083 14 41091 F 122 0 4433.9300 0004 061

15 41041 M 122 0 3318.2100 0002 053

16 41041 M 122 0 4863.8300 0005 077

17 41041 M 121 0 5000.6400 0003 053

R studio

> Heartatk = read.table ("heartatk4R.txt", header = TRUE)

El argumento header = TRUE dice R que la primera fila del archivo debe ser interpretado como nombres de variables. (Estos no deben incluir espacios.) Ahora puede obtener un ndice de lo que han creado en R con

> Objetos ()

Esto debera devolver heartatk junto con cualquier otra variable que haya creado. Usted no va a ver en la lista de cualquiera de las variables que se encuentran dentro de heartatk porque se

esconden. Para verlos, tipo

> Nombres (heartatk)

[1] "Paciente", "DIAGNSTICO" "SEXO" "DRG" "muri" "cargos" [7] "LOS" "AGE"

Para sacarlos de su escondite, debe "colocar" a su espacio de trabajo R. (Esto evita conflictos

si varias tablas incluyen variables con el mismo nombre. Adjuntar slo uno a la vez.)

> Attach (heartatk)

Estos datos provienen de un CD ActivStats que proporcion estos antecedentes:

Pacientes de ataque cardiaco

Este conjunto de datos es de todos los egresos hospitalarios en el estado de Nueva York con un

diagnstico al ingreso de un infarto agudo de miocardio (IAM), tambin conocido como ataque al corazn, que no tena la ciruga, en el ao 1993. Hay 12.844 casos.

AGE da la edad en aos

SEXO M es codificado para los varones F para las mujeres

El diagnstico es en la forma de una Clasificacin Internacional de Enfermedades, 9 edicin, Clinical

Cdigo de modificacin. Estos dicen que parte del corazn se ve afectado.

DRG es la Diagnosis Related Group. Agrupa a los pacientes con manejo similar.

En este conjunto de datos slo hay tres diferentes GRD.

121 de IAM con complicaciones cardiovasculares que no murieron.

122 de IAM sin complicaciones cardiovasculares que no murieron.

123 de AMI, donde el paciente falleci.

LOS da la longitud de la estancia hospitalaria en das.

R studio

MUERTO tiene un 1 en los pacientes que fallecieron en el hospital y un 0 en caso contrario.

CARGOS da los cargos hospitalarios totales en dlares.

Datos proporcionados por la Direccin de Salud Proceso de Doylestown, PA. Despus de adjuntar la tabla de datos se puede trabajar con las variables internas que le proporciona recuerde que R se distingue entre maysculas y minsculas.

> Mesa (sexo)

Error en la tabla (el sexo): Nomenclatura "sexo" no encontrado

> Mesa (SEX)

SEXO

FM

5065 7779

El comando chisq.test (mesa (SEX)) tiene una bondad chi-cuadrado de prueba de ajuste en la mesa

para el SEXO variable. El valor predeterminado es probar para el recuento esperados iguales en

todas las clulas. Eso no es el caso aqu. 2.2e-16 significa 2.2X10 -16 = 0.00000000000000022, que es pequea.

Si no desea que la misma proporcin, es necesario dar una serie de proporciones para cada celda. Estas son las proporciones ms razonables (60/40) para los datos de un ataque al corazn.

Usted puede hacer una tabulacin cruzada de dos variables categricas con mesa y hacer una prueba de la independencia o la homogeneidad con chisq.test . (Volvemos a los datos de un

ataque al corazn.)

> Mesa (SEXO, MUERTO)

MUERTO

SEXO 0 1

F 4298 767

M 7136 643

> Chisq.test (mesa (SEXO, MUERTO))

Prueba de Chi-cuadrado de Pearson con correccin de continuidad de Yates

datos: mesa (sexo, muri) X-cuadrado = 147.7612, df = 1, p-valor

R studio

b = c (185, 169, 173, 173, 188, 186, 175, 174, 179, 180)

z. test2sam (a, b, 5, 8.5) [1] -2.926254

El valor de la zeta es mayor que el valor del valor crtico tabulado zeta de alfa igual a 0,05 ( z tabulada = 1.96 para una prueba de dos colas): entonces se rechaza la hiptesis nula en favor de la hiptesis alternativa. Llegamos a la conclusin que las dos medias son significativamente diferentes.

ticsdistributivos

Documents

Transcript of ticsdistributivos