ticsdistributivos
-
Upload
dennys-moyon -
Category
Documents
-
view
4 -
download
0
Transcript of ticsdistributivos
-
R studio
ESCUELA SUPERIOR POLITCNICA DE CHIMBORAZO
FACULTAD DE INFORMTICA Y ELECTRNICA
ESCUELA DE INGENIARAN SISTEMAS
Tecnologas de la informacin aplicadas a la educacin superior
Tema: distributivos estadsticos en Rstudio
Por: Dennys Moyn
Cdigo: 4867
Riobamba-Ecuador
-
R studio
OBJETIVO
Realizar un cuadro comparativo de los diferentes distributivos estadsticos aplicados en ID de desarrollo Rstudio con
sus respectivos comandos.
-
R studio TABLA DE LOS DISTINTOS DISTRIBUTIVOS APLICADOS EN R PROJECT
La presente tabla muestra una serie de distributivos estadsticos aplicados en R Project con un ejemplo planteado y
su respectivo cdigo en R Project.
Distributivo estadstico EJEMPLO CDIGO EN R
ANOVA
Los datos provienen de un experimento en el que se medir el nivel de alerta de sujetos de ambos sexos despus de que se les haba dado una de las dos posibles dosis de una droga. Por lo tanto, este es un diseo 2X2 con los factores siendo Gnero y dosificacin. Lea el archivo de datos que contiene los datos. Observe que hay dos variables independientes en este ejemplo, separados por un asterisco. El asterisco indica a R que la interaccin entre los dos factores es interesante y debe ser analizado. Si las interacciones no son importantes, reemplace el asterisco con un signo ms (+).
Ejemplo : # leer los datos en una tabla > data.ex2 = read.table (datafilename, header = T) # muestra los datos > data.ex2 # hacer el anlisis de la varianza > aov.ex2 = aov (Alerta ~ Sexo * Dosis, data = data.ex2) # muestra la tabla de resumen > summary (aov.ex2) # informan los medios y el nmero de asignaturas / celular > print (model.tables (aov.ex2, "medios"), dgitos = 3) # resumen grfico de los medios de las clulas > boxplot (Alerta ~ Dosis * Sexo, data = data.ex2)
Continua Anexo 1
T STUDENT
la media de una poblacin: obtenemos una muestra La distribucin de los elementos de la pob. es X N (, 2 ) x = (x1 , . . . , xn ) es nuestra muestra (obs. independientes) 2 es desconocida.
Ejemplo: #ingresamos datos a un vector > x = c(-100, 2, 3, 4, 3, 2, 4, 1, 0, 2, 3, 4, 0, 5, 2, 3, 2, 3, 5) #aplicamos el distributivo T > t.test(x, alternative="greater", mu=0.0, conf.level=0.99)
Continua Anexo 2
CHI-CUADRADO
Pacientes de ataque cardiaco Este conjunto de datos es de todos los egresos hospitalarios en el estado de Nueva York con un diagnstico de admisin de un infarto agudo de miocardio (IAM), tambin llamado un ataque al corazn, que no tena la ciruga, en el ao 1993. Hay 12.844 casos. AGE da la edad en aos SEXO M es codificado para los varones F para las mujeres El diagnstico es en la forma de una Clasificacin Internacional de Enfermedades,
> Nombres (heartatk) [1] "Paciente", "DIAGNSTICO" "SEXO" "DRG" "muri" "cargos" [7] "LOS" "AGE" > Attach (heartatk) > Mesa (SEX) SEXO FM 5065 7779 > Chisq.test (mesa (SEX)) Prueba de Chi-cuadrado de probabilidades dadas datos: mesa (SEX) X-cuadrado = 573.4815, df = 1, p-valor
-
R studio
Novena edicin, Modificacin Clnica cdigo. Estos dicen que parte de la se vio afectada corazn.
Continua Anexo 3
DISTRIBUCIN BINOMIAL
Simulacin con R-Project del ejercicio de calcular la probabilidad P(X=5) de una Distribucin Binomial Negativa con 3 xitos y probabilidad de xito 0.25. Se puede hacer de varias maneras.
1. Sin instalar nada Programa. >dnbinom(x=5, size=3, prob=0.25) [1] 0.0778656 2. Instalando el paquete (package) de R, distr Programa. >library(distr) >X d(X)(5)
[1] 0.0778656
DISTRIBUCIN NORMAL
Simulacin con R-Project del ejercicio de calcular la probabilidad
de una distribucin normal N(32,0.3). Se eligen tres sucesos al azar con esa probabilidad, probabilidad que dos de ellos esten en el intervalo. Se puede hacer de varias maneras.
1. Sin instalar nada
Programa.
>
>
>p
>#Probabilidad que dos esten
en el intervalo.
>dbinom(2, size=3, prob=p)
[1] 0.06885721
2. Instalando el paquete (package) de R, distr
Programa.
>library(distr)
>
>X
>p
>#Probabilidad que dos esten
en el intervalo.
>Y
>d(Y)(2)
[1] 0.06885721
Se les pidi que compararan las alturas
medias de dos grupos. El primer grupo (A)
-
R studio
DISTRIBUTIVO Z
se compone de personas de nacionalidad italiana (la varianza de la poblacin italiana es 5), el segundo grupo se toma de las personas de nacionalidad alemana (la varianza de la varianza de poblacin de Alemania es de 8,5). Los datos se dan a continuacin: R: 175, 168, 168, 190, 156, 181, 182, 175, 174, 179 B: 185, 169, 173, 173, 188, 186, 175, 174, 179, 180 Puesto que tenemos la varianza de la poblacin, hay que proceder con una de dos muestras de prueba Z . Incluso en este caso no es avalilable en R en funcin de resolver el problema, pero podemos crear fcilmente
z.test2sam = funcin (a,
b,var.a,var.b)
{
na = longitud (a)
nb = longitud (b)
zeta = (significa (a) - significa
(b)) / (sqrt (var. una na + var.b /
nb)) /
return (zeta)
}
Continua Anexo 4
WILCOXON
Contraste sobre la centralidad de una poblacin (mediana) Observaciones independientes: x1 , . . . , xn Distribucin simtrica de la poblacin
H0 : Mediana = 0
HA : Mediana = 0
xpf(q=12.06,df1=3, df2=5)
[1] 0.9900001
2. Instalando el paquete (package) de R, distr
Programa.
>library(distr)
>
>X
>p(X)(12.06)
[1] 0.9900001
-
R studio
DISTRIBUCIN DE PEARSON
Simulacin con R-Project del ejercicio
calcular la probabilidad . Se puede hacer de varias maneras.
1. Sin instalar nada
Programa.
>
>1-pchisq(q=6.3, df=12)
[1] 0.9002103
2. Instalando el paquete (package) de R, distr
Programa.
>library(distr)
>X
>1-p(X)(6.3)
[1] 0.9002103
DISTRIBUCIN EXPONENCIAL
Simulacin con R-Project del ejercicio calcular la probabilidad
de la distribucin exponencial. Se puede hacer de varias maneras.
1. Sin instalar nada
Programa.
>
>pexp(0.06, rate = 3);
[1] 0.1647298
2. Instalando el paquete (package) de R, distr
Programa.
>library(distr)
>
>X
>p(X)(0.06)
[1] 0.1647298
1. Sin instalar nada
Programa.
>
>1-punif(q=2.5, min=2, max=7)
[1] 0.9
-
R studio
DISTRIBUCIN UNIFORME
Simulacin con R-Project del ejercicio calcular la probabilidad
de la distribucin uniforme U(2,7). Se puede hacer de varias maneras.
2. Instalando el paquete (package) de R, distr
Programa.
>library(distr)
>
>X
>1-p(X)(2.5)
[1] 0.9
DISTRIBUCIN WEIBULL
Simulacin con R-Project del ejercicio calcular la probabilidad
de la distribucin Weibull W(0.5,0.01). Se puede hacer de varias maneras.
1. Sin instalar nada
Programa.
>
>pweibull(q=300, shape=0.5,
scale =1/0.01)
[1] 0.8230788
2. Instalando el paquete (package) de R, distr
Programa.
>library(distr)
>
>X
>p(X)(300)
[1] 0.8230788
1. Sin instalar nada
Programa.
>
>pgamma(10, shape=3, rate =
0.5)
[1] 0.875348
-
R studio
DISTRIBUCIN GAMMA
Simulacin con R-Project del ejercicio calcular la probabilidad
de la distribucin
. Se puede hacer de varias maneras.
2. Instalando el paquete (package) de R, distr
Programa.
>library(distr)
>
>X
>p(X)(10)
[1] 0.875348
-
R studio ANEXO 1
La salida debera ser similar al siguiente:
> datafilename="http://personality-project.org/r/datasets/R.appendix1.data"
> data.ex1=read.table(datafilename,header=T) #read the data into a table
> aov.ex1 = aov(Alertness~Dosage,data=data.ex1) #do the analysis of variance
> summary(aov.ex1) #show the summary table
Df Sum Sq Mean Sq F value Pr(>F)
Dosage 2 426.25 213.12 8.7887 0.002977 **
Residuals 15 363.75 24.25
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
> print(model.tables(aov.ex1,"means"),digits=3) #report the means and the number of subjects/cell
Tables of means
Grand mean
27.66667
Dosage
a b c
32.5 28.2 19.2
rep 6.0 8.0 4.0
>
ANEXO 2
One Sample t-test
data: x
t = 7.6733, df = 18, p-value = 2.207e-07
alternative hypothesis: true mean is greater than 0
99 percent confidence interval:
1.721113 Inf
sample estimates: mean of x
2.578947
>
-
R studio Example 2
> x = c(-100, 2, 3, 4, 3, 2, 4, 1, 0, 2, 3, 4, 0, 5, 2, 3, 2, 3, 5)
> t.test(x, alternative="greater", mu=0.0, conf.level=0.99)
One Sample t-test data: x
t = -0.5056, df = 18, p-value = 0.6904
alternative hypothesis: true mean is greater than 0
99 percent confidence interval:
-16.55349 Inf sample estimates: mean of x -2.736842
>
-
R studio Example 3
> x = c(0, 1, -1, 2, -2, 3, 3, 2, -2, 0, -1, 5, 2, 1, -2, -1)
> t.test(x, alternative="two.sided", mu=0.0, conf.level=0.99)
One Sample t-test data: x
t = 1.1941, df = 15, p-value = 0.251
alternative hypothesis: true mean is not equal to 0
99 percent confidence interval:
-0.9173398 2.1673398
sample estimates:
mean of x
0.625
>
ANEXO 3
Paciente DIAGNSTICO SEXO DRG MURI LOS CARGOS DE EDAD 1 41041 F 122 0 4752 0010 079
2 41041 F 122 0 3941 0006 034
3 41091 F 122 0 3657 0005 076
4 41081 F 122 0 1481 0002 080
5 41091 M 122 0 1681 0001 055
6 41091 M 121 084 0009 0 6378.6400
7 41091 F 121 0 0 015 084 10958.520
8 41091 F 121 0 0 015 070 16583.930
9 41041 M 121 076 0002 0 4015.3300
10 41041 F 123 1 1989.4400 0001 065
11 41041 F 121 0 7471.6300 0006 052
12 41091 M 121 0 3930.6300 0005 072
13 41091 F 122 0 0009 083 14 41091 F 122 0 4433.9300 0004 061
15 41041 M 122 0 3318.2100 0002 053
16 41041 M 122 0 4863.8300 0005 077
17 41041 M 121 0 5000.6400 0003 053
-
R studio
> Heartatk = read.table ("heartatk4R.txt", header = TRUE)
El argumento header = TRUE dice R que la primera fila del archivo debe ser interpretado como nombres de variables. (Estos no deben incluir espacios.) Ahora puede obtener un ndice de lo que han creado en R con
> Objetos ()
Esto debera devolver heartatk junto con cualquier otra variable que haya creado. Usted no va a ver en la lista de cualquiera de las variables que se encuentran dentro de heartatk porque se
esconden. Para verlos, tipo
> Nombres (heartatk)
[1] "Paciente", "DIAGNSTICO" "SEXO" "DRG" "muri" "cargos" [7] "LOS" "AGE"
Para sacarlos de su escondite, debe "colocar" a su espacio de trabajo R. (Esto evita conflictos
si varias tablas incluyen variables con el mismo nombre. Adjuntar slo uno a la vez.)
> Attach (heartatk)
Estos datos provienen de un CD ActivStats que proporcion estos antecedentes:
Pacientes de ataque cardiaco
Este conjunto de datos es de todos los egresos hospitalarios en el estado de Nueva York con un
diagnstico al ingreso de un infarto agudo de miocardio (IAM), tambin conocido como ataque al corazn, que no tena la ciruga, en el ao 1993. Hay 12.844 casos.
AGE da la edad en aos
SEXO M es codificado para los varones F para las mujeres
El diagnstico es en la forma de una Clasificacin Internacional de Enfermedades, 9 edicin, Clinical
Cdigo de modificacin. Estos dicen que parte del corazn se ve afectado.
DRG es la Diagnosis Related Group. Agrupa a los pacientes con manejo similar.
En este conjunto de datos slo hay tres diferentes GRD.
121 de IAM con complicaciones cardiovasculares que no murieron.
122 de IAM sin complicaciones cardiovasculares que no murieron.
123 de AMI, donde el paciente falleci.
LOS da la longitud de la estancia hospitalaria en das.
-
R studio
MUERTO tiene un 1 en los pacientes que fallecieron en el hospital y un 0 en caso contrario.
CARGOS da los cargos hospitalarios totales en dlares.
Datos proporcionados por la Direccin de Salud Proceso de Doylestown, PA. Despus de adjuntar la tabla de datos se puede trabajar con las variables internas que le proporciona recuerde que R se distingue entre maysculas y minsculas.
> Mesa (sexo)
Error en la tabla (el sexo): Nomenclatura "sexo" no encontrado
> Mesa (SEX)
SEXO
FM
5065 7779
El comando chisq.test (mesa (SEX)) tiene una bondad chi-cuadrado de prueba de ajuste en la mesa
para el SEXO variable. El valor predeterminado es probar para el recuento esperados iguales en
todas las clulas. Eso no es el caso aqu. 2.2e-16 significa 2.2X10 -16 = 0.00000000000000022, que es pequea.
Si no desea que la misma proporcin, es necesario dar una serie de proporciones para cada celda. Estas son las proporciones ms razonables (60/40) para los datos de un ataque al corazn.
Usted puede hacer una tabulacin cruzada de dos variables categricas con mesa y hacer una prueba de la independencia o la homogeneidad con chisq.test . (Volvemos a los datos de un
ataque al corazn.)
> Mesa (SEXO, MUERTO)
MUERTO
SEXO 0 1
F 4298 767
M 7136 643
> Chisq.test (mesa (SEXO, MUERTO))
Prueba de Chi-cuadrado de Pearson con correccin de continuidad de Yates
datos: mesa (sexo, muri) X-cuadrado = 147.7612, df = 1, p-valor
-
R studio
b = c (185, 169, 173, 173, 188, 186, 175, 174, 179, 180)
z. test2sam (a, b, 5, 8.5) [1] -2.926254
El valor de la zeta es mayor que el valor del valor crtico tabulado zeta de alfa igual a 0,05 ( z tabulada = 1.96 para una prueba de dos colas): entonces se rechaza la hiptesis nula en favor de la hiptesis alternativa. Llegamos a la conclusin que las dos medias son significativamente diferentes.