Apuntes de Estadística

133
Alexander Pinto y Neilé Pernalete de P. Capítulo I pág. 1 CAPITULO I: NATURALEZA DE LA ESTADISTICA Conceptos Matemáticos básicos Para muchos de los participantes de estudios en el campo de las ciencias sociales, quizás el término matemáticas es muy fuerte y tienden a rechazar muchos de sus aspectos, pero tal vez porque no los han explorado, tal vez por las malas experiencias que han tenido en el transcurso de su vida estudiantil o quizás por no relacionarlo con su futuro desempeño y si a eso se asocia el termino estadística pudiéramos concluir que aumenta la decepción, ansiedad y quizás frustración, cuando en realidad lo que se necesita es una ración de conocimiento aritmético, por lo tanto vamos a repasar algunos conocimientos aritméticos previos para integrarlos al mundo de la estadística y del análisis de datos. Números nominales: son los que utilizan para designar Números ordinales: representan una posición en una serie determinada. Números cardinales: son los que se utilizan para representar cantidades. Sustantivos matemáticos: consiste en el empleo de símbolos para representar cantidades. Adjetivos matemáticos: se utilizan para modificar un sustantivo y darle mayor precisión, utilizan los subíndices Xi. Verbos matemáticos: son los que guían al usuario para efectuar algo que tiene las mismas características, uno de los más importantes es . Adverbios matemáticos: son los que modifican los verbos, por ejemplo los símbolos de suma. Medida: Consiste en la combinación de la expresión numérica y la unidad de medición correspondiente, constituye una medida como resultado de la confrontación o comparación de magnitudes con un patrón o unidad de medida establecida. Ejemplos: Si se desea conocer la longitud de un aula de clases, se comparara el largo del salón con una cinta métrica, como resultado obtendríamos 7,5 metros, podría decirse entonces que el resultado obtenido constituye una medida deseada. Pero si lo que desea es medir el nivel de conocimientos que posee un alumno en cuanto cierto contenido programático, se le somete a una prueba que cubra los objetivo a medir, el resultado, por ejemplo 16 puntos representara la medida deseada, solo que es menos precisa que la anterior, ya que la característica a medir es variable y no tangible, como lo es el largo de un salón. Se concluye que las diferencias en cuanto a la precisión de la medida son una consecuencia del mayor o menor cambio de aquello que es objeto de medida. Expresión numérica Unidad de medición 65 Años 1,75 Metros 52 kilogramos 17 Puntos 28 Grados 36 Segundos 25 litros Escala de medida Es el conjunto de reglas que se establecen de acuerdo a un propósito definido, siendo realizada esta asignación sobre un conjunto de reglas fijas.

description

Autores: Alexander Pinto y Neilé Pernalete

Transcript of Apuntes de Estadística

Page 1: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo I

pág. 1

CAPITULO I: NATURALEZA DE LA ESTADISTICA Conceptos Matemáticos básicos Para muchos de los participantes de estudios en el campo de las ciencias sociales, quizás el término matemáticas es muy fuerte y tienden a rechazar muchos de sus aspectos, pero tal vez porque no los han explorado, tal vez por las malas experiencias que han tenido en el transcurso de su vida estudiantil o quizás por no relacionarlo con su futuro desempeño y si a eso se asocia el termino estadística pudiéramos concluir que aumenta la decepción, ansiedad y quizás frustración, cuando en realidad lo que se necesita es una ración de conocimiento aritmético, por lo tanto vamos a repasar algunos conocimientos aritméticos previos para integrarlos al mundo de la estadística y del análisis de datos. Números nominales: son los que utilizan para designar Números ordinales: representan una posición en una serie determinada. Números cardinales: son los que se utilizan para representar cantidades. Sustantivos matemáticos: consiste en el empleo de símbolos para representar cantidades. Adjetivos matemáticos: se utilizan para modificar un sustantivo y darle mayor precisión, utilizan los subíndices Xi. Verbos matemáticos: son los que guían al usuario para efectuar algo que tiene las mismas

características, uno de los más importantes es . Adverbios matemáticos: son los que modifican los verbos, por ejemplo los símbolos de suma. Medida: Consiste en la combinación de la expresión numérica y la unidad de medición correspondiente, constituye una medida como resultado de la confrontación o comparación de magnitudes con un patrón o unidad de medida establecida. Ejemplos: Si se desea conocer la longitud de un aula de clases, se comparara el largo del salón con una cinta métrica, como resultado obtendríamos 7,5 metros, podría decirse entonces que el resultado obtenido constituye una medida deseada. Pero si lo que desea es medir el nivel de conocimientos que posee un alumno en cuanto cierto contenido programático, se le somete a una prueba que cubra los objetivo a medir, el resultado, por ejemplo 16 puntos representara la medida deseada, solo que es menos precisa que la anterior, ya que la característica a medir es variable y no tangible, como lo es el largo de un salón. Se concluye que las diferencias en cuanto a la precisión de la medida son una consecuencia del mayor o menor cambio de aquello que es objeto de medida.

Expresión numérica Unidad de medición

65 Años

1,75 Metros

52 kilogramos

17 Puntos

28 Grados

36 Segundos

25 litros

Escala de medida Es el conjunto de reglas que se establecen de acuerdo a un propósito definido, siendo realizada esta asignación sobre un conjunto de reglas fijas.

Page 2: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo I

pág. 2

Las escalas de medidas exigen de cierta igualdad formal entre las operaciones a realizar con los números y las que se pueden realizar con los objetos empíricos, por lo tanto de acuerdo al tipo de número se originan cuatro escalas: nominal, ordinal, de intervalo y de razones o proporciones. Escala Nominal Cuando los objetos empíricos solo permiten la operación de igualdad y desigualdad. Por lo antes señalado las observaciones de variables no ordenadas constituyen un nivel de medida muy bajo y corresponden a la escala nominal, de allí que los números asignados para representar diferentes clases de una escala nominal solamente tienen propiedades cualitativas y sirven únicamente para identificar las clases. Los datos en la escala nominal reciben el nombre de datos de frecuencia, enumerativos, datos de atributos o datos de categoría, por lo tanto la única relación adecuada de dicha escala son

las de equivalencia o igualdad (=) y las de no-equivalencia ( ). Ejemplo Un grupo de alumnos se podría clasificar en función del sexo. En este sentido, se le asignaría un 1 a los varones y un 2 a las hembras. De igual modo se podía haber clasificado a los alumnos de acuerdo a su estado de procedencia, así tendríamos un 1 para Anzoátegui, un 2 para Apure, un 3 para Aragua, y así sucesivamente. Escala Ordinal Es la clasificación hecha con los objetos empíricos, permitiendo establecer, además, una relación de igualdad, una relación de orden, es una escala superior a la nominal y de hecho se presentan variables cuyas clase se encuentran en una serie ordenada de relaciones, por lo tanto se expresan desde el punto de vista de álgebra de las desigualdades, a es menor que b (a < b), en esta escala los números tampoco son cuantitativos, solamente indican la posición en una serie ordenada y no cuanta es la diferencia que existe entre posiciones sucesivas. Ejemplo El ordenamiento de un grupo de alumnos según su estatura, no por mediciones efectuadas de la estatura de cada alumno, sino simplemente el orden de menor a mayor, o viceversa, que puede efectuarse a simple vista de acuerdo a sus tamaños. La cuantía de la diferencia de estatura entre ellos no podría determinarse, solo se sabría quien es más o menos alto. Escala de Intervalos Es aquella donde se pueden utilizar las operaciones de igualdad (equivalencia), orden (jerarquización) y además la igualdad de la diferencia. En esta escala se habla de la presencia de un cero relativo, los valores de esta escala son cuantitativos emplean números cardinales y permiten la realización de cualquier tipo de operación aritmética. El punto cero es determinado en forma arbitraria y no indica la ausencia de la variable que se mide. Ejemplo Cuando medimos la temperatura con un termómetro, las medidas resultantes pueden ser ordenadas en una escala de intervalos iguales, de modo que la diferencia entre 50° C y 30° C es igual a la diferencia entre 90° C y 70° C. Esto se justifica por cuanto el grado es una unidad constante.

Page 3: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo I

pág. 3

Con esta escala podemos hacer las operaciones aritméticas corrientes y aplicar en general, casi todos los procedimientos estadísticos. Lo único que no podemos hacer es operaciones que impliquen la presencia o el manejo de un cero absoluto. Por ejemplo: no podemos decir que la temperatura que indica 60° C es el doble de la que indica 30° C. Para hacer esta afirmación debemos suponer un cero absoluto con respecto al cual 30 esté en un punto intermedio entre 60 y ese cero. Esto equivale al cero relativo de la temperatura, ya que no indica ausencia de temperatura sino el punto de congelación del agua. Escala de razones Es la clasificación de objetos empíricos donde puede determinarse las relaciones de igualdad, orden, igualdad de intervalo e igualdad de razones, esta ultima debido a su característica en cuanto a que las mediciones efectuadas a partir del cero absoluto, es decir, ausencia de la variable que se está midiendo. Ejemplo Si se posee un área de 10 metros y se divide entre 2, es igual a dividir un área de 20 metros entre 4, es decir: 10/2=20/4. Esta igualdad de razones es posible porque existe un cero absoluto: 0 metros significa ausencia de longitud o distancia. Como se observa las escalas de intervalos y razones tienen el mismo origen en los números cardinales y su única y real diferencia es el cero, pero el resto de sus propiedades son iguales. Estadística La palabra “Estadística”, significa esencialmente dos cosas: recuento o inventario de datos y ciencia matemática. Como recuento o inventario de datos: se asocia a la palabra “estadísticas” (en plural), donde se recopila información pertinente a un hecho determinado, por ejemplo: las estadísticas de accidentes automovilísticos durante 2003 en cierta ciudad, o las estadísticas de nacimientos vivos en algún centro hospitalario, etc. Esta idea de la estadística no es nueva, se ha venido utilizando desde la antigüedad, hace mas de 4000 años los chinos ya utilizaban tablas estadísticas agrícolas; también los egipcios y romanos utilizaban operaciones diferentes de recuentos. Actualmente se le conoce como Estadística Descriptiva. Por lo tanto con la utilización de la Estadística Descriptiva, se pueden realizar los siguientes procedimientos:

a. ordenar y agrupar datos. b. construir tablas de gráficos. c. convertir datos originales en puntuaciones estadísticas. d. Determinar promedios. e. Relacionar instrumentos.

El desarrollo de toda una teoría de la estadística para llegar a convertirla en una ciencia matemática, parte del estudio de los juegos de azar, extendido hasta crear una rama particular de la matemática: el cálculo de las probabilidades, esto llevo a muchos investigadores a descubrir principio generales, entre ellos: Fisher, Pascal, Fermat, Bernoulli, Euler, Laplace y Gauss. Hoy en día la Estadística, como ciencia matemática, además de realizar análisis de datos demográficos, económicos o sociológicos, ha extendido su campo de aplicación a todas aquellas investigaciones en las que el análisis de datos exija el conocimiento de las leyes de

Page 4: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo I

pág. 4

azar, y suponga además, la organización de datos, sometimiento a prueba de hipótesis científicas, estudiar los procedimientos de análisis y las técnicas de los resultados obtenidos. Esto es conocido como Estadística Muestral o Inferencial. Por lo antes expuesto la Estadística Inferencial permitirá:

a. seleccionar muestras. b. Determinar los errores muestrales. c. Contrastar promedios. d. Estimar el valor del parámetro poblacional. e. Elaborar conclusiones, generalizaciones válidas para la población.

Conceptos Básicos Población: Conjunto de unidades, individuos, elementos, datos que satisfacen una definición común y que reúne cierto interés de estudio, lo cual señala que tiene que ser medible. Por lo tanto es una definición común. La población debe estar claramente delimitada antes de dar inicio a cualquier investigación; si el número de elementos que la conforman es limitado y contable, se dice que es una población finita, si por el contrario es ilimitado, y por lo tanto no puede contarse se dice que es una población infinita. Ejemplo Las calificaciones obtenidas por los alumnos cursantes de Estadística en el segundo semestre del año 2007 en CUAM: es una población delimitada, finita y contable. Muestra Parte o subconjunto de la población, la cual deberá reunir las características de ésta para que sea representativa de la misma; la selección de sus elementos se denomina muestreo y el más utilizado es el aleatorio o al azar, en el cual es conocida la probabilidad de selección de cada elemento de la población. Ejemplo 35 alumnos escogidos al azar de Estadística del actual semestre de FaCE de la UC. Muestra aleatoria Es un subconjunto de la población seleccionado de forma tal que cada miembro de la población ha tenido igual oportunidad de ser elegido. Dato Se refiere a números o medidas obtenidas como resultados de observaciones para investigación. Parámetro Es una medida obtenida a partir de las observaciones de una población, para referirse a ellas

se simbolizan con letras griegas ( , , , ). Ejemplo Promedio de las calificaciones de los alumnos cursantes de Estadística en el segundo semestre del año 2007 en FaCE de la UC.

Page 5: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo I

pág. 5

Edad promedio de los alumnos cursantes de Estadística en el turno de la mañana en el primer semestre del año 2007 en CUPIO. Estadístico Medida obtenida a partir de las observaciones de una muestra de acuerdo a ciertos procedimientos específicos. Se puede utilizar para estimar el parámetro poblacional, de allí que debe considerarse que cada estadístico describe algún aspecto de la población, para su

simbología se utilizaran letras latinas ( X , s). Ejemplo Calificación promedio de 35 alumnos escogidos al azar de la sección 20 de Estadística del actual semestre de FaCE de la UC. Talla promedio de 50 niños de los 80 inscritos en el Pre-escolar Las Acacias en Valencia. Atributos y Variables (Caracteres cualitativos y cuantitativos) Antes de explicar estos aspectos, vamos primeramente a aclarar en que consisten tres aspectos básicos: unidad estadística, carácter y modalidad. Unidad estadística Se refiere a los elementos que componen una población determinada. Carácter Son las características en base a las cuales puede describirse una población determinada. Modalidad Es la forma como se presenta el carácter y cada unidad estadística o individuo debe poseer una sola modalidad por lo tanto son incompatibles y excluyentes. Atributo (Carácter Cualitativo) El atributo es un carácter cualitativo ya que sus modalidades no son directamente medibles, es por eso que se le llama cualidad o atributo, y a sus modalidades se les llama categorías, lo que hace realmente es atribuirle al sujeto elemento u objeto la posesión de una característica. Estas clases deben estar claramente delimitadas y ser excluyentes entre si. Ejemplos El sexo (género), tiene dos categorías: varón y hembra, las cuales son incompatibles y exhaustivas. Es decir, cada individuo debe poseer una y sola una modalidad por carácter: o se es varón o hembra, pero no ambas cosas a la vez. El estado civil puede exhibir varias modalidades según la información que se requiera: casado-no casado; soltero-casado-viudo-divorciado. Cuando estamos en presencia de una característica cualitativa solamente podemos expresar el número de individuos que la poseen (dato de frecuencia o de conteo). Variable (Carácter Cuantitativo) Un carácter es cuantitativo si sus diversas modalidades son medibles y numerables. Es decir, cada modalidad, puede representarse por un número.

Page 6: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo I

pág. 6

Este número se llama “variable estadística”, por eso se llaman “variables” a los caracteres cuantitativos ya que las diferentes modalidades son los diferentes valores posibles de la variable estadística, de allí que se distinga entre ellos grado, nivel, cantidad dentro de cada clase. Así la edad, talla y el peso, por ejemplo son variables cuantitativas. Ejemplos Número de carros accidentados en la Avenida Bolívar de Valencia luego de un torrencial aguacero. Calificaciones en el segundo lapso obtenidas por el noveno grado “B” del Colegio Santa Cruz. Las variables cuantitativas pueden ser: Discretas y Continuas. Variables Discretas Constituyen un tipo de variables que se caracterizan porque sus posibles valores son aislados (se expresan generalmente como números enteros o múltiplos de un número fijo). En estas variables se encuentran las medidas discretas que son aquellos valores que no pueden subdividirse en partes menores que la unidad. Ejemplo El número de hijos de una familia. El número de materias aprobadas por un alumno en el último semestre. Variables Continuas Constituyen un tipo de variables que admiten un número infinito de valores en un intervalo dterminado. Por lo tanto admiten expresión decimal, en esta variable se dan las medidas continuas que son aquellas que pueden referirse a cualquier parte de la unidad por ser un número real. Ejemplo Distancia existente entre el aula 15 y el aula 16 en el CUPIO. Puntuaciones obtenidas por un grupo de 25 alumnos en una prueba objetiva de Historia de 45 preguntas de opciones múltiples. Exactitud de la Medida La variable continua admite un número infinito de valores posibles en cualquier intervalo de valores dados. Por lo tanto la medida exacta jamás será lograda en este tipo de variables, por lo tanto las medidas que se obtienen son inexactas o aproximadas, por lo tanto para estudiar estadísticamente una variable es necesario establecer una unidad de medida que permita sistematizar el análisis. Para tener una aproximación más cercana al valor real de la medida exacta se determinaran los límites del valor real de acuerdo con la siguiente ecuación

Valor exacto = Valor informado ± ½ unidad de medida

Page 7: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo I

pág. 7

Ejemplo Sea la unidad de medida el kilogramo, y un alumno tiene un peso de 56 kilogramos, el peso real se encontrará dentro de los límites que resultan de aplicar la ecuación. 56 – ½ kgs = 55,5 kgs y 56 + ½ kgs = 56,5 kgs Podemos decir que no es el valor real sino que entre esos límites, 55,5 y 56,5, probablemente se encuentre el valor más cierto. Redondeo de los números Como lo hemos señalado las medidas no son exactas sino aproximadas ya que los instrumentos de recolección son materiales y se pueden cometer errores de medida, de este modo las cifras son aproximadas por exceso o por defecto, de allí que el redondeo consiste en la eliminación de una o más cifras de un número en el más próximo posible. Si la medida que se está redondeando se ha hecho con precisión o exactitud se conviene en que el error por defecto o por exceso sea 0,5 unidades de la última cifra que se presenta. Para el redondeo de los números es necesario tener algunas técnicas para que sea lo más conveniente y universal posible. Regla 1 Si la cifra siguiente a la que se va a redondear es menor que cinco, se redondea por defecto, es decir la cifra permanece igual. Ejemplo

Cifra Redondear Resultado

7,5816 centésimas 7,58

4,64 décimas 4,6

132,4 unidad 132

284 decenas 280

Regla 2 Si la cifra siguiente a la que se va a redondear es mayor que cinco, se redondea por exceso, es decir la cifra se debe aumentar en una unidad. Ejemplo

Cifra Redondear Resultado

7,5817 Milésimas 7,582

4,67 Décimas 4,7

139,8 Unidades 140

289 Decenas 290

Regla 3 Si la cifra siguiente a la que se va a redondear es igual a cinco y a continuación la cifra es igual a cero, puede ocurrir 3. a. si la cifra anterior al cinco es par, se redondea por defecto Ejemplo

Cifra Redondear Resultado

7,465 centésimas 7,46

4,65 décimas 4,6

Page 8: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo I

pág. 8

132,5 unidad 132

2,8665 milésimas 2,866

3. b. si la cifra anterior al cinco es impar, se redondea por exceso Ejemplo

Cifra Redondear Resultado

7,475 centésimas 7,48

4,35 décimas 4,4

133,5 unidad 134

2,8615 milésimas 2,862

Regla 4 Si la cifra siguiente al digito que vamos a redondear es igual a cinco y a continuación existe cualquier otro número distinto de cero (0) se redondea por exceso. Ejemplo

Cifra Redondear Resultado

7,4651 centésimas 7,47

4,252 décimas 4,3

0,51 unidad 1

2,86253 milésimas 2,863

El conocimiento de estos conceptos y elementos básico es necesario para enfrentar la utilización del procesador estadístico, ya que para enfrentarlo debemos conocer de la mejor manera su fundamentación teórica. A continuación se presenta una serie de ejercicios para que identifiquen los conceptos manejados al principio de esta unidad. Ejercicios 1. Categorice cada una de las siguientes medidas según su pertenencia o no a las escalas nominal, ordinal, de intervalo o razón. a. Identificación de las zonas postales según sus respectivos números. b. Posición académica (profesor asistente, agregado, asociado, titular) c. Sistema métrico para medir distancias. d. Números de teléfonos. 2. Un profesor construye una prueba de ortografía seleccionando una muestra de 200 palabras de un diccionario. a. Si el profesor califica su prueba de una de las siguientes maneras ¿cuál es la escala de medida que emplea? "O" si el alumno escribió al menos un plural con algún error. "1" el alumno escribió todos los plurales correctamente. b. Si el profesor cuenta el número de palabras correctamente escritas y denomina tal hecho como "la habilidad para escribir con ortografía", ¿cuál es la escala de medida a la que está recurriendo? 3. Determinar los límites reales que corresponden al valor obtenido en los ejemplos siguientes: Sensibilidad de Valor

Page 9: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo I

pág. 9

Variable la medida Obtenido a. Edad Al mes más cercano 6 años 5 meses b. Peso Al gramo más próximo 2 Kgs. 13 gramos

c. Valor monetario Al bolívar más cercano Bs. 343

Page 10: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo II

Pág 10

CAPITULO II: Procesadores Estadísticos Conceptos Básicos El computador es un instrumento que se relaciona básicamente con el procesamiento y calculo de datos, en pocas palabras es una máquina que convierte un conjunto de datos en información utilizando una serie de instrucciones para ello. Este conjunto de instrucciones se llama software y es un programa que puede ser una aplicación de Windows, un procesador estadístico o cualquier software que permita la realización del mismo. Entre los procesadores estadísticos existen una gran gama que depende de la adecuación que tengan los usuarios a su ergonomía los pueden seleccionar, por ejemplo: el Statgraphics, SPSS, el SAS, Minitab, Systat, BMPD, etc, también existen aplicaciones del Office como el Excel.

Fig. 2.1. Presentación del Statgraphics

Fig. 2.2. Presentación del SPSS

Page 11: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo II

Pág 11

Fig. 2.3. Presentación del Excel Esas aplicaciones son de las comunes en el mercado, pero es necesario señalar que los manejos son diferentes entre ellos pero los mismos pueden importar bases de datos de cada uno de ellos y adecuarlas, por lo tanto el usuario que pretenda elaborar análisis estadísticos con la utilización de ellos debe tener conocimiento básico del sistema operativo Windows ya que sino lo posee la ejecución no será la adecuada así como también conocimientos de estadística como estudiamos en el capitulo anterior.

Cualquier paquete estadístico deberá implementar como mínimo los estadísticos tradicionales: descriptivos, frecuencias, medidas de tendencia central, medidas de dispersión, correlación, contraste de hipótesis, tablas y coeficientes de contingencia, análisis de varianza y medidas de fiabilidad, contraste no paramétricos y un largo etcétera. De los mundialmente conocidos y señalados en el presente manual manejaremos el Statgraphics Plus, el cual es un software que integra una gran variedad de funciones estadísticas, gráficos de alta resolución y fue elaborado por STSC, INC. and Statistic Graphial Corporation. Para la activación de cualquier paquete estadístico el usuario debe ubicar el icono respectivo y accionarlo mediante el mouse, o dirigirse al botón inicio, seleccionar programas y hacer clic en el Statgraphics. El icono del Statgraphics Plus (Versión 5.1) aparece a continuación:

Fig. 2.4. Icono del Statgraphics Plus Con este icono se activara el paquete estadístico y se podrán efectuar las distintas operaciones para las cuales fue elaborado. Este producto permite, en la gran mayoría de los casos, el trabajo interactivo; por ejemplo presenta los procedimientos estadísticos y su gráfico, lo cual permite personalizarlos. Además presenta una herramienta denominada StatFolio la cual permite almacenar trabajos completos realizados para posteriormente volver a usarlos sin necesidad de tratarlos, o sea que se pueden guardar y recuperar rápidamente en su totalidad. Luego de activar el referido paquete presenta la siguiente pantalla

Page 12: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo II

Pág 12

Fig. 2.5. Pantalla principal del Statgraphics

En la cual se debe accionar maximizando la ventana Sin Nombre para que se presente la hoja de trabajo en la cual poder construir la base de datos para el análisis respectivo de acuerdos a los datos recogidos, quedando así:

Fig. 2.6. Hoja de cálculo del Statgraphics De esta pantalla es de mucha importancia la barra de menú y los iconos los cuales permiten realizar rápidamente las diferentes operaciones:

Page 13: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo II

Pág 13

Abrir StatFolio Guardar StatFolio

Abrir archivo de datos Guardar archivo de datos Cortar Copiar

Pegar Imprimir

Fig. 2.7. Barra de menús e iconos de la hoja de cálculo del Statgraphics

Estos serán los principales iconos para manejar la base de datos que se esta creando o se va a crear. Así mismo nos encontramos con la barra de menú la cual presenta diferentes opciones que van desde: Archivo, Edición, Gráficos, Descripción (Estadística Descriptiva), Comparación (Estadística Inferencial), Dependencia (Regresión lineal), Avanzado (Varias técnicas estadísticas), SnapStat!! Ver, Ventana y Ayuda, al pulsar cada uno de ellos aparecerá un menú emergente con una serie de posibles comandos para ser ejecutados de los cuales mostraremos en esta parte los que pueden servir para el manejo de la base de datos principalmente, los otros serán tratados en capítulos posteriores.

Page 14: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo II

Pág 14

Fig. 2.8. Menús tipo persiana del Statgraphics Conjuntamente con la ventana Sin Nombre aparecen otras tres ventanas, a saber StatAdvisor, es una herramienta la explica los resultados generados por el Statgraphics, también sugiere otros posibles análisis que se pudiesen realizar, otra ventana que se encuentra minimizada es StatGallery (archivos gráficos) nos permite guardar los gráficos generados y StatReporter esta herramienta permite generar comentarios acerca de los análisis que se realicen. Cuando se genere una base de datos es necesario identificar los elementos que corresponden con las filas las columnas y las celdas, a saber

Page 15: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo II

Pág 15

Variables o atributos Registro o unidad estadistica .

Dato

Fig. 2.9. Ubicación de los elementos en la hoja de cálculo Creación de una base de datos Para crear una base de datos y poder realizar análisis estadísticos a partir de ella realizar operaciones con las diferentes variables, en primera instancia se debe activar el Statgraphics Plus, como se indicó, al ejecutar esta acción le desplegará la ventana correspondiente con cuatro ventanas minimizadas en la parte inferior, ver pagina tres, siendo la ventana Sin Nombre, la que debe restaurar para trabajar. Considere que está creando una base de datos vacía, se hace necesario considerar el tipo de variable, si es numérica es aceptada por defecto, si es alfanumérica o carácter es rechazada y debe ser configurada para poder ser aceptada.

1. Seleccionar la columna 2. Menú emergente (Pulsar botón derecho del ratón) 3. Seleccionar Modificar columna 4. Nombre de la variable. 5. Tipo (Activar el deseado, seleccionar Carácter, si es alfanumérica) 6. Pulsar el botón Aceptar 7. Cargar la variable

Estos pasos se repiten cada vez que necesitemos crear una variable dentro de esta base de datos que se está creando.

GUARDAR UN ARCHIVO DE DATOS Si ya ha sido creada la base de datos es necesario archivarla para evitar estar creando en cada sesión de trabajo una. El Statgraphics Plus las archiva en una carpeta denominada DATA cuando se guarda en el disco duro de la computadora, si lo va a realizar en un disquete o en un disco removible (pen driver) es necesario direccionarlo para que quede en el mismo. Forma 1

1. Botón Archivo de la Barra de menú. 2. Si es primera vez seleccionar Guardar como, Guardar Datos como, pero si desea

guardarlo con otro nombre debe seleccionar, Guardar Datos como. 3. Colocarle un nombre 4. Pulsar el botón Guardar Si se esta guardando por primera vez este archivo aparecerá el nombre asignado en la parte superior de la ventana.

Forma 2. 1. Pulse el icono con la figura del Disquete y números 1234 en la barra de herramientas 2. Continuar con los pasos de la forma anterior desde el número 2.

70

Page 16: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo II

Pág 16

ABRIR UN ARCHIVO DE DATOS EXISTENTE Si el archivo de datos fue creado con anterioridad y requerimos trabajar nuevamente con el, debemos abrirlo y se puede realizar de dos formas: Forma 1

1. Pulsar en la barra de menú el botón Archivo. 2. Seleccionar Abrir, Abrir Datos 3. Escoger el nombre del archivo seleccionado 4. Pulsar el botón Abrir 5. Aparece en ventana minimizada, que se debe restaurar para observarlo.

Forma 2. 1. Pulsar el icono con forma de Hoja de cálculo (Tercero de izquierda a derecha). 2. Seleccionar el nombre del archivo. 3. Pulsar el botón Abrir 4. Aparece en ventana minimizada, que se debe restaurar para observarlo.

En un archivo creado de datos creado se pueden realizar distintas operaciones con las variables existentes, tales como recodificar variables, generar variables nuevas a partir de las creadas. RECODIFICANDO VARIABLES Recodificar variables significa por ejemplo utilizar una variable de tipo alfanumérica (carácter) y convertirla en una variable tipo carácter o numérica.

1. Marcar la columna 2. Menú emergente (Pulsar el botón derecho del mouse) 3. Seleccionar Recodificar Datos 4. Establecer los límites inferior, superior y el nuevo valor. 5. Verificar las condiciones de los límites 6. Pulsar el botón Aceptar

Así mismo se pueden recodificar variables numéricas en intervalos u otros números y efectuar las operaciones que se receten de acuerdo a la investigación. GENERAR UNA NUEVA VARIABLE A PARTIR DE LAS EXISTENTES Con las variables existentes se pueden crear nuevas variables, mediante diferentes operaciones como de igualar (numéricas o carácter), o en relaciones mayor que, menor que. Los operadores que permiten realizar operaciones matemáticas, entre los más comunes, están +, -, *, /, SQRT, LOG, se pueden realizar distintas operaciones como son fórmulas

1. Ubicarse en la columna donde va a ser generada la nueva variable. 2. Marcar la columna. 3. Menú emergente. 4. Seleccionar Generar Datos (Muestra el cuadro Generar Datos) 5. Señalar las condiciones para la nueva variable, a que variables va utilizar y cuales

operadores utilizar. Por ejemplo que exista una variable denominada Nota y se necesita seleccionar solamente los varones, quedaría NOTA SELECT(sexo =”varón”), se crea una nueva variable utilizando las notas de solamente en los varones.

6. Confirmar pulsando el Botón Aceptar (se genera la nueva variable en la columna seleccionada)

GUARDAR ARCHIVOS DE DATOS Y RESULTADOS A LA VEZ Ejecute sus procedimientos y en lugar de borrarlos minimice las ventanas, recuerde que debe aparecer el nombre del procedimiento(s) y la(s) variable(s).

1. Pulse el icono en forma de Disquete (Segundo de la barra) solo, le preguntará Guardar StatFolio Como

2. Asigne nombre 3. Guardar

Page 17: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo II

Pág 17

Al continuar guardando en la misma sesión o cuando lo cargue, solo pulse el icono y se ejecutará la acción (Lo puede realizar por Archivo, en la barra de menú) ABRIR ARCHIVOS DE DATOS Y RESULTADOS A LA VEZ Si guardó el archivo de datos y los resultados del mismo mediante el StatFolio, podrá recuperarlos mediante el siguiente procedimiento

1. Pulse el primer icono de la barra de herramientas (La carpeta), le preguntará Abrir StatFolio.

2. Seleccione el nombre del archivo. 3. Abrir.

Será cargado la base de datos y los resultados que tiene guardados, con los cuales podrá seguir realizando los análisis que necesiten. TRABAJANDO CON EL COMANDO EDICION DE LA BARRA DE MENU Permite recortar, copiar, pegar, cambiar el tipo de letra, cambiar el título del análisis, insertar, borrar y ordenar el archivo. COPIAR O CORTAR

1. Marcar la(s) columna(s) o fila(s). 2. Ejecutar Cortar (Icono Tijera) o Copiar (Icono dos hojas papel).

PEGAR LO COPIADO O CORTADO 1. Posicione el punteo donde desee ubicar lo copiado o cortado. 2. Pulse Pegar del menú o el séptimo icono.

CAMBIAR EL TIPO DE LETRA DEL ANALISIS

1. Edición. 2. Cambiar Título del Análisis. 3. Seleccionar en el cuadro: Fuente, Estilo, Tamaño, Tipo de alfabeto y luego aceptar.

INSERTAR

1. Posicione el cursor en la celda donde va a insertar. 2. Si es una columna o fila marcarla. 3. Edición. 4. Insertar. Ya se ejecuta la acción.

BORRAR Repita los pasos 1, 2, 3 de Insertar. 4. Borrar. Y se ejecuta la acción.

ORDENAR VARIABLES En estas operaciones también se pueden realizar por ejemplo ordenar una variable de acuerdo a constitución se procede de la siguiente manera:

1. Marcar la columna (Variable) 2. Pulsar el botón Edición de la barra de menú 3. seleccionar Ordenar Datos (aparecerá un cuadro de diálogo). 4. Seleccionar si el orden es Ascendente o Descendente. 5. Pulsar el botón Aceptar, se ejecuta la acción, es necesario tener cuidado ya que se

realiza en la misma columna.

Page 18: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo II

Pág 18

Ejercicio 1. Los siguientes datos corresponden a una muestra aleatoria hipotética de la Facultad de Ciencias de la Educación, la cual es objeto de investigación: Sujeto Sexo Sección Edad Turno Lógica Matemática Estadística Esp. 1 F 11 21 M 06 03 05 Soc 2 F 71 22 N 13 04 07 LL 3 F 13 25 M 07 10 08 Ing 4 M 72 22 N 14 11 09 LL 5 M 71 25 N 12 10 10 LL 6 F 12 21 M 10 05 12 Soc 7 M 12 27 M 13 12 10 Ing 8 M 12 19 M 06 02 11 Ing 9 F 71 20 N 05 05 05 LL 10 F 72 20 N 01 04 06 LL 11 M 71 19 N 03 12 12 Soc 12 F 13 20 M 01 10 10 LL 13 M 12 23 M 07 16 16 Ing 14 F 11 22 M 05 12 13 LL 15 M 11 21 M 12 16 10 Soc 16 F 72 25 N 10 14 17 Ing 17 M 71 26 N 16 09 18 Ing 18 F 13 27 M 14 17 19 Soc 19 F 72 28 M 03 12 10 Ing 20 F 11 20 N 02 10 09 Soc Antes de realizar cualquier operación adecué el sistema a que lo que realice quede archivado en su disco de trabajo. 1. Construya una base de datos denominada Ejercicio 1. 2. Edite el archivo y cree las variables de acuerdo a las características. 3. Cree una variable denominada edad1 donde se seleccione de la variable edad

solamente los alumnos del turno de la noche. 4. Cree una variable denominada mating donde se seleccione de la variable Matemática los

alumnos de Inglés. 5. Cree una variable denominada lomaes donde la calificación de Lógica aporte el 35%,

Matemática el 27% y Estadística el resto. 6. Cree una variable denominada fórmula1 que responda a la siguiente fórmula: (Lógica + Matemática + Estadística)2 ------------------------------------------------- . 20 5 7. Cree una variable denominada Estafs donde se seleccione de la variable Estadística los

que sean del sexo F y de la especialidad Soc. 8. Cree una variable denominada logest donde se seleccione de la variable Lógica, los

alumnos que tengan puntuaciones iguales o superiores a 8 puntos en Estadística. 9. Genere una variable denominada sexo1, mediante la remodificación de la variable sexo,

colocando como etiqueta la categoría respectiva en palabra (femenino, masculino) sin que se pierda la variable original.

10. Genere una variable denominada edadrec, mediante la remodificación de la variable edad, con las siguientes categorías inicial, para el intervalo 19 - 21, media para 22 - 25 y adulto para 26 – 28.

11. Todas las operaciones ejecutadas deben ser almacenadas en un archivo StatFolio denominado Resultados 1, ya que serán usados a posteriori.

Page 19: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo II

Pág 19

Ejercicio 2 En un instituto de educación superior de la región se tiene la siguiente información de los graduados en su última promoción de TSU

Nombre Bachiller TSU Indice Acad Promedio Mireya Ciencias Informática 43,40 13,25 José Ciencias Turismo 61,72 14,78 Miguel Humanidades Informática 60,40 14,25 Rafael Humanidades Informática 59,37 16,75 Ana Ciencias Ed. Especial 59,65 15,47 Xiomara Ciencias Ed. Especial 47,25 18,33 Carmen Humanidades Turismo 55,95 16,28 Juan Ciencias Informática 48,30 10,47 Luisana Humanidades Turismo 48,50 11,56 Henry Humanidades Informática 50,35 12,45 Magaly Ciencias Ed. Especial 49,70 11,28 Susana Humanidades Ed. Especial 63,25 15,58 Egilda Humanidades Ed. Especial 54,25 14,35 Johanna Ciencias Informática 60,10 17,86 Victor Ciencias Ed. Especial 55,15 13,25 Carlos Ciencias Turismo 47,40 13,47 Dannela Humanidades Informática 47,25 12,11 Yamerly Humanidades Informática 58,25 15,48 Mary Ciencias Informatica 60,15 19,33 Rosangela Ciencias Turismo 45,50 11,28

a. Construya una base de datos denominada Ejercicio 2. b. Edite el archivo y cree las variables de acuerdo a las características. c. Cree una variable denominada CAMBIO donde seleccione de la variable TSU

solamente los alumnos de la especialidad de Turismo. d. Genere una variable denominada inaprom donde Índice Académico aporte las

dos terceras partes y la variable promedio aporte lo restante. e. Genere una variable denominada indice1 donde de la variable Índice

Académico se seleccione los que tengan puntuaciones iguales o superiores a 49,50.

f. Cree una variable denominada promci donde seleccione de la variable Promedio los que sean Bachiller en Ciencias y del TSU Informática.

g. Si del índice académico solo se seleccionan para continuar los que posean puntuaciones iguales o mayores a 58,75 puntos, cree una variable denominada IAS con la etiqueta en categorías seleccionado y no seleccionado.

h. Genere una variable denominada IAT donde el índice académico sea transformado a una escala de 1 a 20.

i. Si la variable Promedio aporta el 40% y el índice académico aporta el porcentaje restante, genere una variable denominada IAA.

j. De la variable IAA, genere una variable denominada IAAR, para cual recodifique y etiquete los mayores o iguales a 10 como admitidos y los restantes con no admitidos.

k. Todas las operaciones ejecutadas deben ser almacenadas en un archivo StatFolio denominado Resultados 2, ya que serán usados a posteriori.

Page 20: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo III

pág. 20

CAPITULO III: ORGANIZACIÓN Y REPRESENTACIÓN GRÁFICA DE LOS DATOS. A partir de este momento vamos a comenzar la utilización del paquete estadístico Statgraphics Plus para el procesamiento de datos y la obtención de resultados dependiendo de las necesidades de la investigación. En los conceptos básicos desarrollados en el primer capítulo hicimos referencia al dato y se dijo que estaba referido a números o medidas que se han obtenido de diferentes fuentes, a saber: pruebas, encuestas y experimentos y en el procesador se ubican en las celdas. Existe otro concepto el cual va a transitar por todo el análisis de datos y la estadística el cual el de frecuencias, se refiere al número de unidades estadísticas que tienen un valor o atributo particular, por ejemplo el número de individuos a favor de cierta actitud. Tipos de frecuencias Absoluta (f) Ordinaria Relativa (h)

Frecuencias

Acumulada Absoluta (F) Relativa (H) Frecuencia Ordinaria Absoluta (f): Consiste en el número de repeticiones de las unidades estadísticas que poseen determinada medida. Frecuencia Ordinaria Relativa (h): Consiste en la proporción de datos o unidades estadísticas que poseen determinada medida, si se multiplica por cien (100) se convierte en porcentaje. Frecuencia Acumulada Absoluta (F): Consiste en la acumulación se unidades estadísticas o datos que poseen una determinada medida, esta acumulación puede realizarse desde el dato menor, o puede ser lo que existe acumulado en un determinado rango de valores de la medida. Frecuencia Acumulada Relativa (H): Consiste en la acumulación se proporción de datos unidades estadísticas o datos que poseen una determinada medida, esta acumulación puede realizarse desde el dato menor, o puede ser lo que existe acumulado en un determinado rango de valores de la medida, si se multiplica por cien (100) se convierte en porcentaje acumulado. En estadística en necesario el agrupamiento de los datos, para lo cual debe considerarse el tipo de escala de medida que se utiliza para la obtención de la medida en la variable, de allí que una forma muy sencilla es agruparlos en forma ordenada.

Fig. 3.1. Tabla de frecuencias ordenada

Page 21: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo III

pág. 21

Otra forma de organizar los datos es mediante la distribución de frecuencias y consiste en colocar los datos y al lado el número de veces que se repite y la suma de todas constituye el total y se representa por n, cuando las frecuencias se corresponden con las datos originales se conoce esta organización como distribución con datos directos, existe otra forma de organizar los datos y es por medio de las distribuciones de frecuencias agrupadas en intervalos, estas formas de organización corresponden a variables medidas en escala de intervalos o razones, cuando las variables son recogidas en escala nominal u ordinal y se presentan en una tabla esta se conoce como distribución de frecuencias para datos categóricos.

CONSTRUIR TABLAS DE FRECUENCIAS PARA VARIABLES CATEGÓRICAS Cuando en una investigación los instrumentos de recolección de datos suministran información en las escalas de medidas nominal u ordinal, se construye una distribución de frecuencias para datos categóricos, que muestra las modalidades de la variable y las frecuencias correspondientes, para ello se procede de la siguiente manera:

1. Pulse botón Descripción de la barra de menú. 2. Del menú emergente seleccione Datos Cualitativos. 3. Seleccione a continuación Tabulación. 4. Elija la Variable objeto de estudio. 5. Pulse el botón Aceptar. 6. Muestra cuatro ventanas, una de resumen del procedimiento, la tabla de frecuencias

y dos gráficos, diagrama de barras y diagrama de sectores.

Fig. 3.2. Resumen analítico

Fig. 3.3. Tabla de frecuencias del Statgraphics

En la tabla que nos muestra la fig. 3.3., encontramos Valor, lo cual corresponde a las modalidades de la variable, Frecuencia (frecuencia ordinaria absoluta, f), Frecuencia Relativa (frecuencia ordinaria relativa, h), Frecuencia Acumulativa (frecuencia acumulada absoluta, F) y Frecuencia Acum. Rel. (Frecuencia acumulada relativa, H). Observación: Si usted va a guardar tanto los datos como los resultados de los análisis realizados mediante el StatFolio, se recomienda que para ello cada vez que realice un

Page 22: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo III

pág. 22

análisis no borre la ventana de trabajo sino que la minimice y además le coloque un nombre para tener claramente identificada cada una de ellas, con el análisis respectivo. Para lo cual se procede de la siguiente manera:

1. Haga clic en la barra de menú en Edición. 2. Del menú emergente seleccione Cambiar Título del Análisis. 3. En el cuadro mostrado escribir el título del análisis. 4. Pulsar Aceptar. De inmediato se genera el nuevo título de la ventana.

Si la tabla a construir es de dos categorías se debe utilizar una tabla de doble entrada o cruzada, en la cual las frecuencias corresponden simultáneamente a las modalidades de los atributos, en el paquete estadístico se trabaja de la siguiente manera:

1. Pulse botón Descripción de la barra de menú. 2. Del menú emergente seleccione Datos Cualitativos. 3. Seleccionar Tabulación Cruzada. 4. Indicar la variable que desea que vaya por la columna y la fila. 5. Pulsar Aceptar. Presenta cuatro ventanas: dos de texto (Resumen del procedimiento y tabla de frecuencias) y dos gráficas (Diagrama de barras y Gráfico de mosaico), mostramos la tabla cruzada, si desea puede escoger la forma como presentar los porcentajes para ello pulse el botón derecho del Mouse y del menú emergente escoja la forma.

Fig.3.4. Tabla cruzada de frecuencias del Statgraphics

DISTRIBUCION DE FRECUENCIAS AGRUPADAS EN INTERVALOS Consiste en el agrupamiento de varias clases de datos creadas las cuales son mutuamente excluyentes, en donde éstas se definen en términos de los intervalos de agrupamientos empleados. Elementos de un intervalo

Fig.3.5. Represtación de elementos de un intervalo

Li

Ls Xi Xs Xm

i

Page 23: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo III

pág. 23

Li: Límite inferior real y corresponde al limite aparente del intervalo menos la mitad de unidad de medida. (Ver pág. 7, unidad I) Xi: Límite inferior aparente. Ls: Límite superior real y corresponde al limite aparente del intervalo mas la mitad de unidad de medida. Xs: Límite superior aparente. Xm: Punto medio, consiste en el punto equidistante entre los límites del intervalo, superior e inferior, es el punto más representativo del intervalo, se determina manualmente mediante la siguiente fórmula: Para la construcción de la distribución de frecuencias agrupadas en intervalos no existe una regla fija en cuanto al número de intervalos, pero debe tenerse en cuenta que no sean muy grandes ya que se perdería la discriminación original, ni muy pequeños porque se desvirtúa el objetivo de agruparlos, aunque se acepta en la mayoría de los textos que se utilicen entre 10 y 15 intervalos, cuando se haya decidido el número de ellos, se procede a utilizar el paquete estadístico para elaborar la misma mediante la siguiente secuencia:

1. Pulsar en la barra de menú Descripción. 2. En el menú emergente seleccionar Datos Numéricos. 3. Luego se selecciona Análisis Unidimensional. 4. Seleccionar la variable deseada. 5. Pulsar el botón Aceptar. Se presentan como resultados cuatro ventanas: dos de texto (Resumen del procedimiento y resumen estadístico) y dos gráficas (Diagrama de dispersión y Gráfico de caja y bigotes), para continuar con el análisis, 6. Seleccionar el icono Opciones Tabulares. 7. Seleccionar del cuadro de dialogo Tabla de frecuencias, que mostrará la distribución

de acuerdo a los objetivos planteados, para cambiar la estructura de la tabla en cuanto el número de intervalos se pulsa sobre la hoja de trabajo el botón derecho del mouse y del menú emergente que se presenta selecciona Opciones de Ventanas, y se completa de acuerdo a lo que se necesite, número de clases, límite inferior, límite superior se pulsa Aceptar y presenta la nueva tabla.

Fig. 3.6. Tabla de frecuencias para variables continúas del Statgraphics

Como se ve en la tabla se encuentran los elementos del intervalo, siendo los límites, el punto medio y los diferentes tipos de frecuencias.

22

LsLiXsXiXm

Page 24: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo III

pág. 24

REPRESENTACIONES GRAFICAS No cabe duda que una distribución de frecuencias bien construida presenta claros resultados y ofrece un buen medio para poder obtener fructíferas conclusiones, pero también es indudable, que si el contenido de las tablas lo expresamos, no con números, sino valiéndonos de gráficos sencillos pueden resultar las interpretaciones de una manera más clara y su conocimiento intuitivo quedar fácilmente grabado en el lector de la investigación. Para la elección del gráfico es necesario tener en cuenta dos factores: la naturaleza de los datos y el fin u objetivo al que se destina el gráfico. Tipos de Gráficos

Fig. 3.7. Tipos de gráficos según el carácter Histograma Es uno de los gráficos más utilizados para la representación de las variables continuas, configurado por una serie de barras o rectángulos levantados sobre el eje de las abscisa, cuya base es la amplitud de los intervalos de una distribución de frecuencias, la altura de los rectángulos es la cantidad de datos correspondientes a cada intervalo, es decir la frecuencia ordinaria absoluta. Secuencia para elaborar el histograma con el procesador.

1. Pulsar en la barra de menú Descripción. 2. En el menú emergente seleccionar Datos numéricos. 3. Luego se selecciona Análisis Unidimensional. 4. Seleccionar la variable deseada. 5. Pulsar el botón Aceptar. Aparecen nuevamente las cuatro ventanas, luego 6. Seleccionar el icono Opciones gráficas, eliminando las opciones de gráfico de

dispersión y caja de bigotes. 7. pulsar el botón de Aceptar.

Al realizar esta secuencia aparece al lado derecho de la ventana el gráfico, histograma, para poder trabajar con su configuración es necesario activarlo para lo cual se hace doble clic y se agranda, en este modo se pueden cambiar el tipo de letra, colores, por ejemplo para cambiar el título del gráfico se hace clic sobre el mismo y es marcado, luego se pulsa el botón derecho del mouse y muestra un menú emergente del cual se selecciona opciones

Caracteres

Cuantitativos Cualitativos

Variables Continuas

Variables Discretas

Diagrama

de Pastel Diagrama de barras

Histograma Polígono de frecuencias

Curva Acumulada

Diagrama de barras

Diagrama de Pastel

Page 25: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo III

pág. 25

gráficas, se hace la modificación deseada, también se puede cambiar el tipo de letra, el color y tamaño seleccionando la opción línea de fuentes, este procedimiento es permitido también en las identificaciones de los ejes de ordenadas, rellenos, diseño, título principal..

Fig. 3.8. Histograma que muestra el Statgraphics

Polígono de Frecuencias Literalmente la palabra polígono significa “figura de muchos ángulos”, y para construirlo se utilizan los puntos medios en el eje de las abscisas y las frecuencias ordinarias absolutas en el eje de la ordenada, así la intersección entre ellos señalara un punto que luego unido con los demás representará una figura con entrantes y salientes, que finalmente tienen el mismo significado que el histograma, los puntos más elevados representan las mayores frecuencias obtenidas. Para construirlo con el procesador se siguen los mismos pasos que con el histograma pero en lugar de este se selecciona tipo de gráfico Polígono.

Fig. 3.9. Polígono que muestra el Statgraphics Curva de Porcentajes Acumulados Es un gráfico utilizado para variables continuas, y se construye tomando en cuenta los porcentajes acumulados de una distribución de frecuencias (H %), en el eje de las ordenadas y los límites de los intervalos en el eje de la abscisa. Como el porcentaje que siempre se usa es el acumulado siempre se genera una curva en sentido ascendente; es útil cuando se quiere determinar en forma gráfica porcentajes acumulados, o los valores de un determinado porcentaje.

Page 26: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo III

pág. 26

El procedimiento es idéntico al del polígono, pero se selecciona polígono, y en el tipo de frecuencia relativa y acumulada y presenta el siguiente gráfico Fig. 3.10. Curva de porcentajes que muestra el Statgraphics Diagrama Circular o de Pastel Este gráfico se utiliza en variables cualitativas que no presenten gran cantidad de categorías o modalidades, permite poner de manifiesto los porcentajes o frecuencias, consiste en presentar sectores proporcionales al porcentaje correspondiente a la característica considerada, de manera que la comparación entre un sector y el total es fácil de interpretar. Secuencia para elaborar el diagrama circular con el procesador.

1. Pulsar en la barra de menú Descripción. 2. En el menú emergente seleccionar Datos Cualitativos. 3. Luego se selecciona Tabulación. 4. Pulsar el botón Aceptar.

Se generan las cuatro ventanas, que se señalaron anteriormente. En esas ventanas al lado derecho aparecen el diagrama de sectores y el diagrama de barras, este es mostrado en diferentes colores o tramas en las categorías y de ellas al lado derecho muestra una leyenda identificándolas, además muestra, por defecto, el porcentaje de cada una de ellas, el cual puede ser modificado por frecuencias. Los cambios de textos, tipo de letra, colores, etc., se realizan igual que en los gráficos continuos (Ver histograma).

Fig. 3.11. Diagrama de Pastel que muestra el Statgraphics

Page 27: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo III

pág. 27

Diagrama de Barras Se utiliza para representar variables discretas o atributos, las barras son separadas porque no existe una continuidad en la variable, y son anchas. Cada rectángulo representa una categoría, y en conjunto deberán tener una base constante y una altura proporcional a la frecuencia absoluta correspondiente. Para generar el diagrama de barras se realiza la misma secuencia que el diagrama de pastel o la tabulación para datos cualitativos. Este gráfico, se presente en sentido horizontal pero puede ser editado y cambiado a vertical, así como otras modificaciones a fin de mejorarlo.

Fig. 3.12. Diagrama de barras que muestra el Statgraphics Se pueden también construir diagramas de barras para las tablas cruzadas.

Fig. 3.13. Diagrama de barras compuesto que muestra el Statgraphics

Page 28: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo III

pág. 28

EJERCICIOS A. Con la base de datos denominado EJERCICIO 1 de la unidad anterior y utilizando los comandos y técnicas adecuados responda los siguientes planteamientos: 1. Con la variable creada en el numeral 5 del Ejercicio Nº 1, elabore un análisis de

frecuencias que contenga ocho intervalos y use los datos desde el menor al mayor. 2. Para la variable creada en el numeral 6 del Ejercicio Nº 1, elabore La tabla de

frecuencias para 10 intervalos, construya el histograma de frecuencias correspondiente, el polígono y la curva de porcentajes acumulados, con los ajustes necesarios para los textos, tipo de letras y colores, .

3. Para la variable matemática elabore un análisis de frecuencia, para aquellos alumnos que sean de la especialidad de Inglés, para ello utilice 10 intervalos y elabore el polígono de frecuencias con las leyendas correspondientes.

4. Obtenga la tabla de frecuencias para la variable especialidad la cual debe ser generada por recodificación con etiquetas completas.

5. Genere el gráfico más adecuado para la tabla obtenida en el planteamiento anterior. 6. Tabule las variables sección y especialidad en una sola tabla, así mismo represente la

tabla en un solo grafico. 7. Elabore los diagramas de barras y de pastel de las variables alfanuméricas. 8. Elabore una tabla cruzada donde la edadrec ocupe las columnas y sexo1 las filas, que

los porcentajes se presenten por columnas, y represéntelos gráficamente con quien lo haga de manera más adecuada.

9. Guarde los resultados de este ejercicio en el archivo StatFolio denominado Resultados 1.

B. Con la base de datos denominado EJERCICIO 2 de la unidad anterior y utilizando los comandos y técnicas adecuados responda los siguientes planteamientos:

1. Con las variables numéricas, elabore un análisis de frecuencias que contenga siete intervalos y use los datos desde el menor al mayor.

2. Para la variable creada en el literal d, elabore La tabla de frecuencias para 9 intervalos, construya el histograma de frecuencias correspondiente, el polígono y la curva de porcentajes acumulados, con los ajustes necesarios para los textos, tipo de letras y colores.

3. Para la variable generada en el literal e elabore un análisis de frecuencia, para ello utilice 10 intervalos y elabore el polígono de frecuencias con las leyendas correspondientes.

4. Con la variable cambio, generada en el literal c, realice el análisis de frecuencia correspondiente, generado por defecto y los gráficos que mejor lo representan.

5. Obtenga las tablas de frecuencias para la variable bachiller y TSU. 6. Genere los gráficos más adecuados para las tablas obtenidas en el planteamiento

anterior. 7. Tabule las variables alfanuméricas en una sola tabla, así mismo represente la tabla

en un solo gráfico. 8. Para la variable IAA genere una tabla de frecuencias con 8 intervalos y señale

cuantos y que porcentaje de alumnos esta por encima de 8 puntos, además muestre el gráfico más adecuado.

9. De la variable IAAR muestra la tabla de frecuencias y el gráfico más adecuado. 10. Guarde los resultados de este ejercicio en el archivo StatFolio denominado

Resultados 2.

Page 29: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. __ Capitulo IV

pág. 29

UNIDAD IV: MEDIDAS DE TENDENCIA CENTRAL Y DE ORDEN Hasta ahora se han fijado los conceptos fundamentales y las primeras técnicas de la estadística descriptiva, a partir de ahora comenzamos el estudio de algunas medidas que describen los datos sin agrupación o los agrupados en distribuciones, comenzamos por los valores más característicos de una serie y son los que ocupan la parte central de ella, son las llamadas medidas de tendencia central, de allí que esas medidas expresan un valor central, al cual tienen tendencia, o a convertirse los datos de la variable, por lo tanto resumen a estos por ser un valor en termino medio. Las principales medidas de tendencia central son la media aritmética, la mediana y la moda, estos son promedios, los cuales son un valor esperado, probable o frecuente de una variable, referente a todos los valores y en especial a los centrales.

Media Aritmética X

Se define como la suma de las puntuaciones de una variable dividida por el número de ellas, de allí que sea un indicador de las tendencias hacia las posiciones centrales de la de la variable Su fórmula de cálculo para datos directos Datos agrupados Existen calculadoras con funciones estadísticas que realizan estas funciones, así como los paquetes estadísticos para el cual señalamos a continuación la secuencia de determinación de la media aritmética.

1. Pulsar el botón Descripción de la barra de menú 2. Del menú emergente seleccionar Datos Numéricos 3. Seleccionar Análisis Unidimensional. 4. Seleccionar la variable. 5. Pulsar el botón Aceptar 6. Se muestran las cuatro ventanas, resumen del procedimiento, resumen estadístico y el

diagrama de dispersión y el gráfico de caja y bigotes, como producto de esta selección muestra los estadísticos descriptivos más comunes en la ventana de resumen estadístico.

n

Xi

X

n

i 1

n

Xif

X

n

i 1

)*(

n

Xmf

X

n

i 1

)*(

Page 30: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. __ Capitulo IV

pág. 30

Fig. 4.1. Resumen de estadísticos

El valor que corresponde a la media aparece Media = 12,0. Interpretación Se esta trabajando con una variable que se denomina puntos y se ha solicitado el análisis de los descriptivos más comunes y tenemos que el valor de la media es 12 puntos, lo cual se interpretara como la puntuación mas representativa de esa serie de datos, lo cual indica que la serie esta conformada por datos que tienden hacia los 12 puntos, en otras palabras. Propiedades de la media Primera La suma algebraica de las desviaciones de las diversas puntuaciones con respecto a la media es igual a cero. Para demostrarlo con el procesador, es necesario generar una variable producto de que a cada dato se reste el valor de la media y luego activar el resumen estadístico y solicitarle la suma, mediante el uso de la opción de ventana.

Fig. 4.2. Resumen de estadísticos para la nueva variable

Al observar los resultados nos muestra con respecto a la nueva variable que la media es igual a 0 y la suma es igual a 0,0, por lo tanto se ha demostrado la propiedad.

Page 31: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. __ Capitulo IV

pág. 31

Segunda Si a cada puntuación de una serie se suma una constante, las puntuaciones resultantes tendrán una media igual a la original más esa constante. Para demostrar esta propiedad debemos generar una variable en que se sume un valor constante a cada datos por ejemplo tomemos el valor 5, para continuar con la demostración, ahora es el momento de solicitar el resumen estadístico y sus resultados para contrastar la media nueva con la media de la variable original.

Fig.4.3. Media para la variable original Fig. 4.4. Media para la nueva variable

Si observamos los dos resúmenes el primero, fig. 4.3, corresponde a la variable original y la media es igual a 12, mientras que la segunda, fig. 4.4, corresponde a la variable en la que se sumo la constante de 5 a cada dato de la variable, y esta muestra una media de 17 lo cual es igual a la media original mas la constante (12 + 5). Tercera Si a cada puntuación de una serie se multiplica por una constante la media de las puntuaciones resultantes será igual a la media original multiplicada por esa constante. Para demostrar esta propiedad debemos generar una variable en que se multiplique por un valor constante a cada datos por ejemplo tomemos el valor 3.

Fig. 4.5. . Media para la variable original Fig. 4.6. Media para la nueva variable

Si observamos los dos resúmenes la fig. 4.5, corresponde a la variable original y la media es igual a 12, mientras que la fig. 4.6 corresponde a la variable generada en la que se multiplico por una constante de 3 a cada dato de la variable, y esta muestra una media de 36 lo cual es igual a la media original multiplicada por la constante (12 * 3). Cuarta La suma de los cuadrados de las desviaciones de las puntuaciones con respecto a la media es menor que la suma de los cuadrados correspondientes a cualquier otro valor diferente a esa media.

Page 32: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. __ Capitulo IV

pág. 32

Fig. 4.7. Suma de los cuadrados respectos a la media Fig. 4.8. Suma de los cuadrados respectos a cualquier valor

Al observar las dos tablas en la fig. 4.7 simplemente se elevó al cuadrado las diferencias con respecto a la media y se obtuvo una suma igual a 324, mientras que en la fig. 4.8 se le resto cada uno de los datos el valor 9, se obtuvo las diferencias y luego se elevó al cuadrado y se obtuvo una suma igual a 459, de allí que se prueba que los cuadrados de las desviaciones de las puntuaciones con respecto a la media es menor que la suma de los cuadrados correspondiente a cualquier otro valor diferente a la media (324 < 459). Mediana (Xd) La mediana es otra medida de tendencia central importante y se define como el punto numérico que deja por debajo y por encima del mismo el 50% de los casos. Para la determinación del valor de la misma cuando los datos se encuentran solamente ordenados la medina ocupa el lugar central y se corresponde con el valor de la variable en dicho lugar. Para el cálculo se utilizan la siguiente fórmula: Donde, li: limite inferior del intervalo donde esta ubicado el valor a la mediana. lp: lugar de la mediana Fi: frecuencia acumulada absoluta del intervalo anterior a donde se encuentra la mediana. i: amplitud del intervalo. Para la determinación del valor de la mediana mediante el paquete estadístico se utiliza el mismo procedimiento que en la media, pero si observamos en el Resumen Estadístico no aparece la mediana debemos activar la opción para que genere se pulsa el botón derecho del mouse aparece un menú emergente del cual seleccionamos Mediana y luego se pulsa el botón Aceptar, si observan hemos eliminados otros valores y aparece el valor de la mediana.

Fig. 4.9. Resumen estadístico que muestra la mediana

if

FilpliXd *

2

nlp

Page 33: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. __ Capitulo IV

pág. 33

Interpretación El valor de la mediana es de 12 puntos lo cual significa que por debajo de esa puntuación existe el 50% de los casos, o en otras palabras 12 puntos divide a la serie de datos en dos partes iguales. Moda (Xo) Es la otra medida de tendencia central muy usada y se puede definir como el dato que más se repite en el conjunto de ellos, es decir, la que ocurre con mayor frecuencia. Para la determinación del valor de la moda en datos directos simplemente se ubica el valor que más se repite. Para el cálculo por datos agrupados en intervalos donde li. limite inferior del intervalo donde este la frecuencia mayor. di: diferencia inferior (fm- fi), se corresponde a la diferencia de las de las frecuencias ordinarias absolutas del intervalo con mayor frecuencia (fm) y el intervalo anterior (fi). ds: diferencia superior (fm – fs), se corresponde a la diferencia de las de las frecuencias ordinarias absolutas del intervalo con mayor frecuencia (fm) y el intervalo siguiente (fs). i: amplitud del intervalo. Para la determinación del valor de la moda mediante el paquete estadístico se utiliza el mismo procedimiento que en la mediana y el valor a interpretar corresponde a Moda. Fig. 4.10. Resumen estadístico que muestra la moda

Interpretación Observemos que el valor de la moda es igual a 12, si aparece en blanco ocurre es porque existen varios valores los cuales se repiten con la misma frecuencia por lo tanto resulta una serie multimodal, lo cual dificulta su interpretación, es necesario tener cuidado con estos casos de allí que se recomienda utilizar las medidas de tendencia central de acuerdo a los objetivos de la investigación. Recomendaciones para el uso de las medidas de tendencia central La Media se recomienda utilizarla cuando: 1. se necesita el valor más representativo. 2. no existan datos extremos.

idids

diliXo *

Page 34: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. __ Capitulo IV

pág. 34

La mediana se recomienda utilizarla cuando: 1. existan datos extremos. 2. se necesite el valor que divida a la serie en dos partes exactamente iguales. La moda se recomienda utilizarla cuando: 1. Se necesite una visión rápida de la tendencia central. 2. sea una variable discreta, o algún atributo y se necesite la tendencia central. Relaciones entre las medidas de tendencia central

Fig. 4.11. Gráficos de simetría y asimetría

La relación entre los promedios indica simplemente las posición de los datos respectos a la media luego de comparar las medidas, una distribución simétrica significa que las medidas de

tendencia central poseen el mismo valor, XoXdX , por lo tanto la concentración de datos

es la misma por encima y por debajo de la media, si es asimétrica positiva significa que

XoXdX , de allí que la concentración de datos sea por debajo de la media; si es

asimétrica negativa significa que XoXdX , por lo tanto la concentración de datos es por

encima de la media.

Medidas de Orden Son aquellas medidas que se basan en la posición que ocupan en las series los diferentes valores que asumen los datos en una escala de 100. Estas medidas se refieren a los cuartiles y los percentiles.

Page 35: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. __ Capitulo IV

pág. 35

Cuartiles Son los puntos que dividen a la distribución continua en cuatro partes iguales, los simbolizaremos con la letra Q, el primer cuartil (Q1) es el punto por debajo del cual existe el 25% de los casos, el segundo cuartil (Q2) es el punto que deja por debajo el 50% de los casos, por lo tanto se corresponde con la mediana, el tercer cuartil (Q3), es el punto que deja por debajo el 75% de los casos, de allí que estos cuartiles dividan la serie en cuatro partes iguales.

0 100 Q1 Q2 Q3 25% 50% 75%

Fig. 4.12. Cuartiles

Percentiles Cuando necesitamos dividir esa serie en cien partes iguales estaremos en presencia de los percentiles (Xp), y se definen como el punto de una serie de datos en la cual se encuentra un determinado porcentaje de casos por debajo de él. En La simbología la equis (X) representa la variable y la (p) el porcentaje de allí que se tenga percentil 10 (X10), percentil 84 (X84) y percentil 50 (X50) que es al mismo tiempo la mediana.

Para el cálculo de los percentiles y/o cuartiles es necesario determinar las posiciones que ocupa cada uno de ellos para luego ubicar el valor.

En el cálculo de datos directos se utiliza la siguiente fórmula

))(( 1211 XXLLXXp p

Donde: Xp: Valor del percentil X1: puntuación anterior a un percentil dado Lp: lugar del percentil L1: Lugar de la puntuación anterior X2: Puntuación posterior al percentil.

Para datos en distribuciones de frecuencias se utiliza la siguiente fórmula

Donde: li: limite inferior del intervalo donde esta ubicado el valor del percentil. lp: lugar del percentil. 2

* nplp

if

FilpliXp *

Page 36: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. __ Capitulo IV

pág. 36

Fi: frecuencia acumulada absoluta del intervalo anterior a donde se encuentra el percentil. i: amplitud del intervalo.

Para la determinación de valor de un percentil determinado mediante el paquete estadístico se realiza la siguiente secuencia.

1. Pulsar el botón Descripción de la barra de menú. 2. Del menú emergente seleccionar Datos numéricos. 3. Seleccionar Análisis Unidimensional. 4. Seleccionar la variable. 5. Pulsar el botón Aceptar. 6. Se muestran las cuatro ventanas, resumen del procedimiento, resumen estadístico y el

diagrama de dispersión y el gráfico de caja y bigotes, como producto de esta selección muestra los estadísticos descriptivos más comunes en la ventana de resumen estadístico.

7. Seleccionar el segundo icono de la barra de trabajo, la opción tabular. 8. Seleccionar en el cuadro de diálogo Percentiles, como producto de esta selección

muestra los percentiles 1, 5, 10, 25, 50, 90, 95, 99.

Fig. 4.13. Percentiles que muestra el Statgraphics Para poder generar otros percentiles diferentes a los generados por defecto pulse el botón derecho del mouse y aparece un menú emergente del cual selecciona Opciones de ventana y muestra los valores por defectos que puedan ser cambiados, si no desea llenar todos los cuadros con valores debe colocar cero (0), pero nunca dejarlos vacíos ya que causara error en el procedimiento, y luego confirme pulsan do Aceptar.

Fig. 4.14. Cuadro para seleccionar los valores de percentiles

Page 37: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. __ Capitulo IV

pág. 37

Interpretación Si se toma como referencia el percentil 5 (X5 = 2,0) significa que por debajo de 2 puntos existe el 5% de los casos. Ahora si se interpreta el percentil 90 (X90 = 18), significa que por debajo de 18 puntos existe el 90% de los casos en la variable. Ejercicios A. Con base de datos denominada EJERCICIO 1, del capitulo III y utilizando las técnicas y comandos adecuados responda los siguientes planteamientos:

1. Determine e interprete las medidas de tendencia central de las variables numéricas (Lógica, Matemática y Estadística) y determine cual ellas es la más adecuada para describir cada variable.

2. Determine y explique la relación entre promedios del ejercicio anterior. 3. Determine e interprete los cuartiles de la variable Lógica. 4. Determine e interprete los siguientes percentiles: 10, 18, 32, 58, 71 y 87, de la variable

creada en el numeral 10 del ejercicio Nº 1. 5. Con respecto a la tabla generada en el ejercicio 2 del capitulo III, determine e interprete

las medidas de tendencia central como también su relación. 6. Para esa misma variable determine los percentiles 8, 15, 22, 37, 45, 83 y 93. 7. Para la variable edad pruebe las propiedades de la media para la suma y la

multiplicación con valores constantes (4 y 8 respectivamente). 8. Divida la variable Estadística en 5 partes iguales y señale las puntuaciones que la

limitan. 9. Con respecto a la variable Lógica, si esta se divide en tres grupos, a saber: bajo con el

32% de los casos, medio con el 52% y el resto corresponde al grupo denominado alto, que puntuaciones los limitan.

10. Determinar las edades que limitan el 40% central. 11. Obtengan las medidas de tendencia central para la respuesta al planteamiento N° 3 del

ejercicio A del capitulo III. 12. Archive los resultados de este ejercicio en el archivo StatFolio denominado Resultados 1

B. Con la base de datos denominada EJERCICIO 2 del capitulo III y utilizando las técnicas y comando adecuados, responda los siguientes planteamientos:

1. Para las respuestas generadas en la parte B, determine las medidas de tendencia central, la relación entre los promedios, los cuarteles y los percentiles 13, 26, 33, 65 y 78.

2. De las medidas de tendencia central obtenidas en el planteamiento anterior señale cual es la más adecuada en cada caso.

3. Si la variable IAT se divide en cuatro grupos, agrupando el primero el 17%, el segundo grupo conformado por un 35% de los casos, el tercer grupo de 30% y el cuarto el porcentaje restante, que puntuaciones los limitan.

4. Si el CNU decide asignar becas a los que están ubicados en el 18% de los mejores, que puntuación deben obtener como mínimo para merecer una beca.

5. Si se esta convirtiendo los grupos en cualitativos y se asigna una A sólo al 10% de los mejores y siempre existe un 15% de deficientes los cuales reciben F. ¿Qué puntuaciones corresponde como mínimo para merecer una A, y cuál es la máxima de los deficientes?

6. Archive los resultados de este ejercicio en un archivo StatFolio denominado Resultados 2.

Page 38: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo V

pág. 38

UNIDAD V: MEDIDAS DE VARIABILIDAD Y DE FORMA Son aquellas que indican la dispersión de las distintas puntuaciones con respecto a su tendencia central, por lo tanto permiten determinar cuan alejados o cerca de la medida que se tome como referencia se encuentra los datos, por lo tanto nos indicaran si están muy cercano a la medida de tendencia central que se use como referencia que están muy cercanos a ella, de allí que indique homogeneidad y por lo tanto esa medida será representativa de la serie de datos, si ocurre lo contrario señalarán que los datos se alejan de la medida y por lo tanto será un grupo homogéneo y la medida será poco representativa. Entre las medidas de variabilidad o dispersión más comunes tenemos, la amplitud total o Rango la cual se simboliza generalmente como A, la amplitud semi-intercuartil (Q), la desviación típica o estándar (s), la varianza (s2) y el coeficiente de variación (Cv).

Rango o Amplitud Total (A) Indica la distancia la distancia que existe entre el dato menor (d) y el dato mayor (D) inclusive de una serie de datos, es la más sencilla y directa de las medidas de dispersión, es muy poco utilizada por su marcada inestabilidad ante la existencia d valores extremos, ya que la información mostrada por ella nos dará una impresión errada de heterogeneidad. Fórmula Donde:

D: dato mayor d: dato menor

Procedimiento con el paquete

1. Pulsar el botón Descripción de la barra de menú 2. Del menú emergente seleccionar Datos Numéricos 3. Seleccionar Análisis Unidimensional. 4. Seleccionar la variable. 5. Pulsar el botón Aceptar 6. Se muestran las cuatro ventanas, resumen del procedimiento, resumen estadístico y

el diagrama de dispersión y el gráfico de caja y bigotes, como producto de esta selección muestra los estadísticos descriptivos más comunes en la ventana de resumen estadístico.

7. En la ventana del resumen estadístico aparece el Rango.

Fig. 5.1 Resumen de los estadísticos

Como se observa el rango de la serie de datos es igual a 19. Rango o Espacio Semi-intercuartil (Q) A fin de evitar la inestabilidad de la amplitud total y ante la existencia de valores extremos se utiliza el espacio semi-intercuartil el cual es la mitad de espacio intercuartil y se determina

1)( dDA

Page 39: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo V

pág. 39

simplemente restando el cuartel tercero menos el cuartel primero y dividiéndolo por dos, generalmente esta medida se asocia con la mediana. Grafico Fórmula Donde: Q3: Cuartil tercero o percentil setenta y cinco. Q2: Cuartil segundo o mediana. Q3: Cuartil primero o percentil veinticinco. Procedimiento con el paquete Relación entre la mediana y el espacio semi-intercuartil Estas relaciones nos permiten determinar el tipo de asimetría que posee la distribución de datos, son Q3 – Q2 > Q2 – Q1 Asimétrica Positiva Q3 – Q2 = Q2 – Q1 Simétrica Q3 – Q2 < Q2 – Q1 Asimétrica Negativa Con el mismo procedimiento, se seleccionan los valores para el resumen estadístico y se puede hacer la relación para determinar el tipo de asimetría o simetría.

Fig. 5.2. Resumen de los estadísticos

Relación 16 – 12 < 12 – 10; 4 < 2 Por lo tanto se presente una relación asimétrica negativa lo cual significa que existe mayor concentración de datos por encima de la media. Desviación Típica o Estándar (s) Consiste en el promedio de todas las desviaciones de los datos con respecto a la media aritmética de la serie de datos o distribución.

2

13 QQQ

Page 40: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo V

pág. 40

Datos no agrupados

Datos agrupados en intervalos Secuencia para la determinación de la desviación típica mediante el paquete estadístico Statgraphics, si observamos es el mismo procedimiento para todos los estadísticos descriptivos:

1. Pulsar el botón Descripción de la barra de menú 2. Del menú emergente seleccionar Datos Numéricos 3. Seleccionar Análisis Unidimensional. 4. Seleccionar la variable. 5. Pulsar el botón Aceptar 6. Se muestran las cuatro ventanas, resumen del procedimiento, resumen estadístico y

el diagrama de dispersión y el gráfico de caja y bigotes, como producto de esta selección muestra los estadísticos descriptivos más comunes en la ventana de resumen estadístico.

Interpretación de la desviación típica Como se observa en la Fig. 5.1., el valor de la desviación típica para una variable denominada puntos es de 4,8107, lo cual significa que los datos tienden en promedio a dispersarse en 4,81 puntos con respecto a la media. Varianza (s2) Expresa la variación promedio cuadrática entre cada valor de la serie respecto a la media aritmética de la serie de datos o distribución (cuadrado de la desviación típica). Como la varianza es una medida cuadrática es muy útil determinar la varianza para poder determinar la variabilidad de la serie de datos o distribuciones cuando se relaciona con la media. La secuencia es la misma que para determinar la desviación estándar. Interpretación En la fig. 5.1 se observa que el valor de la varianza es de 23,1429, lo cual significa la media de los cuadrados de los desvíos con respecto a la media es de 23,1429 puntos cuadrados. Coeficiente de Variación (Cv) El coeficiente de variación e una medida de variación la cual no considera las medidas en que se expresan las variables ni los valores o magnitudes que asuman los datos de las variables. Es el cociente entre la desviación típica y la media expresado en porcentaje, por lo tanto representa que tan variado es la serie con respecto a su media aritmética. Fórmula

1

2

1

n

XX

s

n

i

i

1

)(1

_

1

2

n

XXX

s

n

i

i

n

i

i

1

)( 2

n

XXmfs

100*

X

sCv

Page 41: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo V

pág. 41

Cuando se posee un solo valor de coeficiente de variación, por ser una medida relativa no indica mayor cosa, por lo tanto si permite comparar grupos con diferentes medias e inclusive en diferentes rangos ya que homogeniza el valor con respecto a la media aritmética. Para la determinación del valor del coeficiente de variación mediante el paquete estadístico se utiliza el mismo procedimiento que en la media, pero si observamos en el Resumen Estadístico no aparece el mismo debemos activar la opción para que genere se pulsa el botón derecho del mouse aparece un menú emergente del cual seleccionamos Coeficiente de Variación y luego se pulsa el botón Aceptar, si observan hemos eliminados otros valores y aparece el valor del coeficiente de variación. Secuencia para la determinación con el Statgraphics

1. Pulsar el botón Descripción de la barra de menú 2. Del menú emergente seleccionar Datos Numéricos 3. Seleccionar Análisis Unidimensional. 4. Seleccionar la variable. 5. Pulsar el botón Aceptar 6. Se muestran las cuatro ventanas, resumen del procedimiento, resumen estadístico y

el diagrama de dispersión y el gráfico de caja y bigotes, como producto de esta selección muestra los estadísticos descriptivos más comunes en la ventana de resumen estadístico.

7. Pulsar el botón derecho del Mouse y seleccionar opciones de ventana en la cual se escogerá el coeficiente de variación.

8. Pulsar el botón Aceptar y mostrará los resultados.

Fig. 5.3. Resumen de los estadísticos (Ver Cv)

Interpretación Como se observa muestra un coeficiente de variación igual a 40,0892% el cual por si solo no indica mayor cosa debería interpretarse comparándolo con otro grupo.

Fig. 5.4. Resumen de los estadísticos para múltiple variables

Como se observa en la tabla anterior aparecen dos variables puntos y aporte, las cuales se

han obtenidos los resultados por el procedimiento en el se consideran del menú

Descripción Datos numéricos Análisis Multidimensional y para la variable puntos el valor del Cv = 40,09% y para la variable aporte el Cv = 22,96%, lo cual indica que la variable

Page 42: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo V

pág. 42

aporte en más homogénea que la otra variable (puntos) y por lo tanto es más representativa la media ya que el grupo es más homogéneo que el correspondiente a la variable puntos. Medidas de Forma Son las medidas que permiten el estudio de la serie o distribución de datos como un todo, de acuerdo a ellas podemos describir el grado de deformación de las mismas y las principales son la asimetría y la curtosis. Asimetría En unidades anteriores se introdujo el término asimetría, la cual indica el comportamiento de los datos con respecto a la media aritmética ya que esta describe el comportamiento general de los datos, de allí que indique la concentración de los datos por encima o por debajo de la media.

Fig. 5.5. Simetría y tipos de Asimetría donde As es el coeficiente de asimetría El paquete estadístico determina el valor de la asimetría por la fórmula inicial es decir utiliza el momento tercero y para su interpretación se tiene Si As > 0, la asimetría es a la derecha o positiva; existe mayor concentración de

valores a la derecha de la media que a su izquierda. Si As = 0, existe simetría; existe la misma concentración de valores a la derecha y a

la izquierda de la media. Si As < 0, la asimetría es a la izquierda o negativa; existe mayor concentración de

valores a la izquierda de la media que a su derecha.

Secuencia para la determinación de la asimetría

1. Pulsar el botón Descripción de la barra de menú

3

3 /)(

s

nXXiAs

Page 43: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo V

pág. 43

2. Del menú emergente seleccionar Datos Numéricos 3. Seleccionar Análisis Unidimensional. 4. Seleccionar la variable. 5. Pulsar el botón Aceptar 6. Se muestran las cuatro ventanas, resumen del procedimiento, resumen estadístico y

el diagrama de dispersión y el gráfico de caja y bigotes, como producto de esta selección muestra los estadísticos descriptivos más comunes en la ventana de resumen estadístico.

7. Pulsar el botón derecho del Mouse y seleccionar opciones de ventana en la cual se escogerá el Asimetría.

8. Pulsar el botón Aceptar y mostrará los resultados

Fig. 5.6. Resumen de los estadísticos

Interpretación El valor de la asimetría es igual a –0,71, lo cual indica que es una asimetría negativa y señala que la concentración de datos es a la derecha de la media o sea por encima de ella. Existen otras fórmulas que permiten determinar el valor del coeficiente de asimetría, como son

La fórmula que aparece en primera instancia se interpreta igual que la de los momentos, mientras que las dos restantes, se puede interpretar con la siguiente tabla referencial

As = 0 simétrica

0,01 As 0,10 se dice que es ligeramente asimétrica.

0,11 As 0,30 se dice que es moderadamente asimétrica

0,31 As 1,00 se dice que es marcadamente asimétrica Curtosis La curtosis se refiere a las frecuencias de los valores centrales de una serie o distribución de datos, tomando como referencia la distribución normal, si la curva que representa a la serie de datos es más alta y estrecha que la curva normal diremos que es apuntada y su se llama leptocúrtica, lo cual indica que el grupo es homogéneo en el centro, si la curva es baja y ancha se llama platicúrtica, de allí que el grupo se heterogéneo o disperso en el centro y si se asemeja a la normal diremos que es mesocúrtica.

s

XdXAs

)(3)(

)2(

13

123

QQ

QQQAs

1090

1090 2

XX

XXdXAs

Page 44: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo V

pág. 44

Fig. 5.7. Tipos de curtosis

Fórmula Para su interpretación se toma en cuenta la siguiente referencia, Si Cu > 0 distribución leptocúrtica Si Cu = 0 distribución mesocúrtica Si Cu < 0 distribución platicúrtica

La secuencia para la determinación del valor de la curtosis es semejante a la de la asimetría que la tenemos en la tabla 5.6 Interpretación. En la tabla señalada nuestra el valor de la curtosis es igual a 0,866906, ese coeficiente indica que la distribución es leptocúrtica lo cual nos permite concluir que la serie de datos es homogénea en el centro por lo tanto poco discriminativa Existen otras fórmulas basadas en los percentiles Donde se toma como valor de referencia el coeficiente 0,263 Si Cu > 0,263 es platicúrtica Si Cu = 0,263 es mesocúrtica Si Cu < 0,623 es leptocúrtica

Puntuaciones típicas o tipificadas (z) Al intentar interpretar un dato de forma aislada tratamos de ubicarlo en cierta posición con respecto a alguna medida en referencia; así por ejemplo lo hicimos con el percentil, el cual indica que por debajo de esa puntuación existe un determinado porcentaje de casos o con el rango percentil el cual nos permite ubicar una determinada puntuación, otra forma pudiera ser interpretar ese dato con respecto a un punto central, por ejemplo la media. Las puntuaciones típica indican cuantas desviaciones estándar se desvían con respecto a la media aritmética las puntuaciones originales.

4

4 /)(

s

nXXiCu

1090 XX

QCu

s

XXiz

Page 45: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo V

pág. 45

El paquete Statgraphics no determina los valores de la puntuación estandariza mediante menú, vamos a generar una variable para que de acuerdo a la fórmula nos indique el valor de cada puntuación z para cada uno de los datos.

Fig. 5.8. Creación de la puntuación z

Si necesitamos interpretar cual es de mejor rendimiento es que se aleja más desviaciones típicas por encima de la media y resulta el registro identificado con el N° 1 con una z = -

2,29 el de peor rendimiento ya que se aleja más desviaciones por debajo de la media y el de mejor rendimiento es el identificado con el N° 15 el cual se aleja más desviaciones típicas

por encima de la media, z = 1,66 . Las puntuaciones z asumen importancia ya que nos permiten comparar datos o puntuaciones en diferentes escalas, y además nos permiten estudiar si los datos de una determinada serie provienen de una distribución normal, esta puntuación es muy importante en la estadística inferencial. Puntuaciones T La escala T no s más que una transformación de las puntuaciones originales en una escala cuya media es de 50 y un desviación típica de 10.

)*10(50 zT

Page 46: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capítulo V

pág. 46

Fig. 5.9. Creación de la puntuación T

Si deseamos comparar por ejemplo cual de los datos tiene mejor rendimiento, observamos al registro identificado como el N° 15, posee una puntuación T = 66,6 y por ejemplo cuál es el de peor rendimiento resulta el N° 1 con una puntuación T de 27,1. Ejercicios A. Con la base de datos denominada Ejercicio 1.

1. Determine, utilizando las puntuaciones de las asignaturas, cuál de los resultados es más homogéneo, por simple límites de la variable.

2. ¿En cuál asignatura es más representativa la media? 3. En cual de las dos variables, la denominada ioames y formula1, es menos

representativa la media. 4. Determine el tipo de asimetría comparando la relación de los cuarteles con los

resultados de las asignaturas. 5. De acuerdo a la dispersión ¿cuál asignatura resultó ser más homogénea? 6. Determine e interprete los coeficientes de asimetría de las variables numéricas. 7. Determine e interprete los coeficientes de curtosis de las variables numéricas. 8. de la variable generada en el numeral 6 del capítulo II, determine ¿cuál sujeto posee

el mejor rendimiento y cuál peor rendimiento mediante la escala z? 9. Si un sujeto obtuvo una puntuación de 07 puntos en Lógica, otro obtuvo una

puntuación z = -0,39 en Matemática y otro obtuvo una puntuación T = 46, ¿cuál obtuvo mejor rendimiento? Genere las variables para comparar.

10. Guarde los resultados obtenidos en el archivo StatFolio denominado Resultados 1.

Page 47: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VI

pág. 47

UNIDAD VI: MEDIDAS DE RELACION Hasta Ahora en las unidades anteriores hemos trabajados con solamente con grupos de datos que corresponden una variable cuando se da este caso se denominan distribuciones unidimensionales, pero existen momentos en los cuales se hace necesario el estudio de dos distribuciones correspondientes a un mismo grupo de registro, es decir parejas de datos, se denominan distribuciones bidimensionales por lo tanto vienen en forma conjunta: en algunos otros momentos corresponden a más variables y se denominan multidimensionales. Uno de los aspectos más interesantes de la estadística es el estudio de la relación entre dos o más fenómenos representados por las variables, de allí que se presenta un concepto muy interesante y es correlación. Correlación Se define como la relación concomitantes entre dos variables, por lo tanto expresa lo que ocurre en una variable ocurre o no en la otra y esto se expresa a través del coeficiente de correlación. Coeficiente de correlación Consiste en la expresión cuantitativa del grado de relación existente entre por lo menos dos variables, dicho coeficiente presenta dos partes una que se refiere al sentido y otra a la magnitud. Existe diferentes tipos de coeficientes y la selección de cada uno de ellos dependerá de la escala de medida y de la naturaleza de la variable y la relación lineal o no de la distribución bidimensional. Tipos de Correlación Cuando las variables se intercorrelacionan se pueden dar varios tipos de correlación, seguiremos las correlaciones que se pueden representar mediante una línea recta la correlación existente, y son a saber:

Correlación Positiva, se dice cuando a los cambios que ocurren en una variable se dan en el mismo sentido en la otra, si sea un aumento en una se da una aumento en la otra y viceversa.

Fig. 6.1 Nube de puntos para Matemática y Física

La correlación positiva puede ser perfecta, lo cual indica que las unidades estadística que ocupan las primeras posiciones en una variable también ocupan primeras posiciones en la otra y viceversa.

Page 48: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VI

pág. 48

Correlación Negativa, se dice cuando a los cambios que ocurren en una variable se dan en sentido contrario en la otra, si sea da un aumento en una se da una disminución en la otra y viceversa.

Fig. 6.2. Nube de puntos para Tiempo y Rapidez de lectura

Al igual que la correlación positiva, la correlación negativa puede ser perfecta lo cual significa que las unidades estadísticas que ocupan primeras posiciones en una variable ocupan últimas posiciones en la otra y viceversa.

Correlación Nula, se dice cuando las variables no se intercorrelacionan, por lo tanto son independientes una de la otra.

Fig. 6.3. Nube de puntos para Educación Física y Rapidez de lectura

Page 49: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VI

pág. 49

Una forma expedita para ver como se representan gráficamente la intercorrelación de las variables es mediante un gráfico denominado nube de puntos o diagrama de dispersión, el de manera gráfica nos señala la correlación y su tendencia de acuerdo a la concentración de los datos. Coeficiente de Correlación Producto de los Momentos de Pearson Es el coeficiente que se utiliza cuando las variables que se intercorrelacionan son continuas, esto significa que han sido medidas en escala de intervalos o razones. Este coeficiente es lineal y paramétrico, por lo tanto solo puede se utilizado cuando exista una pareja de variables correspondiente a una misma muestra ya que lo hace es comparar la covarianza existente entre ellas. Como hemos señalado la correlación en perfecta, positiva o negativa, cuando se dan los criterios, pero en el resto de las situaciones exceptuando cuando las variables sean independientes se dará la existencia de una tendencia y en este caso se necesita determinar el valor del coeficiente de correlación para saber en cuanto se da la

intercorrelación de las variables. El Coeficiente de Pearson se simbolizará así rxy, para la

determinación del mismo se utiliza de forma manual las siguientes fórmulas: Otras fórmulas son también de fácil uso son Fórmula de los desvíos Fórmula de las puntuaciones originales

El paquete estadístico asume para su uso la de las puntuaciones originales. Para interpretar el coeficiente de correlación de Pearson asumiremos la siguiente tabla: Esta escala es solamente una sugerencia no es un dogma, ya que su interpretación esta sujeta a un conjunto de factores que influyen sobre el valor del coeficiente de correlación. Por ejemplo si existe un coeficiente de correlación entre dos variables, talla y peso, de 0,80

(rxy = 0,80), para interpretarlo debemos establecer algunas consideraciones iniciales como

son el sentido, positiva, el grado de relación alta, pero no es perfecta por lo tanto es una tendencia, diríamos entonces Correlación imperfecta positiva de tipo alto lo cual indica una lata tendencia a que quienes posean una alta talla tienden a tener un alto peso y viceversa quienes tenga una talla baja tienden a tener un peso bajo. Es necesario aclarar que la correlación no implica necesariamente causalidad, o sea que una variable es producto de la otra. Para la utilización del coeficiente de correlación de Pearson debemos considerar que se cumplen los siguientes supuestos:

rxy Grado de relación

0 Nula

0,01 - 0,20 Muy baja o despreciable

0,21 - 0,40 Baja o leve

0,41 - 0,60 Media o sustancial

0,61 - 0,80 Alta o importante

0,81 - 0,99 Muy alta

1 Perfecta

n

zzr

yx

xy

*

22 *

*

yx

yxrxy

2222 )()(

))((

YYNXXN

YXXYNrxy

Page 50: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VI

pág. 50

a. Cada para de datos es independiente de los demás. b. Las dos variables a correlacionar son continuas. c. La relación existente entre ellas es rectilínea.

Procedimiento de determinación por el paquete.

1. Pulsar el botón Descripción de la barra de menú. 2. Seleccionar del menú Datos Numéricos. 3. Seleccionar Análisis Multidimensional. 4. Seleccionar las variables a correlacionar 5. Pulsar el botón Aceptar.

A continuación aparece la ventana de análisis con el resumen del procedimiento, la matriz de correlaciones y un gráfico que corresponde a la matriz de dispersiones.

Fig. 6.4. Matriz de correlaciones que muestra el Statgraphics

Los elementos que se presentan al final de análisis son en primer lugar las correlaciones, el tamaño de la muestra y la probabilidad de significación (P-Valor) de dicho coeficiente que tratemos en el capitulo VIII. En el caso que se analiza se presente la correlación existente entre puntos y nota1 con un valor de 0,6810, de lo cual se tiene que es una correlación imperfecta positiva de grado alto lo cual indica que existe una alta tendencia en mantener posiciones tanto en puntos como en nota1. Regresión y Predicción Como tratamos anteriormente el coeficiente de correlación es un resumen del gráfico de dispersión o nube de puntos entre las variables objeto de estudio, pero la diferencia entre regresión y correlación esta en que la primera trata de de prever la variable dependiente en función de los valores de la variable dependiente, en consecuencia si cambiamos el papel de las variables cambiará también la ecuación de regresión , ya que la recta de regresión se adapta a las unidades de las variable que desea predecir, sin embargo la recta es la misma independiente del orden de las variables, por lo tanto describen como varía la media de una variable en función de la otra y de una dispersión que es la desviación típica residual. El poder de predicción de las variables lo determinamos partiendo de la ecuación de la recta mostrada en la fórmula anterior, que ahora se adecuara, para la estimación, mediante las siguientes ecuaciones de predicciones

bXaY

Page 51: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VI

pág. 51

Estimación de X a partir de Y Estimación de Y a partir de X

Es necesario señalar también la existencia del coeficiente de determinación rxy2 que es el

cuadrado del coeficiente de correlación. Procedimiento para la determinación con el procesador

1. Pulsar el botón Dependencia de la barra de menú 2. Seleccionar del menú Regresión Simple 3. Seleccionar la variable dependiente en Y, y la independiente en X 4. Pulsar el botón Aceptar.

A continuación muestra la ventana con el análisis respectivo y el gráfico modelo ajustado.

Fig. 6. 5. Análisis de Regresión simple que muestra el Statgraphics

Si observamos detenidamente la ventana del análisis de regresión simple nos muestra una primera parte que corresponde a la ordenada y la pendiente de la recta; en segunda instancia un análisis de la varianza que no mostramos en este parte pero que trataremos en el capítulo X, de seguida muestra un cuadro con el coeficiente de correlación y el coeficiente de correlación al cuadrado (R cuadrado), expresado en porcentaje y por último en

YbaX xyxy * XbaY yxyx *

Page 52: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VI

pág. 52

Statadvisor, el cual presenta la ecuación de predicción para la estimación en este caso se uso como variable dependiente la Y. El R-cuadrado se interpreta como coeficiente de determinación y expresa la ganancia de la precisión que se obtiene utilizando la recta de regresión, en otras palabras india la proporción de la varianza de la variable dependiente que es explicada por la varianza de la variable independiente, en este caso solo se explica el 46,37% de ella, ya que la correlación entre las variables fue alta (0,68). Así mismo podemos predecir con dicha ecuación el valor en nota1 de acuerdo al valor que se plantee de puntos, para ello utilizaremos 12 puntos, aplicamos la fórmula:

Fig. 6.6. Gráfico de la recta de regresión

Lo cual significa que el que haya obtenido 12 en la variable puntos obtendría 11,59, si la relación fuera perfecta esta predicción sería absolutamente cierta, no habría error, pero como el coeficiente de correlación no fue igual a uno se esta cometiendo un error de estimación el cual aparece en el análisis como Error estándar de Est en este caso es igual a 2,76688, su fórmula de cálculo es Donde s es la desviación típica de la variable dependiente. Coeficiente de Correlación Ordinal de Spearman (rs) Cuando las diferencia de los datos con respecto a un rasgo en particular y que no puede medirse directamente sino mediante una escala ordinal, se utiliza el coeficiente de correlación ordinal de Spearman, el cual es no paramétrico y se deriva del coeficiente de correlación de Pearson, mide la diferencia entre los rangos. Su fórmula es la siguiente: Donde d es la diferencia de los rangos entre las variables y n el número de los pares de medidas. El coeficiente de correlación de Spearman no es más que un caso particular del de Pearson, por lo tanto tomaremos para su interpretación la misma escala. Procedimiento de cálculo

1. Pulsar el botón Descripción de la barra de menú.

59,11)12(515432,0*41481,51nota

2)(1 rsest

)1(

61

2

nn

drs

Page 53: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VI

pág. 53

2. Seleccionar del menú Datos Numéricos. 3. Seleccionar Análisis Multidimensional. 4. Seleccionar las variables a correlacionar 5. Pulsar el botón Aceptar.

A continuación aparece la ventana de análisis con el resumen del procedimiento, la matriz de correlaciones y un gráfico que corresponde a la matriz de dispersiones. Como se observa es el mismo procedimiento que el coeficiente de correlación de Pearson, ahora para determinar el Coeficiente de correlación de Spearman, en la ventana del análisis multivariable:

6. se selecciona la Opción Tabular y del menú emergente es escoge Correlación por Rangos.

7. Se pulsa el botón Aceptar. Y luego aparecen l matriz de correlaciones:

Fig. 6.7. Matriz de correlación de

Spearman

Como señalábamos en el coeficiente de correlación de Pearson, es la misma identificación de los elementos, y su interpretación es con la misma escala. Por la tanto el coeficiente por rangos de Spearman es igual a 0,6612 lo cual indica que existe una alta tendencia a los sujetos a mantener las mismas posiciones tanto en puntos como en nota1. Coeficiente de Correlación Biserial Puntual (rbp). Se utiliza para determinar el grado de relación existente entre una variable de naturaleza continua (escala de intervalo o razones) y otra variable de naturaleza dicotoma o dicotómica es decir por su naturaleza se divide en solo dos categorías o modalidades. Donde: Xp: Corresponde a la media de la variable continua de los que se encuentran en el criterio. Xq: Corresponde a la media de la variable continua de los que no se encuentran en el criterio. s: desviación típica de la variable continua. p: proporción de unidades estadísticas que se encuentra en el criterio. q: proporción de unidades estadísticas que no se encuentra en el criterio.

qps

XXr

qp

bp **

__

n

fpp

n

fqq

Page 54: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VI

pág. 54

Aunque el paquete estadístico no permite determinar dicho coeficiente, se pueden obtener los elementos para aplicar manualmente la fórmula mediante el siguiente proceso: Descripción Datos Numéricos Análisis Unideimensional seleccionar la variable continua y luego utilizar SELECT de acuerdo a la variable categórica, para obtener las medias parciales y la desviación típica.

Coeficiente de Correlación Phi ( ) Se utiliza cuando las variables a correlacionar poseen naturaleza dicotomica o al menos uno lo sea, la otra pudiera ser dicotomizada es decir se tiene un punto y a partir de el se divide la variable continua en dos categorías, se presentan en tablas de 2 x 2, y se aplica la siguiente fórmula: Donde las letras (a, b, c, d) corresponde a las frecuencias de las celdas y p, q, p’ y q’ corresponden a las frecuencias marginales. De una tabla de 2 x 2 como señalamos. p q q’ p’ El paquete tampoco nos suministra el coeficiente phi, solamente el phi cuadrado que tratemos más adelante, pero podemos construir la tabla cruzada con las variables que necesitemos establecer la relación y luego aplicar manualmente la fórmula. Al igual que los dos coeficientes anteriores también se utiliza para interpretarlo la tabla que tenemos para el coeficiente de correlación de Pearson. Coeficiente de Correlación Parcial (r12.3) Se utiliza cuando se desea determinar el verdadero grado de relación entre dos variables cuando se controla o elimina la influencia de una tercera. Procedimiento para determinarlo con el paquete estadístico:

1. Pulsar el botón Descripción de la barra de menú. 2. Seleccionar del menú Datos Numéricos. 3. Seleccionar Análisis Multidimensional. 4. Seleccionar las variables a correlacionar 5. Pulsar el botón Aceptar.

A continuación aparece la ventana de análisis con el resumen del procedimiento, la matriz de correlaciones y un gráfico que corresponde a la matriz de dispersiones. Como se observa es el mismo procedimiento que el coeficiente de correlación de Pearson, ahora para determinar el Coeficiente de correlación Parcial, en la ventana del análisis multivariable:

6. se selecciona la Opción Tabular y del menú emergente es escoge Correlación Parcial.

7. Se pulsa el botón Aceptar.

b

a

d

c

'' ***

)*()*(

qpqp

cbda

)1)(1(

)*(

2

23

2

13

2313123.12

rr

rrrr

Page 55: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VI

pág. 55

Fig. 6.8. Matriz de Correlación Parcial que muestra el Statgraphics

Interpretación Supóngase que se desea determinar el verdadero grado e relación entre las variables puntos y nota1 cuando se controla la influencia de la edad, se tiene un coeficiente de correlación parcial (r12.3) de 0,6704, lo cual indica que es el verdadero grado de correlación entre dichas variable al controlar la edad, si se compara con el obtenido por Pearson (rxy), fue de 0,6812270, lo cual nos lleva a la conclusión que la edad si ejerce influencia sobre puntos y nota1. Coeficiente de Correlación Múltiple (R1.23) Se utiliza cuando se desea determinar la relación existente entre una variable dependiente o predicha y por lo menos dos variables independientes o predictoras tomadas de manera conjunta, de allí que el resultado del coeficiente indica cuanto de la variable dependiente es predicho por las variables independientes en forma conjunta. Significa que es la raíz cuadrada del coeficiente de determinación múltiple, el cual trata de explicar cuanto de la varianza de la variable dependiente es explicado en forma conjunta por la varianza de las variables dependientes, su fórmula de cálculo es Procedimiento para la determinación por el procesador

1. Pulsar el botón Dependencia de la barra de menú 2. Seleccionar del menú Regresión Múltiple. 3. Seleccionar las variables a correlacionar, para ello coloque la variable dependiente y

luego las independientes. 4. Pulsar el botón Aceptar.

A continuación aparece la ventana de análisis con el resumen

2

23.123.1 RR

2

23

231312

2

13

2

122

23.11

)**(

r

rrrrrR

Page 56: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VI

pág. 56

Fig. 6.9. Analisis de regresión múltiple del Statgraphics

Aparece al igual que en la regresión simple la variable dependiente, la ordenada y la pendiente, luego un análisis de varianza los cuales no estudiaremos en este momento y posteriormente el coeficiente de determinación (R-cuadrado) expresado como porcentaje, para convertirlo en coeficiente de correlación múltiple le extraemos la raíz cuadrada a la proporción y lo interpretamos. Si consideramos el coeficiente de determinación (R-cuadrado) es igual a 46,7579% indica la proporción de la varianza de nota1 que es explicada en forma conjunta por puntos y edad, ahora vemos el coeficiente de correlación múltiple y es 0,68379 , lo cual indica que nota1 es determinada en forma conjunta por puntos y edad. Ejercicios. 1. A continuación se presentan una serie de coeficientes de correlación entre dos asignaturas: Biología y Química, interprete cada uno de ellos. a. r = 0,41 b. r = -0,72 c. r = 0 d. r = 1,00 e. r = - 1,00 e. r = 0,50 2. Se presentará una serie de variables indique y explique el tipo de coeficiente de correlación más adecuado.

a. edad y calificaciones. b. calificaciones y peso. c. tiempo en dos competencias, 100 y 200 metros planos. d. calificaciones en una prueba y sexo. e. estado civil y sexo. f. nivel de educación medido como universitario y otro yy el éxito medido como exitoso

y sin éxito. g. edad y peso. h. puntuaciones en el test de Raven y la respuesta al item Nº 5 (correcto, incorrecto).

68379,0467579,02

23.123.1 RR

Page 57: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VI

pág. 57

3. Un coeficiente de correlación de 0,80 representa el doble de relación que uno de 0,80. 4. A continuación se presentan datos correspondientes a cincuenta alumnos de la Facultad de Ciencias de la Educación, para los cuales se realizará una investigación cuasi-experimental, donde las variables de identifican de la siguiente manera: Columna 1: Identificación de los alumnos. Columna 2: Modalidad de Ingreso (CNU, PIA: Prueba Interna de Admisión). Columna 3: Sexo (M: Masculino, F: Femenino). Columna 4: Edad cumplida. Columna 5: Tipo de plantel (Pub: Público, Pri: Privado) Columna 6: Turno de estudio (M: Mañana, T: Tarde, N: Noche). Columna 7: Índice Académico del CNU. Columna 8: Rango en puntualidad. Columna 9: Calificaciones primer lapso. Columna 10: Calificación en resolución de problemas. Columna 11: Calificación en trabajo de investigación. Columna 12: Respuesta a la pregunta Nº 5 de la resolución de problemas.

1 2 3 4 5 6 7 8 9 10 11 12

1 CNU M 21 Pub M 62 38 10 11 18 C

2 PIA F 23 Pri T 51 45 16 15 18 C

3 PIA M 24 Pri M 51 50 16 17 14 C

4 CNU M 21 Pub N 50 21 18 14 19 C

5 PIA F 23 Pri M 50 22 13 15 16 C

6 PIA F 23 Pub M 50 29 11 13 14 C

7 PIA F 22 Pub M 62 10 10 12 18 C

8 CNU F 23 Pri N 65 7 15 16 15 I

9 PIA F 22 Pub T 68 15 19 19 19 I

10 PIA M 23 Pri M 70 12 15 18 15 I

11 PIA M 22 Pub M 51 28 16 18 17 I

12 CNU F 22 Pri M 66 48 17 17 17 I

13 CNU F 22 Pub M 68 33 16 15 13 I

14 PIA F 21 Pri M 69 31 14 10 15 I

15 PIA F 24 Pub T 63 20 09 11 14 I

16 PIA M 23 Pub T 71 11 10 12 14 I

17 CNU M 25 Pri T 72 16 08 09 12 C

18 PIA F 27 Pri N 51 24 09 08 15 I

19 PIA F 22 Pub N 54 26 16 17 11 I

20 PIA F 24 Pub M 66 35 16 18 16 C

21 CNU F 23 Pub M 68 39 13 11 13 C

22 PIA M 21 Pub M 61 44 09 09 15 C

23 PIA M 25 Pri M 60 49 12 14 16 C

24 PIA F 23 Pri N 63 1 09 08 16 C

25 CNU M 22 Pub N 64 2 14 11 15 I

26 PIA F 26 Pub N 58 41 08 08 15 I

27 CNU M 21 Pub M 53 13 10 11 16 I

28 PIA M 23 Pub N 58 5 11 12 14 C

29 PIA F 26 Pub M 67 36 17 12 18 C

30 PIA F 22 Pub M 66 8 12 10 17 I

31 PIA F 21 Pri T 69 3 15 15 17 C

32 PIA M 23 Pri N 70 27 15 16 17 C

33 CNU M 24 Pri N 51 32 13 15 18 I

34 PIA F 22 Pub T 56 9 18 19 18 I

35 CNU F 22 Pub N 65 4 17 15 17 I

Page 58: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VI

pág. 58

36 PIA M 22 Pub M 58 14 17 18 16 I

37 CNU M 23 Pri T 55 19 12 13 15 C

38 PIA M 22 Pub M 53 17 17 18 14 C

39 PIA M 22 Pub M 58 23 17 15 16 C

40 CNU F 24 Pri N 66 40 13 14 15 C

41 PIA F 21 Pub M 64 18 17 16 16 C

42 PIA F 22 Pri T 66 25 16 15 14 C

43 CNU F 23 Pub N 62 30 09 13 18 C

44 PIA F 23 Pri M 58 49 16 18 17 C

45 PIA M 25 Pri T 59 47 15 19 15 I

46 PIA M 25 Pub M 60 46 15 17 18 I

47 PIA M 22 Pri M 64 6 14 18 15 C

48 CNU F 26 Pub N 67 34 14 14 15 C

49 PIA F 27 Pub M 54 42 12 15 18 I

50 PIA M 26 Pub N 58 37 16 16 17 I

a. Elabore los diagramas de dispersión de y señale gráficamente el tipo de correlación:

X: Primer lapso Y: Resolución de problemas X: Primer lapso Y: Trabajo de investigación X: Resolución de problemas Y: Trabajo de investigación.

b. Para las nubes de puntos construidas en el literal anterior identifique el sexo en cada una de ellas.

c. Determine si es cierto a que mayor puntuación en las variables identificadas con X en el literal a, existe una alta tendencia a obtener las mayores puntuaciones en las variables identificadas con Y.

d. Determine si es cierto a que mayor edad se obtiene mayor índice de admisión. e. Determine cuál será la puntuación probable en el primer lapso de una alumno que

haya obtenido 15 puntos en el trabajo de investigación, y cual seria su error de estimación.

f. Será cierto que los alumnos con menor edad obtiene los primeros lugares en responsabilidad.

g. Determine el verdadero grado de relación entre la resolución de problemas y el trabajo de investigación cuando se controla la calificación del primer lapso.

h. Determine si es cierto el responder correctamente el item Nº 5 indica una alta tendencia a obtener las mejores calificaciones.

i. Será cierto que las hembras tienden a responder correctamente el item Nº 5. j. Cual será el grado de relación existente entre el tipo de plantel y el sexo. k. Cuánto del primer lapso es explicado por la resolución de problemas y el trabajo de

investigación en forma conjunta. l. Determine si la edad mantiene alguna relación con el índice académico de admisión.

Page 59: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.52

UNIDAD VII: Introducción a la Teoría de las Probabilidades

Definiciones Básicas

Experimento Aleatorio Es el conjunto de pruebas aleatorias realizadas en las mismas condiciones. El resultado no se

conoce a priori, pero si se conocen todos los resultados.

Espacio Muestral Es un conjunto cuyos elementos representan los resultados posibles de un experimento. Es el

conjunto universal y se representa por S. Encierra todos los casos posibles. Ejemplo: Lanzamiento de una moneda S = {c , s} Lanzamiento de un dado S = {1, 2, 3, 4, 5, 6}

Punto Muestral o Evento Elemental Consiste en cada uno de los resultados posibles de un espacio muestral y se simboliza con la letra

"e". En el lanzamiento de la moneda, tendremos e1 = cara y e2 = sello.

El número de puntos muestrales de S (espacio muestral) puede representarse por n(S).

Evento Es un subconjunto del espacio muestral. Los diferentes eventos se representan con letras

mayúsculas, tales como: A, B, C. El número de puntos muestrales de un evento se puede representar por m(e).

Evento Compuesto Es cualquier combinación de eventos elementales. Se simboliza por la letra "E".

Selección Aleatoria Un objeto se selecciona aleatoriamente de una colección o población, si en dicha selección cada

objeto tiene la misma probabilidad o posibilidad de ser elegido. Esta selección puede ser: a. Con reemplazo o reposición, cuando cada elemento se extrae y es devuelto a la población,

antes de seleccionar otro objeto. Ej. La lotería. b. Sin reemplazo o reposición, cuando cada elemento se extrae de la población y no es devuelto

antes de seleccionar otro objeto. Ej. El bingo.

Probabilidad (P) Número que se asigna a los sucesos aleatorios, siempre entre 0 y 1, de allí que

0 P 1

Concepto de probabilidad enfocado a través de diferentes teorías

Teoría Clásica Se considera que cada resultado de un experimento tiene la misma probabilidad de aparecer que

cualquier otro y por lo tanto, se le puede asignar la misma probabilidad de ocurrencia (equiprobabilidad). Se considera la probabilidad de una forma "a priori". Se requiere dividir el número de resultados deseables entre el número de resultados posibles bajo la condición de que todos los resultados del experimento sean igualmente probables.

Nº. de resultados favorables al suceso A

Page 60: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.53

P(A) = ----------------------------------------------------------------- Nº. total de sucesos (Favorables + No favorables)

Ejemplo

Si seleccionamos una carta, en forma aleatoria, de un juego de barajas españolas, ¿Cuál es la probabilidad de que la carta seleccionada: a. sea un dos

4 P(A) = ---- = 0,10

40 b. sea una carta de bastos.

10 P(A) = ---- = 0,25

40

Enfoque empírico o Frecuencia relativa Los teóricos de la frecuencia relativa consideran que el único procedimiento válido para determinar

la probabilidad de un evento es por medio de las observaciones repetidas, por lo tanto es una probabilidad "a posteriori". De ahí que:

a. Si un experimento se realiza N veces en las mismas condiciones y existen M resultados a favor de un evento; entonces una estimación de la probabilidad de ese evento es el cociente M/N.

b. La estimación de la probabilidad de un evento P(E) = M/N se acerca a un límite; es decir, a la probabilidad verdadera del evento, cuando N se acerca al infinito. Estimación P(E) = M/N P(E) = lim = M/N

N-->

Enfoque subjetivo o Personalista La probabilidad es una medida de confianza personal en un caso particular. Un subjetivista

asignaría una medida ponderada entre 0 y 1, a un evento, de acuerdo con el grado de seguridad en su posible ocurrencia. Ejemplo: Probabilidad de ganar la Serie Mundial de las Grandes Ligas para los Indios de Cleveland o los Bravos de Atlanta.

Probabilidad. Definición Matemática La probabilidad del evento A, P(A), es la razón entre el número de puntos muestrales que

representan a A y el número total de puntos muestrales, con la condición de que todos los puntos muestrales tengan igual probabilidad de ocurrencia. Ejemplos para construir el espacio muestral a. Se lanza un dado y se observa el número que aparece en la cara superior. b. Se lanza una moneda cuatro veces, construya el espacio muestral para el número de caras obtenidas. c. Sea el lanzamiento simultaneo de un dado y una moneda construya el espacio muestral. d. Sea el lanzamiento simultaneo de dos dados, construya el espacio muestral. Con los datos anteriores determine los siguientes eventos. 1. {(X = suma de las caras)/X>12} 2. {(X = suma de las caras)/ x/3 sea entero}

3. {(X = suma de las caras)/ 2 X 12}

Page 61: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.54

Axiomas de las Probabilidades

Positividad La probabilidad es no negativa

P(E) 0

Certidumbre La probabilidad de todo espacio muestral es igual a 1. P(S) = 1, de allí que se cumpla

0 P(E) 1

Uniones La probabilidad de un evento compuesto es igual a la suma de las probabilidades de los eventos elementales.

P(E) = P(e1) + P(e2) + ... + P(en)

Tipos de Eventos

Regla de la Adición

Eventos Mutuamente Excluyentes Se dice que dos eventos, A y B, son mutuamente excluyentes, si A y B no tienen puntos

muestrales en común. Así los eventos simples o elementales no pueden aparecer simultáneamente. P(A U B) = P(A) + P(B) Ejemplo:

Si se lanza un dado al aire, ¿Cuál es la probabilidad de en su cara superior aparezca el 2 ó el 4? Evento A = aparezca el número 2 ---> P(A) = 1/6 Evento B = aparezca el número 4 ---> P(B) = 1/6

P(A U B) = 1/6 + 1/6 = 2/6 = 1/3 = 0,333 Si se extrae aleatoriamente una carta de un juego de barajas españolas. ¿Cuál es la probabilidad

de que la carta sea de oros o sea de bastos? Evento A = la carta sea de oros ---> P(A) = 10/40 Evento B = la carta sea de bastos ---> P(B) = 10/40

P(A U B) = 10/40 + 10/40 = 20/40 = 2/4 = 1/2 = 0,50 ¿Cuál es la probabilidad de que sea un 2 o una figura? ¿Cuál es la probabilidad de extraer una bola roja o negra, si en una caja existen 3 bolas rojas, 4 negras y 3 verdes? ¿Cuál es la probabilidad de extraer una roja o una verde?

Eventos Solapados Se dice que dos eventos, A y B, son solapados o unidos, si tienen puntos muestrales en común.

Los puntos muestrales pertenecen tanto a A como a B, forman un subconjunto que se llama intersección A y B, representada por A B.

Para eventos solapados, la cantidad P(A) + P(B), incluye dos veces la probabilidad de los puntos

muestrales en el conjunto intersección, por lo tanto se debe sustraer a la P(A U B) la P(A B).

Page 62: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.55

P(A U B) = P(A) + P(B) - P(A B) Ejemplos

Si se extrae aleatoriamente una carta de un juego de barajas españolas ¿Cuál es la probabilidad de aparición de una copa o de un as? Evento A = sea una carta de copas ---> P(A) = 10/40 Evento B = la carta sea un as ---> P(B) = 4/40

Evento A B = la carta sea copa y as ---> P(A B) = 1/40

P(A U B) = 10/40 + 4/40 - 1/40 = 14/40 - 1/40 = 13/40 = 0,325

Si se lanza un dado ¿cuál es la probabilidad de que en la cara superior salga un número impar o un número divisible por 3? Evento A = salga un número impar P(A) = 3/6 Evento B = salga un número divisible por 3 P(B) = 2/6

Evento A B = salga número impar y divisible por 3 P(A B) = 1/6 P(A U B) = 3/6 + 2/6 – 1/6 = 4/6 = 0,67

Evento Complementario Se dice que dos eventos A y Ac, son complementarios si el segundo es un subconjunto que

contiene todos los eventos elementales del espacio muestral que no están en el primero, es decir, los sucesos complementarios son mutuamente excluyentes, su unión es el espacio muestral (S) y su

intersección es el conjunto vacío (). P(Ac ) = 1 - P(A) Ejemplo

Sea el lanzamiento de un dado. ¿Cuál es la probabilidad que el lado superior no sea un número divisible por 3? Evento A = número divisible por 3 ---> P(A) = 2/6 P(Ac ) = 1 - 2/6 = 4/6 = 0,666

Sea el lanzamiento de dos dados ¿cuál es la probabilidad de que los lados superiores de los dados no sumen 5? Evento A = los lados sumen 5 ---> P(A) = 4/36 P(Ac ) = 1 - 4/36 = 32/36 = 0,888

Regla de la Multiplicación

Eventos Independientes Se dice que dos eventos A y B, son independientes si la ocurrencia de uno no influye en la

ocurrencia del otro; es decir, que el resultado de uno no influye en el resultado del otro.

P(A B C D) = P(A) . P(B) . P(C) . P(D) Ejemplo

Sea el lanzamiento de cuatro monedas ¿cuál es la probabilidad de las cuatro monedas caigan cara?

P(A B C D) = 1/2 . 1/2 . 1/2 .1/2 = 1/16 = 0,0625

En una sección de Estadística, 10 alumnos son del Estado Lara y los 20 restantes del Estado

Page 63: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.56

Carabobo. Si se selecciona aleatoriamente dos alumnos ¿cuál es la probabilidad de que: a. ambos sean de Lara b. ambos sean de Carabobo c. el primero sea de Lara y el segundo de Carabobo. a. Evento A = uno sea de Lara ---> P(A) = 10/30 Evento B = otro sea de Lara ---> P(B) = 10/30

P(A B) = P(A) . P(B) = 10/30 . 10/30 = 100/900 = 0,111 b. Evento A = uno sea de Carabobo ---> P(A) = 20/30 Evento B = otro ea de Carabobo ---> P(B) = 20/30

P(A B) = 20/30 . 20/30 = 400/900 = 0,444 c. Evento A = el primero sea de Lara ---> P(A) = 10/30 Evento B = el segundo sea de Carabobo ---> P(B) = 20/30

P(A B) = 10/30 . 20/30 = 200/900 = 0,222

Probabilidad Condicional Se denomina probabilidad condicional del evento A, a la probabilidad de que ocurra A, dado que el

evento B ha ocurrido. Se representa por P(A/B), y se lee "probabilidad del evento A dado B", y se determina a través de la siguiente expresión.

P(A B) P(A/B) = --------------

P(B) Ejercicios

En un instituto educacional existe una matrícula de 390 alumnos, distribuidos en la siguiente forma: 7º grado, 100 varones y 80 hembras; 8º grado, 70 varones y 50 hembras; 9º grado, 50 varones y 40 hembras ¿Cuál es la probabilidad de que al seleccionar a una persona de ese grupo, sea una alumna dado que la persona seleccionada es del 8º grado? Evento A = sea una alumna Evento B = sea del 8º grado Evento A B = sea alumna del 8º grado

P(A B) 50/390 19500 P(A/B) = ----------- = -------------- = ------------ = 0,416

P(B) 120/390 46800

¿Cuál es la probabilidad de que al seleccionar en forma aleatoria una persona de ese grupo, sea alumno, dado que la persona seleccionada sea del 9º grado? Evento A = sea alumno Evento B = sea del 9º grado Evento A B = sea alumno del 9º grado Reduciendo el espacio muestral

P(A B) 50 P(A/B) = ---------- = -------- = 0,555

P(B) 90

Page 64: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.57

De la aplicación de una encuesta en una empresa de la región central, se sabe que el 40% de los obreros son mujeres y que el 20% de todas las obreras han iniciados estudios secundarios ¿Qué probabilidad existe de que al seleccionar un obrero en forma aleatoria, haya iniciado estudios secundarios, si se sabe que se seleccionó a una mujer? Evento A = haya iniciado estudios secundarios Evento B = sea mujer Evento A B = haya iniciado estudios secundarios y sea mujer

P(A B) 0,20 P(A/B) = -------------- = --------- = 0,50

P(B) 0,40

Eventos Dependientes Se dice que dos o más eventos son dependientes cuando el conocimiento de la ocurrencia de uno

de ellos altera la probabilidad de ocurrencia del o de los otros. Si A y B, son eventos dependientes, se tendrá

P(A B) = P(A) . P(B/A) Ejemplos

Una caja contiene cuatro tarjetas blancas y seis azules. Si se seleccionan aleatoriamente y sin reemplazo dos tarjetas. ¿Cuál es la probabilidad de que la primera selección sea una tarjeta blanca y la segunda sea una azul? Evento A = tarjeta blanca ---> P(A) = 4/10 Evento B/A = tarjeta azul siendo la primera blanca--->P(B/A)= 6/9

P(A B) = P(A) . P(B/A) = 4/10 . 6/9 = 24/90 = 0,2666

¿Cuál es la probabilidad de que las dos sean blancas?

P(A B) = P(A) . P(B/A) = 4/10 . 3/9 = 12/90 = 0,1333

En un conjunto de 50 libros, 10 son defectuosos. Dos libros son seleccionados aleatoriamente y sin reemplazo ¿Cuál es la probabilidad de que ambos libros sean defectuosos?

P(A B) = 10/50 . 9/49 = 90/2450 = 0,0367

Variable Aleatoria Es toda función numérica que permite asignar un número real y solo uno, a todos y cada uno

de los eventos elementales de un espacio muestral. X(S) = {x1, xn, ... xn}

Variable Aleatoria Discreta Es aquella variable que puede asumir un número finito de valores, es decir la cantidad de

valores que puede asumir es contable.

Variable Aleatoria Continua Es aquella variable que puede asumir cualquier número real en un intervalo o unión de

intervalos. Ej: talla, peso.

Para denominar las variables aleatorias se utilizaran letras mayúsculas: X, Y, Z, y los valores

que pueda asumir la variable con letras minúsculas x1, x2, y1,.

Page 65: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.58

Como los valores que puede asumir son integrantes de un espacio muestral, poseerán su probabilidad, de allí que el conjunto de pares ordenados formados por los valores de x y su

probabilidad, se le denomina función de probabilidad o distribución de probabilidad para

variables aleatorias discretas.

Valores de "X" (xi) i = 1, 2, ... n

x1 x2 x3 ... xn

Probabilidad P(X = xi) = f(xi)

f(x1) f(x2) f(x3) ... f(xn)

f(xi) = P(X = xi)

La función de probabilidad o distribución de probabilidades es el conjunto de los pares ordenados, formados por los valores de X y su probabilidad.

Ejemplo Obtener la función de probabilidad para "el número de caras" que se obtendrían en el

lanzamiento simultaneo de 3 monedas. (1) (2) (3) C CCC (3) X Nº de caras f(xi) C x1 = 0 -----> 1/8 S CCS (2) x2 = 1 -----> 3/8 C x3 = 2 -----> 3/8 C CSC (2) x4 = 3 -----> 1/8 S S CSS (1) C SCC (2) C S SCS (1) S C SSC (1) S S SSS (0)

La función de probabilidad de [xi ,f(xi)] donde f(xi) se designa para la probabilidad de que la variable aleatoria X, asuma el valor x, es decir f(xi) = P(X = xi). Ejemplo:

f(0) = P(X = 0) = 1/8 f(2) = P(X = 2) = 3/8 Ejercicios

Determine: a) f(X 3); b) f(1 X 3); c) f(0 < X < 1)

Representación Gráfica de la función de probabilidad X = Nº de caras f(xi)

Page 66: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.59

0 1/8 1 3/8 2 3/8 3 1/8

Función de Distribución Acumulada

X (xi)

f(xi) = P(X = xi)

F(x) = P(X xi)

3

1/8

8/8

2

3/8

7/8

1

3/8

4/8

0

1/8

1/8

F(0) = P(X 0) = f(0) = 1/8

F(2) = P(X 2) = f(0) + f(1) + f(2) = 1/8 + 3/8 + 3/8 = 7/8

Representación gráfica de la función de Distribución Acumulada

Esperanza Matemática Tan igual que una distribución de frecuencias, con sus dos características importantes: su

tendencia central y su variabilidad, ellas también lo son de una variable aleatoria.

La esperanza matemática, es una medida de tendencia central de una variable aleatoria. La esperanza matemática se denomina también "valor esperado" o "media" de una variable aleatoria.

La esperanza matemática de una variable aleatoria es la suma de los productos que se obtienen multiplicando todos los valores de la variable aleatoria por sus correspondientes probabilidades.

xx

ii

i

xfxXPxF )()()(

Page 67: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.60

)(*)(1

XifXiXEn

i

x

Ejemplo Si se lanzan tres monedas ¿Cuál es la esperanza matemática del número de caras? X = Nº de caras f(xi) xi . f(xi) 0 1/8 0

1 3/8 3/8 2 3/8 6/8 3 1/8 3/8 ----------

xi . f(xi) = 12/8 = 1,5 1,5 es el número de caras esperadas como promedio en los lanzamientos de las tres monedas.

Ejercicio

En cierto curso de Inglés hay 20 alumnos aprobados y 10 reprobados. Si se selecciona aleatoriamente dos alumnos, sin reposición, ¿cuál es el número esperado de alumnos aprobados en la muestra? A AA (2) P(AA) = 20/30 . 19/29 = 38/87 A P(AR) = 20/30 . 10/29 = 20/87 R AR (1) P(RA) = 10/30 . 20/29 = 20/87 P(RR) = 10/30 . 9/29 = 9/87 A RA (1) R R RR (0)

X = Nº aprobados f(xi) xi . f(xi) 2 38/87 76/87

1 40/87 40/87 0 9/87 0 -------------

xi . f(xi) = 116/87 = 1,33 E(X) = x = 1,33. Al seleccionar aleatoriamente dos alumnos, una y otra vez sin reemplazo, el promedio de alumnos aprobados es aproximadamente 1,33 en la muestra.

Varianza

Si X es una variable aleatoria, con esperanza E(X) = x , la varianza de "X", que se representa por

V(X) = 2 , se define como:

En el lanzamiento de las tres monedas, determine la varianza de la variable aleatoria definida

como "el número de caras obtenidas". X f(xi) xi * f(xi) X2 xi

2 * f(xi) 0 1/8 0 0 0

1 3/8 3/8 1 3/8

222 *)(*)( iii XfXXV

Page 68: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.61

2 3/8 6/8 4 12/8 3 1/8 3/8 9 9/8 ---------- ----------- xi . f(xi) = 12/8 = 1,5 xi

2. f(xi) = 24/8 = 3 = 3 - (1,5)2 = 3 -2,25 = 0,75

Determine la varianza para la variable aleatoria definida como "el número de alumnos aprobados

en la muestra"

X f(xi) xi . f(xi) X2 xi . f(xi) 2 38/87 76/87 4 152/87 1 40/87 40/87 1 40/87 0 9/87 0 0 0 ------------- -------------- xi . f(xi) = 116/87 = 1,33 xi . f(xi) = 192/87 = 2,21 V(X) = 2,21 - (1,33)2 = 2,21 - 1,77 = 0,44

Modelos Probabilísticos Un modelo probabilístico es una expresión matemática deducida de un conjunto de supuestos con

el doble propósito de estudiar los resultados de un experimento aleatorio y de predecir resultados futuros del experimento cuando se realiza repetidas veces.

Distribución Bernoulli Consiste en un experimento aleatorio que tiene solo dos resultados posibles: "éxito" y "fracaso", y

sus probabilidades se denotan con "p" y "q" respectivamente. Esperanza E(X) = p Varianza V(X) = p . q

Distribución Binomial Se refiere a una secuencia de eventos que poseen las siguientes propiedades:

1. Existen "n" pruebas de Bernoulli. 2. Los resultados de cada prueba se clasifican en dos categorías mutuamente excluyentes, llamadas arbitrariamente "éxitos" y "fracasos". 3. Los resultados de cada prueba son independientes. 4. La probabilidad de "éxito" en una prueba se representa por "p", y es invariable en todas las pruebas. La probabilidad de "fracaso" es representada por "q", y es igual a 1 - p. 5. En una prueba determinada, la atención se centra en si los resultados esperados ocurrieron o no. 6. El experimento se realiza en las mismas condiciones un número fijo de pruebas que se denota por "n".

Una variable aleatoria generada en las condiciones anteriores, se llama variable binomial, es discreta y tiene "n + 1" resultados posibles. Por ejemplo si se lanza una moneda tres veces, el número posible de caras es 0, 1, 2, 3; es decir (3 + 1) = 4 resultados.

Ejemplo de Distribución Binomial Si se lanza una moneda 3 veces, ¿cuál es la probabilidad de obtener exactamente dos caras?

222 *)(*)( iii XfXXV

Page 69: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.62

Aquí el resultados es independiente de los otros, además el lanzamiento puede dar como resultado cara o puede ser sello. Cualquier situación que contenga dos caras puede considerarse exitosa, luego:

(1) (2) (3) C CCC C S CCS C C CSC S S CSS C SCC C S SCS S C SSC S S SSS Todos estos resultados son eventos mutuamente excluyentes y por tanto, la probabilidad de "éxitos" por la ley de adición será la suma de las probabilidades individuales de todas las situaciones de éxito. SCC = 1/8 CSC = 1/8 CCS = 1/8 1/8 +1/8 + 1/8 = 3/8

Generalizando, la función probabilística binomial, es la probabilidad de obtener "x" éxitos en "n" pruebas independientes de un experimento con "p" como la probabilidad de éxito por cada prueba; es decir, la binomial se define por b(x, n, p).

Función de Probabilidad n f(x) = P(X = x) = ( ) px . qn - x x

Función de Distribución Acumulada

Si se lanza una moneda tres veces, ¿cuál es la probabilidad de obtener exactamente dos caras?

n = 3 f(2) = P(X = 2) = 3 (1/2)2 . (1/2) x = 2 p = 1/2 = 0,5 = 3 (1/4) . (1/2) = 3/8 q = 1/2

xnxn

x

n

xqpCxXPXF

**)()(0

Page 70: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.63

Se conoce que el 50% de los pre-escolares de un Jardín de Infancia, usan transporte, ¿cuál es la probabilidad de que en una muestra de 3 alumnos, 2 de ellos usen transporte. n = 3 x = 2 f(2) = P(X = 2) = 3 (0,5)2 . (0,5)3 - 2 p = 50/100 = 0,50 = 3(0,25)(0,5) = 3(0,125) q = 1 - p = 1 - 0,5 = 0,5 = 0,375

De cada 100 veces que se seleccione una muestra de 3 alumnos de ese Jardín de Infancia, es probable que en 37,5 veces, 2 alumnos usen transporte.

Si de un grupo de 20 aficionados al béisbol se sabe que 8 son fanáticos del Magallanes. Si se selecciona una muestra de 6 aficionados, ¿cuál es la probabilidad de que: a. 3 sean magallaneros. b. más de 3 sean magallaneros. c. menos de 3 sean magallaneros. d. 3 ó más sean magallaneros. e. 3 ó menos sean magallaneros. f. por lo menos 1 sea magallaneros. a) 3 sean magallaneros n = 6 x = 3 f(3) = P(X = 3) = 20(2/5)3 . (3/5)6 - 3 p = 8/20 = 2/5 = 0,40 = 20(8/125)(27/125) q = 1 - 2/5 = 3/5 = 060 = 20(216/15625) = 4320/15625 = 0,27648 f(3) = 20(0,064)(0,216) = 0,27648 Utilizando las tablas de distribución binomial n = 6 f(x) = P(X = x) x = 3 p = 0,40 f(3) = P(X = 3) q = 0,60 f(3) = 0,276 b. Más de 3 sean magallaneros n = 6 x = 4, 5, 6 P(X > 3) = f(4) + f(5) + f(6) p = 0,40 q = 0,60 f(4) = 15(0,4)4 . (0,6)6 - 4 = 15 (0,0256)(0,36) = 0,1382 f(5) = 6(0,4)5 . (0,6)6 - 5 = 6 (0,01024)(0,6) = 0,0369 f(6) = 1(0,4)6 . (0,6)6 - 6 = 1 (0,0041)(1) = 0,0041 P(X > 3) = 0,1382 + 0,0369 + 0,0041 = 0,1792 Utilizando la tabla Resultados posibles 0 1 2 3 4 5 6 <-----------¡---------> F(3) 1 - F(3) P(X > 3) = 1 - F(3) = 1 - 0,8208 = 0,1792

Page 71: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.64

Distribución Normal La distribución normal es un modelo matemático, que no existe realmente, sino que se intentó

como una función básica la cual rige las variables aleatorias continuas, a dicho modelo se aproximan las distribuciones de frecuencias como un límite (Bernoulli, Poisson se aproximan a la normal cuando "n" es grande.

La Curva Normal es la representación gráfica de una ecuación de probabilidades la cual presenta, entre otras, las siguientes propiedades: 1. La curva normal tiene forma de campana. 2. Sus parámetros son y . 3. La curva de la distribución es asintótica, es decir, las colas de la curva nunca llegan a tocar el eje de las abscisas. 4. La distribución normal es simétrica con respecto a la ordenada máxima, siendo por lo tanto, las medidas de tendencia central iguales entre sí. 5. Asume valores entre -oo y +oo .

6. Si "X" está normalmente distribuida con y , entonces,

X - z = -----------

estará también normalmente distribuida.

Esta transformación de "X" a puntajes típicos "z" (tipificación o estandarización) tiene el objeto de reducir a unidades en términos de desviación típica. Es decir, dado un valor "X", el correspondiente valor "z", indica el sentido y la distancia a que se encuentra "X" de su m (media aritmética) en términos de desviación típica. Esta propiedad permite transformar el modelo normal general en el modelo tipificado o estandarizado.

Una distribución normal es de forma estándar si su media aritmética es cero y su varianza igual a 1, por lo tanto, su desviación típica es la unidad.

Los valores de la función de distribución normal general no están tabulados, pero si lo están los de una variables estándar "z", siendo su expresión:

X - z = -----------

La función de densidad de una distribución normal es la siguiente:

(X - )2 1 - -------------

f(x) = ----------- . e 2

2

donde = 0 y = 1.

Probabilidades Acumuladas y Areas bajo la Curva Normal

Page 72: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.65

F(a) = P(X a)

F(a) = P(X A) 1 - F(a) = P(X a)

a = x o en un intervalo

P(a X b)

a b Ubicación para el Manejo de las tablas de Distribución Normal

F(-z) = P(X -z)

F(z) = P(X z)

D(z) = P(-z X z) Ejemplos

Luego de aplicar una prueba objetiva de Biología a los 70 alumnos cursantes del 9º grado, se

obtuvo una distribución normal con = 41,12 y x = 7,67. Determine: a. ¿qué probabilidad existe que un alumno se encuentre entre la media y 2,5 desviaciones? z = 2,5 ----> 0,9938

P(0 z 2,5) = 0,9938 - 0,50

P(0 z 2,5) = 0,4938

b

adxxf )(

Page 73: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.66

2,5 0.9938 ------------------------------------ b. ¿Cuál es la probabilidad que un alumno se encuentre entre la media y -2,5 desviaciones?

z = -2,5 ----> 0,0062

P(-2,5 z 0) = 0,50 - 0,0062

P(-2,5 z 0) = 0,4938

-2,5 0,0062 ---------------- c. Cuál es la probabilidad de que un alumno se encuentre entre ±2,5 desviaciones?

Dz = ±2,5 ----> 0,9876

P(-2,5 z 2,5) = 0,9876

-2,5 2,5 --------------------------- d. ¿Cuál es la probabilidad de que un alumno obtenga 45 puntos ó menos?

X - 45 - 41,12 z = ----------- = ---------------- = 0,51

7,67

P(z 0,51) = 0,6950

0,51 e. ¿Cuál es la probabilidad que un alumno obtenga 43 puntos o más?

Para resolver, lo primero es tipificar la puntuación 43

Page 74: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.67

X - 43 - 41,12 z = ---------- = ---------------- = 0,25

7,67

P(z 0,25) = 0,5987

P(z 0,25) = 1 - P(z 0,25)

= 1 - 0,5987 = 0,4013 0,25 0,5987 ----------------------- f. ¿Cuál es la probabilidad de que un alumno obtenga puntuaciones entre 30 y 35 puntos? Se tipifican ambos puntajes

X - 31 - 41,12 z1 = --------- = --------------- = -1,45

7,67 35 - 41,12 -1,45 -0,8 z2 = ---------------- = -0,8 7,67

P(30 X 35) = P(-1,45 z -0,8) f(-1,45) = 0,0735 f(-0,8) = 0,2119

P(-1,45 z -0,8) = f(-0,8) - f(-1,45) = 0,2119 - 0,0735 = 0,1384 g. ¿Cuál es la probabilidad que un alumno obtenga puntuaciones entre 45 y 50 puntos?

X - 50 - 41,12 z1 = --------- = ---------------- = 1,16

7,67 45 - 41,12 z2 = ---------------- = 0,51 7,67

P(45 X 50) = P(0,51 z 1,16) f(0,51) = 0,6950 f(1,16) = 0,8770

Page 75: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.68

P(0,51 z 1,16) = f(1,16) - f(0,51) = 0,8770 - 0,6950 = 0,1820

En una distribución normal, la probabilidad que un alumno se encuentre entre la ordenada máxima y otra ordenada ubicada por encima de la media es de 0,32. A que distancia en desviaciones típicas se encuentra esa ordenada?

Se debe tomar en cuenta la probabilidad de los valores de las ordenadas menores a la media P(z = 0) = f(0) = 0,50; por lo tanto, la probabilidad acumulada hasta esa ordenada será de 0,50 + 0,32 = 0,82.

Dicho valor lo obtiene en la tabla de áreas bajo la curva normal en la columna (z) ya que la ordenada se encuentra por encima de la media y luego se localiza el correspondiente valor z.

0,82 0,915 -----------------------

Luego utilizando la tabla de la distribución normal, que parte del porcentaje a z, ubicamos el 82% y

este indica en z() = 0,915

Determinar las puntuación máxima del 30% de los alumnos (Con el ejercicio inicial)

30% -----> z = -0,524 = 41,12

= 7,67

X - Z = ------------

- 0,54

X = (z . ) + = (-0,524 . 7,67) + 41,12 = 37,10 puntos

Determinar la puntuación mínima del 20% de los mejores alumnos

100 - 20 = 80% ----> z = 0,842

X = (z . ) + X = (0,842 . 7,67) + 41,12

Page 76: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.69

X = 47,58 puntos

0,842 ¿Qué puntuaciones limitan el 30% central de la distribución?

Se ubica el 30% en la tabla de distribución normal para D(z) 30% ----> z = ±0,385 X1 = (-0,385 . 7,67) + 41,12 X1 = 38,16 puntos X2 = (0,385 . 7,67) + 41,12 X2 = 44,07 puntos

0,385 0,385

En una distribución normal, entre dos ordenadas ninguna de las cuales es la máxima, se encuentra el 20% de los casos. Si se sabe que la que menos se aleja de la ordenada máxima se

encuentra a una distancia de z = 0,17, ¿a qué distancia se encuentra la otra ordenada? 57% + 20% = 77% 77% ----> z = 0,739

0,17 0,739

Page 77: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.70

EJERCICIOS A RESOLVER UNIDAD I 1. Escriba los elementos del espacio muestral: Conjunto de los números enteros entre 10 y 40 divisibles por 3. 2. Luego de corregidos los exámenes correspondientes al primer parcial, se asigna "A" a salir aprobado y "R" a salir reprobado. Si se extraen aleatoriamente tres elementos, escriba el espacio muestral de dicho experimento. 3. Basado en el ejercicio anterior, enumere los puntos muestrales del experimento: a. que el primer alumno elegido este aprobado. b. que el segundo alumno elegido este aprobado. c. que el tercer alumno elegido este aprobado. d. que el primero y el segundo alumnos estén aprobados. e. que el primero y el tercero estén aprobados. f. que el segundo y el tercero estén aprobados. g. que los tres estén aprobados. 4. ¿Cuál es la probabilidad de cada uno de los ejercicios anteriores (3). R: a. 1/2 b. 1/2 c. 1/2 d. 1/4 e. 1/4 f. 1/4 g. 1/8 5. Sea un juego de cartas francesas, ¿cuál es la probabilidad de extraer al azar un "diez"? R: 1/13 6. Sea el mismo juego de cartas. Si se extrae aleatoriamente una carta. ¿Cuál es la probabilidad de obtener un diamante o un corazón? R: 1/2 7. Con el mismo juego de cartas, si se extrae una carta, ¿cuál es la probabilidad de que sea un "as" o un "corazón". R: 4/13 8. Sea el lanzamiento de un dado equilibrado, ¿cuál es la probabilidad de obtener: a. un número impar? R: 1/2 b. un número menor que tres? R: 1/3 9. Sea el lanzamiento de dos dados equilibrados, ¿cuál es la probabilidad de que la suma de los lados sea: a. igual a siete. R: 1/6 b. igual a once. R: 1/18 c. una suma divisible por tres. R: 1/3 10, En una bolsa se colocan 4 bolas rojas, 5 negras y 11 blancas. ¿Cuál es la probabilidad de que al extraer una bola al azar esta: a. sea roja. R: 1/5 b. sea blanca o roja. R: 3/4 c. sea ni roja, ni negra. R: 11/20 11. En un curso de Música la probabilidad de que un alumno sea del Estado Yaracuy es de 0,10, la probabilidad de que toque cuatro es de 0,08 y la probabilidad de que sea del Estado Yaracuy y toque cuatro es de 0,04, si se extrae al azar un alumno, ¿cuál es la probabilidad de que sea del Estado Yaracuy o toque cuatro? R: 0,14

Page 78: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.71

12. Una caja contiene 4 bolas rojas y 3 negras, las bolas rojas están numeradas del 1 al 4 y las negras del 5 al 7. a. Escriba el espacio muestral de extraer aleatoriamente dos bolas sin reemplazo. b. ¿Cuál es la probabilidad de que ambas sean rojas? R: 6/21=0,29 c. ¿Cuál es la probabilidad de que por lo menos una sea roja? R: 18/21=0,8571 d. ambas sean del mismo color? R: 9/21 13. Responda al planteamiento anterior pero con reemplazo. b. R: 16/49 c. R:40/49 d. R: 25/49 14. Si se lanza un dado no cargado, ¿cuál es la probabilidad de no obtener un número par? R:1/2 15. Sea un mazo de barajas españolas. Si sale "oros", ¿cuál es la probabilidad de que sea un rey? R: 1/10 16. Cierto curso esta constituido por 6 varones y 10 hembras, entre las hembras 6 son de Falcón y 4 de Bolívar, entre los varones 4 son de Falcón y 2 de Bolívar. Si se elige al azar un alumno, ¿cuál es la probabilidad de que: a. sea hembra sabiendo que es Bolívar? R: 2/3 b. sea varón sabiendo que es de Falcón? R: 2/5 17. Si se extraen al azar dos cartas de un mazo de barajas españolas, ¿cuál es la probabilidad de que la primera sea una sota y la segunda un as? R: 1/100 18. Una urna contiene 4 bolas azules, 3 verdes y 7 rojas. Si se extraen sucesivamente dos bolas de la urna, ¿cuál es la probabilidad de obtener una bola verde y luego una roja? R:21/196 19, Sea el mismo ejemplo, ¿cuál es la probabilidad de obtener una bola verde y luego una roja, siendo el muestreo con sin reposición? R: 21/182 20. Sea un juego de carta francesas, si se extraen aleatoriamente dos cartas, ¿cuál es la probabilidad de que la primera sea un "as" y la segunda una "J"? a. con reemplazo R: 16/2704 b. sin reemplazo R: 16/2652 21. Una empresa ha perfeccionado dos tipos de tiza, A y B, estos productos han sido distribuidos a veinte de las cincuenta librerías de una ciudad, las veinte librerías escogidas venden A o B o ambas. 15 librerías venden la tiza A, 12 venden la B. Si se selecciona al azar una tienda de la ciudad, ¿cuál es la probabilidad de que este vendiendo la tiza A o B o ambas? R:2/5 22. Si se lanzan dos dados equilibrados, ¿cuál es la probabilidad de no obtener un doble (que ambas caras sean iguales). R: 5/6 23. La probabilidad de que un cierto alumno practique para un examen es de 0,30. Si solo el 5% de los alumnos aprueba dicho examen, ¿cuál es la probabilidad de que un alumno elegido al azar apruebe , si sabemos que practica? R: 0,17 24. Si de una caja que contiene 9 tarjetas rojas y 3 azules se extraen 2 tarjetas al azar: a. construya la distribución de probabilidades correspondiente a la variable aleatoria definida como "el número de tarjetas rojas en la muestra"

Page 79: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.72

b. la función de distribución acumulada. c. determine el valor esperado. R: 1,5 d. determine la varianza. R: 0,34 25. Sea el lanzamiento de un dado. Si X es la variable aleatoria que indica "el número de punto de la cara resultante": a. construya la distribución de probabilidades. b. construya la función de distribución acumulada. c. determine el valor esperado. R: 3,5 d. determine la varianza. R: 2,92 26. En una bolsa existen cuatro tarjetas numeradas 3, 4, 5, 6, si se extraen aleatoriamente y sin reemplazo dos tarjetas, y X define a la variable aleatoria "la suma de los dos números que se obtengan": a. construya la distribución de probabilidades. b. construya la función de distribución acumulada. c. determine el valor esperado. R: 9 d. determine la varianza. R: 1,67 27. En un examen de arrastre de Biología, de 50 alumnos que aparecen en acta solo se presentaron 30, de los cuales aprobaron 18. Si se selecciona al azar una muestra de 5 alumnos, ¿cuál es la probabilidad de que: a. 3 alumnos hayan aprobado? R: 0,3456 b. aprueben entre 2 y 4 alumnos? R: 0,8352 c. menos de dos aprueben? R: 0,087 d. más de 3 aprueben? R: 0,3369 e. ninguno apruebe? R:0,0102 28. Dentro de la Facultad de Educación se sabe que la probabilidad de que un alumno seleccione la mención de matemática es de 0,35. Si se selecciona al azar una muestra de 6 alumnos, ¿cuál es la probabilidad de que: a. al menos 3 seleccionen matemática? R: 0,3518 b. todos seleccionen matemática? R: 0,0018 c. dos no seleccionen matemática? R: 0,0950 29. Si se considera que en una universidad se gradúa uno de cada tres estudiantes que ingresan por primera vez, se desea saber la probabilidad de que en una muestra aleatoria de 8 estudiantes: a. Ninguno se gradúe? R: 0,0406 b. Se gradúen dos? R: 0,2756 c. al menos siete se gradúen? R: 0,0022 30. los alumnos cursantes de la sección A de un 8vo grado presentaron una prueba objetiva de Geografía: los resultados se distribuyeron estadísticamente, de lo cual se obtuvo la siguiente información:

Tamaño = 28 Desviación = 2,37 Media = 12,65 Si las puntuaciones obtenidas se distribuyen normalmente, determine: ¿cuál es la probabilidad de que un alumno seleccionado al azar este ubicado: a. entre la media y 1,75 desviaciones? R: 0,4599 b. entre la media y -0,78 desviaciones? R: 0,2823 c. entre ±1,18 desviaciones? R: 0,7620 d. entre -0,68 y 0,88 desviaciones? R: 0,5397

Page 80: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P. Capitulo VII

Material en elaboración. Uso experimental. pág.73

e. entre -0,83 y -1,12 desviaciones? R: 0,0719 f. entre 1,14 y 2,11 desviaciones? R: 0,1097 g. Determine cuántos alumnos obtuvieron 8 puntos o menos? R: 1 h. ¿Cuál es la probabilidad de que un alumno elegido al azar, obtenga una calificación de 16 puntos o más? R: 0,0793 i. ¿qué calificaciones limitan el 24% central? R: 11,92 y 13,35 j. ¿Cuál fue la calificación mínima del 20% de los alumnos con calificaciones mejores? R: 14,56 k. ¿Qué cantidad de alumnos existe entre la media y 6 puntos? R: 14 l. ¿qué calificación han alcanzado como máxima el 13% de los alumnos con más bajas puntuaciones? R: 9,96 31. De una prueba aplicada, la cual se distribuye normalmente, con una media de 32 y una desviación igual a 4. Calcular

a. P(28 X 34) R: 0,5328

b. P(31 X 35) R: 0,3721

c. P(36 X 39) R: 0,1186

d. P(24 X 28) R: 0,1359

e. P(X 24) R: 0,9772

f. P(X 30) R: 0,3085 32. Supongase que la temperatura T durante el actual mes ha estado distribuida normalmente con media 26o y desviación estándar de 3o, determine la probabilidad de que la temperatura este entre 27o y 30o , en una selección al azar. R: 0,2789* 33. Supongase que los puntajes de una prueba están normalmente distribuidos con media 76 y desviación 15. El 15% de loa alumnos, los mejores reciben una A; el 10% de los peores pierden el curso y reciben una D. Determine: a. el puntaje mínimo para merecer una A. R: 91,54 b. el puntaje mínimo para aprobar (No merecer una D) R: 56,77 34. muestra aleatoria de 200 alumnos los cuales se distribuyen normalmente con respecto al peso con una media de 54,250 Kgs y una desviación de 2,750 Kgs. a. determine la probabilidad de encontrar un alumnos entre 51 y 53 Kgs. R: 0,2074 b. ¿Cuántos alumnos están por encima de 54 Kgs? R: 107 c. ¿Qué porcentaje de casos se encuentra por debajo de 50 Kgs? R: 6,18% 35. En la validación de una prueba objetiva de Historia, se obtuvo que los puntajes se distribuyen normalmente para una muestra 80 alumnos con una media de 40 puntos y una desviación de 8 puntos. a. Si aprueba el 85%, ¿Cuál es la puntuación mínima de aprobación? R: 31,71 b. ¿Cuántos alumnos resultaron reprobados en función de la puntuación anterior? R: 12 c. Si el 12% de los alumnos se catalogan como excelente, ¿cuál es la puntuación mínima de ellos? E: 49,4 d. Si la puntuación mínima de aprobación es de 33 puntos, ¿cuál sería el porcentaje de aplazados? R: 19,49

Page 81: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 80

CAPITULO VIII: INTRODUCCIÓN A LA TEORÍA MUESTRAL

Inferencia Estadística. Estimadores y Parámetros Una de las aplicaciones más importantes de la Estadística es hacer inferencia acerca de grupos muy grandes basándose en la información obtenida de pequeños grupos. Es decir, tratar de conocer la población a partir de los datos de una o más muestras; la exactitud de esto depende de lo adecuadas que sean la o las muestras elegidas.

Conceptos Básicos

Población Conjunto finito o infinito de individuos o elementos que poseen una característica común. Ej. Población de un país. Número de estudiantes de la U.C.

Población Finita Es aquella que contiene un número determinado de elementos. Ej. Estudiantes de CUPIO. A este tipo de población se le llama también colectivo real, ya que esta compuesta por elementos concretos.

Población Infinita Es aquella cuyo número de elementos es tan grande que resulta imposible su determinación. Ej. Número de veces que una moneda puede lanzarse al aire. Este tipo de población constituye un tipo de colectivo o población hipotética, ya que sus elementos no existen concretamente pero sí en ciertas hipótesis. En este ejemplo, aún sin lanzar la moneda al aire existe una población teórica de todas las probabilidades de lanzarla. Es decir, que podemos definir esta población como el conjunto de todos los sucesos imaginables en el que pueda tener lugar un suceso. Si una población determinada puede estudiarse o realizarse en base a sus elementos directamente,

los cálculos o medidas obtenidas de ella se denominan parámetros, los cuales se designan con letras griegas. El revelamiento total de la población se denomina Censo.

Muestra Es una parte o subconjunto propio de una determinada población, es decir, que en un determinado número de individuos u objetos que han sido elegidos, cada uno de los cuales es un elemento de la población.

Los cálculos o medidas obtenidas a partir de las muestras se llaman estadísticos o estimadores, ya que a partir de ellos se determina o estima el valor del parámetro de la población. Se designan con letras latinas.

Simbología

Parámetros Estadísticos _

Media X

Desviación s

2 Varianza s2

Tamaño n

Porcentaje p

Page 82: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 81

En general, cualquiera que sea el fenómeno estudiado, es casi imposible el análisis de todos sus elementos, ya que es un proceso largo, costoso y estadísticamente peligroso, por cuanto que la

simple omisión de un elemento, afectaría el estudio en cuestión. De allí que existe una Teoría de

Muestras o Teoría Muestral: cuyo objetivo es determinar, con la mayor objetividad posible, el grado de confianza que puede tenerse en las estimaciones realizadas sobre el fenómeno en general en base al estudio de las muestras. Estas estimaciones se expresan en términos probabilísticos con ciertos márgenes de confiabilidad. Las conclusiones obtenidas a partir de una muestra tienden a: Estimar ciertas características de la población (parámetros), a partir del conocimiento de los

valores de las muestras (estadísticos). Probar hipótesis válidas para la población conociendo la información de las muestras.

La forma como se elige la(s) muestra(s), se denomina Técnica de muestreo, y de la forma y objetividad con que éste se realice, depende la exactitud de la inferencia a realizar. En el momento de esa selección pueden cometerse errores estadísticos que originan diferencias entre el valor del estadístico obtenido y el parámetro correspondiente. Tales errores se clasifican en:

ERRORES DE MUESTREO Es el resultado de la elección casual de unidades de muestras, esto ocurre porque solo se hace una observación parcial del conjunto. La diferencia entre el estadístico y el parámetro no es debido a técnicas inadecuadas de muestreo, sino que se trata de un error casual, implícito en la selección de la(s) muestra(s), es decir que la diferencia se debe al azar. Es debido a esto que dos muestras de una misma población pueden diferir con relación a un estadístico determinado. Existen técnicas estadísticamente determinadas para verificar si es así o no.

ERROR DE NO MUESTREO Más que errores debido al azar, son errores en las mediciones hechas. Comprende errores sistemáticos y equivocaciones. Entre los factores que causan estos errores están: definición inadecuada de la población, imperfección del marco, falta de definición del cuestionario aplicado, vaga información sobre lo que se desea investigar, métodos imprevistos de entrevista, errores en el uso de tablas de números aleatorios o al azar, etc. Para establecer inferencias válidas relativas a la población, es necesario que la muestra sea representativa de la población. El número de elementos o unidades incluidas en una muestra puede variar de uno a todos los

elementos de la población (1 n N). El tamaño real que ha de tomarse dependerá de la variabilidad de la población y del grado de precisión requerido. Una muestra que contenga una unidad de muestreo puede dar una información útil, pero las medidas de error de muestreo no pueden ser aplicadas a sus resultados. Una muestra que contenga todas las unidades de la población se llama muestreo exhaustivo, o muestra 100 por 100.

TIPO DE MUESTREO Con reemplazo Simple al azar Sin reemplazo Azar sistemático MUESTREO AL AZAR O PROBABILÍSTICO Proporcional Estratificado

Page 83: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 82

No proporcional Por Conglomerados Dirigido MUESTREO NO AL AZAR O NO PROBABILÍSTICO Por Cuotas Deliberado

MUESTREO AL AZAR Es conocido también como modelo de probabilidad, ya que siendo al azar se le pueden aplicar las leyes probabilísticas; el procedimiento de muestreo empleado es la aleatoriedad, de acuerdo con esto se conoce la probabilidad de selección de un elemento, pero no se puede decidir que elementos se incluirán en la muestra. En estas muestras probabilísticas se sabe cual es el error que puede cometerse en la estimación, es decir, se conoce el riesgo de equivocación al hacer una inferencia.

MUESTREO SIMPLE AL AZAR Es el proceso de selección de una muestra en el cual todos y cada uno de los elementos de la población tienen la misma probabilidad de ser incluidos en la muestra, es decir, tienen la misma probabilidad de ser elegidos. Este muestreo puede ser con o sin reemplazo.

CON REEMPLAZO Cada elemento extraído para una muestra regresa a la población, de tal manera que puede formar parte de otra selección. Poblaciones finitas se hacen infinitas a través de este procedimiento. La probabilidad de participación es igual a 1/N.

SIN REEMPLAZO Cada elemento extraído para una muestra no es regresado a la población, por lo tanto no puede formar parte de otra selección. La probabilidad de selección de cada elemento depende del número de elementos extraídos; es decir, la probabilidad del: 1er elemento es 1/N 2do elemento es 1/N-1 3er elemento es 1/N-2. La población se agota por este procedimiento, ya que un elemento extraído no vuelve a participar en la selección siguiente. Este método no se usa en poblaciones muy numerosas.

Una forma rápida de utilizar este procedimiento, muestreo simple al azar, es a través del la Tabla de

Números Aleatorios o al Azar. Otra forma de realizar este tipo de muestreo es utilizando la función

RAN en la calculadora con funciones estadísticas, o también los paquetes o procesadores estadísticos.

MUESTREO POR AZAR SISTEMÁTICO Es un procedimiento de muestreo, el cual consiste en elegir elementos para la muestra en intervalos sistemáticos, regulares o iguales a partir del primer elemento seleccionado al azar. Para fijar el intervalo se divide el total de elementos (población) entre la cantidad de los elementos que integrarán la muestra, es también denominado el elemento késimo (k = N/n), luego se elige el primer elemento y a continuación los demás elementos a razón del intervalo.

Page 84: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 83

Ejemplo Existe una población conformada por 800 elementos, y se desea obtener una muestra de 80 elementos.

El primer elemento se debe elegir entre 01 y 10, mediante la utilización de la tabla de números aleatorios se elige el Nº 4, el segundo elemento será el 14 (4 + 10), el tercero 24 (14 +10), hasta llegar al elemento ochenta que sería 794.

MUESTREO ESTRATIFICADO

Para utilizar este tipo de muestreo la población debe encontrarse dividida en estratos, los cuales son grupos homogéneos en cuanto a la característica a estudiar, luego se elige una muestra de cada estrato.

MUESTREO ESTRATIFICADO PROPORCIONAL El número de unidades seleccionadas de cada estrato es proporcional al tamaño de este. Posteriormente se eligen los elementos de cada estrato. Para determinar el número de elementos en cada estrato se puede determinar una fracción de muestreo.

donde n: muestra N: población Ejemplo La siguiente población pertenece a una delimitación que se ha realizado para una investigación y se desea determinar el tamaño de cada estrato que sea proporcional a la población, en una muestra de 150 sujetos Grupo A: 400 sujetos Grupo B: 500 sujetos Grupo C: 800 sujetos De allí entonces que el número de sujetos para cada estrato de manera proporcional será el producto del tamaño de cada estrato multiplicado por la fracción de muestreo.

Grupo A = 400. 0,0882 = 35,28 35

Grupo B = 500. 0,0882 = 44,10 44

Grupo C = 800. 0,0882 = 70,56 71 ------ n = 150

MUESTREO ESTRATIFICADO NO PROPORCIONAL El número de unidades seleccionadas de cada estrato no se corresponden proporcionalmente con el tamaño del estrato, se utiliza cuando existe una gran dispersión en los estratos, o sea que son muy diferentes unos de otros.

MUESTREO POR CONGLOMERADOS La población se encuentra dividida en sectores o grupos llamados conglomerados (grupo heterogéneos dentro de sí, pero homogéneos entre ellos), de donde se selecciona una muestra al azar correspondiente a los conglomerados, de acuerdo al tamaño determinado.

1080

800

n

NIntervalo

N

nmuestreodefracción __

0882,01700

150__ muestreodefracción

Page 85: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 84

Secuencia para la selección de Números Aleatorios con el STATS. El Stats es un procesador estadístico muy sencillo que viene con el libro Metodología de la Investigación de Hernández Sampieri y Otros, tiene muchas limitaciones pero es muy útil para la selección aleatoria y el tamaño de la muestra. Su secuencia de proceso es la siguiente

1. Seleccionar el Stats mediante el icono

Fig 8.1 Icono del Stats

2. Escoger Números Aleatorios.

Fig. 8.2 Menú principal del Stats

3. Escribir la cantidad de números aleatorios a seleccionar (tamaño de la muestra)

Fig. 8.3. Números aleatorios del Stats

4. Escribir el número de dígitos que van a tener los números aleatorios. 5. Si la población es infinita, escoger sin límites, si es finita establecer límite superior e inferior y 6. Pulsar Calcular. A continuación se genera una pantalla donde se muestran los números

aleatorios de acuerdo a las condiciones establecidas

MUESTREO NO AL AZAR O NO PROBABILÍSTICO Es un proceso de selección de muestras sin el uso del azar, se realiza sobre la base del juicio del experto, conveniencia del investigador. Este procedimiento esta sujeto a errores de muestreo que no se pueden medir.

MUESTREO DIRIGIDO Se seleccionan los elementos de una muestra sobre la base del juicio del investigador que cree que

Page 86: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 85

los resultados serán representativos.

MUESTREO POR CUOTAS Mediante este procedimiento se le asigna a cada encuestador un número de unidades de investigación, que debe cubrir, es decir una cuota de la cual debe recoger la información.

MUESTREO DELIBERADO Consiste en utilizar una parte de la población por parte del investigador a causa de su accesabilidad. Esto muestreos, no probabilísticos, presentan la problemática de la subjetividad y además que como no existe la selección aleatoria se reduce la posibilidad para la generalización a la población.

EJERCICIO Luego de realizada una encuesta en un grupo de alumnos, referente a la metodología empleada por el profesor, se obtuvo tres grupos. Grupo 1 Grupo 2 Grupo 3

Nº Alumno Puntuación Nº Alumno Puntuación Nº Alumno Puntuación 1 Andrés 18 10 Carmen 14 18 Luis 14 2 Carlos 19 11 José 26 19 Aída 28 3 Josefina 22 12 Fernando 22 20 Javier 17 4 Nicolás 17 13 Lucía 20 21 Marisol 19 5 Zaida 21 14 Pedro 18 22 Jorge 19 6 Mary 26 15 Elsy 19 23 Sara 16 7 Gustavo 13 16 Teresa 17 24 Paula 27 8 Victoria 19 17 Victor 16 9 Betty 16

Seleccione una muestra estratificada proporcional por grupo y sexo de tamaño diez (10), utilizando los dos últimos dígitos de la columna 4 de la tabla de selección aleatoria. Grupo 1 Grupo 2 Grupo 3 Varones 4 (44%) 4 (50%) 3 (43%) Hembras 5 (56%) 4 (50%) 4 (57%) Tamaño de la muestra por estrato:

Grupo 1: 9. 0,4167 = 3,75 4

Grupo 2: 8. 0,4167 = 3,33 3

Grupo 3: 7. 0,4167 = 2,92 3 Distribución por sexo Total Grupo 1: (4/9) Varones = 2 Hembras = 2 4 Grupo 2: (3/8) Varones = 2 Hembras = 1 3 Grupo 3: (3/7) Varones = 1 Hembras = 2 3 Ahora se determinan los elementos de cada grupo que conformarán la muestra, utilizando los dos últimos dígitos de la columna 4 de la tabla de números aleatorios, quedando elegidos los siguientes sujetos proporcionalmente dentro de cada grupo y sexo.

Sexo

Grupo 1

Grupo 2

Grupo 3

4167,024

10__ muestreodefracción

Page 87: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 86

Varones 07 - 02 12 – 17 20 Hembras

05 - 09

10

21 - 23

DISTRIBUCIONES TEÓRICAS EMPLEADAS EN ESTADÍSTICA INFERENCIAL Estas son herramientas que utiliza las estadística inferencial para realizar sus predicciones, se consideraran la normal, chi cuadrado, distribución F y distribución t.

DISTRIBUCIÓN NORMAL Ya fue considerada en el capitulo VII, y es un tipo particular de modelo matemático, unimodal y simétrica. De Moivre inventó la curva normal para darle solución fácil y aproximada a las aplicaciones de la teoría de probabilidades. Sus características y manejo de las tablas fueron estudiadas anteriormente, pero es importante para la estadística inferencial, motivado a que muchas técnicas inferenciales se basan en hipótesis, las cuales utilizan en una población, de distribuciones que se pueden describir como si fueran normal, ya que esta representa con alta precisión las distribuciones que poseen numerosos datos, los

cuales pueden comprobarse matemáticamente mediante el teorema del límite central.

DISTRIBUCIÓN CHI CUADRADO

Es una curva matemática que se representa por la letra griega y fue derivada por Karl Pearson. Partiendo de una distribución normalmente distribuida, cuya media es cero (0) y desviación típica de uno (1), si se toma una puntuación aislada X1 su puntuación típica (z) será z = (X1 - 0)/1 al denotar el cuadrado

z2 = 12

En otras palabras es tipificar al cuadrado con un gl.

PROPIEDADES

1. La media de una distribución 2, con n grados de libertad son igual a n.

2. La desviación típica es igual a n2

3. La distribución chi cuadrado es asimétrica positiva, pero con valores altos esta asimetría prácticamente desaparece. 4. Cuanto mayor sea n más se aproxima a la distribución normal. Su aplicación fundamental esta hacia los datos nominales.

DISTRIBUCIÓN F Es una distribución con m y n grados de libertad y además una razón entre cantidades estimadas al cuadrado.

PROPIEDADES 1. Es asimétrica positiva. 2. Es unimodal. 3. Su mediana es igual o inferior a uno (1).

4. Su media es igual a n/(n - 2) para n 3. 5. Su rango varía entre 0 y oo, ya que es una razón entre cantidades al cuadrado. Se utiliza para el contraste de varianza a nivel poblacional.

DISTRIBUCIÓN t

Page 88: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 87

Distribución desarrollada por W. S. Gossett bajo el seudónimo de "student". No existe una única distribución t, sino una familia de ellas, para cada número de grados de libertad se tendrá una distribución t diferente. Estas distribuciones se describen como curvas simétricas unimodales con media 0 y varianza n/n - 2, para n grados de libertad, son más achatadas que la distribución normal, de allí que cuanto mayor sea n, más se aproxima a la normal, si n es infinito la distribución t será igual a la normal.

PROPIEDADES

1. Su valor varía entre ± . 2. Es una distribución exacta. 3. Es unimodal simétrica con respecto a la media. 4. es más aplastada que la distribución normal. Su utilización se corresponde con la inferencia de muestras pequeñas (n < 30).

DISTRIBUCIONES MUESTRALES Una distribución muestral es aquella que esta formada por estadísticos de muestras. Es una distribución teórica de probabilidades de los valores posibles de algún estadístico muestral que ocurriría si obtuviéramos todas las muestras posibles, tamaño fijo, de una población dada. Las distribuciones muestrales más comunes son aquellas conformadas por estadísticos tales como la media y la varianza; es cuando se habla de distribución muestral de medias o distribución muestral de varianzas. Si se consideran todas las muestras posibles de tamaño "n" que puedan extraerse de una población determinada (con o sin reemplazo). Para cada una de las muestras se puede calcular un estadístico (la media, la desviación típica), los cuales variarán de una muestra a otra. De esta manera se obtiene una distribución del estadístico, la cual se denominará distribución muestral. Ejemplo

Sea la siguiente población: 2 - 3 - 5 - 7 - 9 - 11 - 12 - 14 - 17 y 19. Se va a construir una distribución muestral de la media; donde m es la media de la población, X es la media de la muestra y N es el total de datos de la población. Para la distribución muestral se tomarán grupos de diferentes extensiones y en cada grupo se formarán cuatro muestras. A cada muestra se le determinará la media para luego construir la distribución muestral de éstas.

Muestras de tamaño 2 (n = 2) (2, 3) (7, 9)

(9,11)

2,5 9,9 16,5 (14,19)

9,910

99

10

191714121197532

N

Xi

5,2X

8X

10X

5,16X

Page 89: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 88

Diferencia entre la media mayor y la menor 16,5 - 2,5 = 14

Muestras de tamaño 4 (n = 4) (2, 3, 5, 7) X = 4,25 (5, 7, 9, 11) X = 8 (9,11,12, 14) X = 11,5 4,2 9,9 15,5 (12,14,17,19) X = 15,5 Diferencia entre la media mayor y la menor 15,5 - 4,25 = 11,25

Muestra de tamaño 8 (n = 8) (2,3,5,7,9, 11, 12,14) X = 7,875 (2,3,5,7,9, 11, 17,19) X = 9,125 (2,3,5,11,12,14,17,19) X = 10,37 7,875 9,9 11,75 (5,7,9,11,12,14,17,19) X = 11,75 Diferencia entre la media mayor y la menor 11,75 - 7,875 = 3,875 Se observa que a medida que aumenta el tamaño de las muestras, disminuye la diferencia entre las medias mayor y menor, esto nos indica que cuando de una población definida, se extraen varios grupos de muestras, la diferencia entre la media mayor y la menor, disminuye a medida que aumenta el número de elementos de las muestras, esto en primer lugar. En segundo lugar, a medida que aumenta el tamaño de las muestras, las medias muestrales tienden a acercarse cada vez más a la media de la población: m, de allí que la distribución normal

esta caracterizada por , 2 y la distribución muestral se caracteriza por x , 2/n .

Se habla de distribución normal porque sé esta considerando una población lo suficientemente grande, tanto que se acerca a la normalidad.

Partiendo de esto se observa que la media de la población ( ) equivale a la media de la distribución

muestral de medias, es decir = x y la varianza de la población equivale a la media de la

distribución muestral de varianzas, es decir 2 = s 2.

TEOREMA DEL LÍMITE CENTRAL

Si de una población con media y varianza 2 , se extraen reiteradas muestras al azar, la

distribución de selección de medias muestrales será normal con media x y varianza 2/n. Si las muestras aleatorias son de tamaño grande, y se obtiene un gran número de ellas, la media de la distribución muestral de medias coincide con la media de la población (parámetro) y la media de las varianzas muestrales es igual a la varianza de la población. Ejemplo Sea la población 3 - 5 - 7 - 9. Determinar las muestras posibles de tamaño 2 (n = 2), con reemplazo. Nn = 42 = 16 muestras posibles.

Muestras Medias Muestrales

Page 90: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 89

(3, 3) (3, 5) (3, 7) (3, 9) (3) (4) (5) (6) (5, 3) (5, 5) (5, 7) (5, 9) (4) (5) (6) (7) (7, 3) (7, 5) (7, 7) (7, 9) (5) (6) (7) (8) (9, 3) (9, 5) (9, 7) (9, 9) (6) (7) (8) (9) A continuación se construye la distribución muestral de medias.

X f(xi) X . f(xi) 9 1/16 9/16 8 2/16 16/16 7 3/16 21/16 6 4/16 24/16 5 3/16 15/16 4 2/16 8/16 3 1/16 3/16

X.f(xi) = 96/16 Las representaciones gráficas de las distribuciones muestrales tienden a la normalidad, pero en la medida que aumenta el número en las muestras de la distribución, la curva se va haciendo leptocúrtica debido a que se concentran más hacia el centro de la misma. Si se representa gráficamente a la población se tendría lo siguiente: f 1 3 5 7 9 Xi Se observa que la representación gráfica es de forma simétrica rectangular; la distribución muestral de medias tiende a agruparse en forma de curva, específicamente hacia la normal. Ahora se determina el valor de la esperanza matemática de la distribución muestral de medias: Se determina el valor de la media de la población

Concluimos que la = 6 y x = 6 , de allí que = x

Para la misma población, se determina el valor de s Para determinarlo previamente se calculan las varianzas de las muestras, mediante la siguiente fórmula:

Muestras Varianzas Muestrales

(3, 3) (3, 5) (3, 7) (3, 9) (0) (2) (8) (18) (5, 3) (5, 5) (5, 7) (5, 9) (2) (0) (2) (8) (7, 3) (7, 5) (7, 7) (7, 9) (8) (2) (0) (2)

616/96)(* XifXx

64

24

N

X

1

)( 2

2

n

XXs

Page 91: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 90

(9, 3) (9, 5) (9, 7) (9, 9) (18) (8) (2) (0) Distribución Muestral de Varianzas s2 f(xi) s2 . f(xi) 18 2/16 36/16

8 4/16 32/16 s = s2.f(xi) = 80/16 = 5 2 6/16 12/16 0 4/16 0 ------------ s2.f(xi) = 80/16

Determinación de la varianza de la población ( 2)

X X - (X - )2 3 -3 9 5 -1 1 7 1 1 9 3 9 ---------

(X - )2 = 20

De allí que se concluya que s2 = 5 y 2 = 5; entonces s

2 = 2

Varianza de las medias muestrales ( 2x)

Las medias obtenidas y la cual se construyó la distribución muestral de medias, son las siguientes:

X f (X - x) (X - x)2 f.(X - x)

2 9 1 3 9 9 8 2 2 4 8 7 3 1 1 3 6 4 0 0 0 5 3 -1 1 3 4 2 -2 4 8 3 1 -3 9 9 ----- 40

5,216

40)(* 2

2

N

Xf x

x

Si la varianza de la distribución muestral de medias ( 2x) es igual a 2/n, se tendrá

entonces:

2

X2 = ------ donde 2 = X

2 . n , luego 2 = 2,5 . 2 = 5 n

2 = 5

2 2 5

X2 = ---------- ; n = --------- = --------- = 2 n = 2

N X2 2,5

54

20)( 2

2

N

X

Page 92: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 91

Si la varianza de las medias de muestras ( 2x) se le extrae la raíz cuadrada, se obtiene la

desviación típica de la distribución muestral, esto se conoce como el error típico.

. Se utiliza El error típico representa la confiabilidad de un estadístico, se expresa para predecir el parámetro de la población a partir de un estadístico de muestras. A mayor tamaño de la muestra menor error típico.

La desviación típica de una distribución muestral de medias será de n/ (x

). En

consecuencia, cuanto mayor sea el tamaño de la muestra, menor será la desviación típica, en la distribución muestral de medias, existiendo una mayor concentración de los estadísticos de dichas muestras, con tendencia a una curva leptocúrtica. Al considerar a las medias de las muestras como apreciación de la verdadera media de la población, se puede decir que las variaciones entre ambas se debe a ciertos errores en el proceso de inferencia por fluctuaciones del muestreo, de allí que la desviación típica de la distribución de

muestreo, pueda designarse como ERROR TÍPICO. En consecuencia, el error típico de medias

representado simbólicamente por X , depende del número de elementos que forman la muestra y de la variabilidad de los datos con respecto a la media aritmética, lo que se llama la desviación típica de la población. El error típico mide el grado en el cual se encuentra afectada la media por los errores de medición y fluctuación del muestreo, es decir aquellas variaciones inevitables que se presentan de muestra a muestra. En conclusión se puede decir que el error típico representa el error medio entre la distribución y el promedio del parámetro, es la desviación típica de la distribución muestral y a la vez representa la confiabilidad.

ESTIMACIÓN DE LOS PARÁMETROS DE LA POBLACIÓN

ESTIMADOR Y ESTIMACIÓN Un estimador es un procedimiento expresado a manera de regla o de fórmula por medio del cual se

obtiene un valor numérico denominado estimación. De esta manera n

XiX , que representa

el método por el cual se calcula una media muestral, es un estimador; pero el resultado numérico que se obtiene efectuando la operación la operación indicada es una estimación.

TIPOS DE ESTIMACIÓN

ESTIMACIÓN PUNTUAL Se intenta obtener el mejor valor estimado simple del parámetro. Se determina un único valor estimado al verdadero valor del parámetro. Se utiliza solo el estadístico muestral; es decir, ej. la media muestral, X, para estimar el parámetro poblacional correspondiente.

ESTIMACIÓN POR INTERVALOS Se intenta estimar el parámetro poblacional mediante la especificación de un intervalo de valores, determinado por un límite inferior y otro superior, dentro de los cuales posiblemente estará comprendido el verdadero valor del parámetro.

REQUISITOS PARA QUE UN ESTIMADOR SEA VALIDO

a. Debe dar en promedio la respuesta correcta o sea el valor medio de la población.

58,15,22

xx 58,15,22

xx

2

xx

Page 93: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 92

b. Debe dar valores que la mayoría de veces se aproxime al correcto.

PROPIEDADES DE LOS BUENOS ESTIMADORES Al seleccionar un estimador de un parámetro, es lógico que se desee seleccionar el "mejor estimador". Se han propuestos varios criterios para medir la "bondad" de los estimadores. Las características principales de un buen estimador consisten:

INSESGABILIDAD Se dice que un estimador es insesgado o no tendencioso del parámetro poblacional si la media de la distribución de medias de las muestras es igual al valor del parámetro estimado.

CONSISTENCIA Se dice que un estimador es consistente cuando tiende a aproximarse al valor del parámetro a medida que la muestra aumenta de tamaño.

EFICIENCIA Se dice que un estimador es más eficiente que otro para un mismo parámetro si la varianza del primero es menor que la varianza del segundo (estimador de varianza mínima).

SUFICIENCIA Se dice que un estimador es suficiente si utiliza toda la información que posee una muestra sobre el parámetro que estima.

SIGNIFICACIÓN DE UN ESTADÍSTICO. CONCEPTOS PREVIOS

NIVELES DE CONFIANZA

Se refiere a los valores en los cuales se va a determinar la significación de un estadístico con respecto al parámetro de la población. Es decir, determinan los valores críticos de dicho parámetro. Los más usados son:

95% ó 0,95 (1 - )

99% ó 0,99 (1 - )

NIVELES DE RIESGO Son los niveles de error que se pueden cometer en la significación de un estadístico. Los más usados son:

= 0,05 ó 5%

= 0,01 ó 1%

LÍMITES Y INTERVALOS DE CONFIANZA

INTERVALO Rango dentro del cual se encuentra comprendido el parámetro poblacional.

LIMITES Límites inferior y superior que definen el intervalo o rango.

Estadístico ± (Valor crítico)(Error típico)

GRADOS DE LIBERTAD Es el número de observaciones independientes de la muestra menos el número de parámetros de

Page 94: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 93

la población que deben estimarse a partir de las observaciones muestrales. Su fórmula general es:

gl = n - 1 Esto varía de acuerdo al parámetro a estimar y de las restricciones impuestas por ejemplo en la correlación, gl = n - 2. Para la significación del estadístico es necesario considerar el tamaño que posee la muestra, se considerara dos tipos:

MUESTRA GRANDE cuando n 30 y se utilizará la tabla de distribución normal. En los niveles que se están considerando, áreas bajo la curva normal en z(D)

99% ----> z = ±2,58

95% ----> z = ±1,96

MUESTRA PEQUEÑA cuando la n < 30 y se utilizará la tabla "t" de student, dependiendo de

los grados de libertad. Ejemplo: muestra de tamaño 4, determinar los valores críticos al 95 y 99% de confianza.

gl = n - 1 = 4 - 1 = 3gl Como una característica de curva de t de student es sesgada, viene dada en forma acumulada, de allí que: 99% ----> 99,5% y 95% ----> 97,5

0,975 ----> 3gl ----> t = ±3,18 0,995 ----> 3gl ----> t = ±5,84

Se sabe que la distribución normal ( , ) (0, 1) y que la distribución muestral ( x , / n ). Cualquier distribución muestral puede aproximarse a la normal a partir de una tipificación, es decir:

)1,0(/

Nn

X

Con esta aproximación pueden determinarse los límites o intervalo de confianza, dentro de los cuales probablemente se encontrará el parámetro de la población. Esto es lo que constituye la

estimación por intervalos, que no es más que la probabilidad que el parámetro de la población se encuentre entre los límites de confianza. Es decir:

Page 95: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 94

1)/

( Cn

XCp

En donde: -c y c son los valores críticos para un determinado nivel de confianza (z ó t)

1 - : nivel de confianza

: nivel de significación o error

Si = 0,01 1 - = 0,99

LIMITES DE CONFIANZA PARA LA MEDIA DE LA POBLACIÓN Va a permitir establecer el valor mínimo y máximo dentro de los cuales probablemente se encuentre la media de la población.

x

CX *

(n 30) (n 30)

Ejemplo: A 47 alumnos elegidos al azar, de los que van a ingresar al primer semestre de un instituto universitario, se les determinó la calificación promedio del bachillerato, siendo la misma de 12,25 puntos, y una dispersión de 2,63 puntos. En el nivel del 0,05, determine los límites dentro de los cuales se encuentra el verdadero valor de la calificación promedio del bachillerato de todos los alumnos que van a ingresar a dicho instituto. Datos n = 47 (Grande) n > 30 ---> z = ±1,96 X = 12,25 s = 2,63

= 0,05 12,99 pts

12,25 ± (0,38)(1,96) = 12,25 ± 0,74 11,51 pts

11,51 12,99

1)/*/*( nCXnCXP

x

zX *x

tX *

95,0)/*/*( nCXnCXP

x

zX *

38,047

63,2

n

s

x

α/2 α/2

Page 96: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 95

En la medida en que la distancia entre los límites sea más grande, el estimador será menos confiable. En este caso se espera que la media para todos los alumnos que ingresan a ese instituto universitario sea de 12,25 puntos pero en todo caso no será menor de 11,51 puntos ni mayor de 12,99 puntos en el nivel del 0,05. Ejemplo En la Unidad Educativa Batalla de Carabobo, se seleccionó una muestra aleatoria de 10 alumnos cursantes del sexto grado, a los cuales se les aplicó una prueba objetiva de Geografía y se obtuvo los siguientes resultados: Alumno A B C D E F G H I J Puntuación 23 24 25 28 17 16 24 26 23 22 En el nivel del 0,01, podría afirmarse que el rendimiento medio de la muestra es representativo para el total de alumnos del sexto grado en Geografía de dicha Unidad Educativa. Datos X = 22,8 s = 3,74

= 0,01 ---> gl = n - 1 = 10 - 1 = 9gl t = ±3,25

0,995

26,64 pts

22,8 ± (1,18)(3,25) = 22,8 ± 3,84 18,96 pts

18,96 22,8 26,64 El promedio de los alumnos que presentaron la prueba objetiva de Geografía en la UE Batalla de Carabobo, no será menor de 18,96 puntos ni mayor de 26,64 puntos. En cuanto a su representativa se puede decir que es poco representativa ya que existe mucha dispersión entre los límites (7,68), para ello se considerará: cuando se tenga una diferencia entre los límites, de 3 para puntuaciones, como representativa, si es mayor será poco representativa.

Secuencia para la determinación de los límites de confianza para la media poblacional con el

paquete estadístico Statgraphics. 1. Pulsar el botón Descripción en la barra de menú. 2. Del menú emergente seleccionar Data Numéricos. 3. A continuación seleccionar Análisis Unidimensional. 4. Escoger la variable, 5. Pulsar el botón Aceptar, se muestran las cuatro ventanas: resumen del procedimiento,

resumen estadístico, los gráficos: de dispersión y el de caja y bigotes. 6. Pulsar el botón de opciones tabulares del cuadro de análisis,

18,110

74,3

n

s

x

0,005

α/2 α/2

Page 97: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 96

7. Seleccionar Intervalos de confianza 8. Pulsar el botón Aceptar, a continuación muestra el intervalo de confianza

Fig. 8.3. Intervalo de Confianza para la media por el Statgraphics

Como se observa se encuentra el intervalo de confianza para la media como también para la desviación típica, encontrándose estos entre paréntesis (li = 20,1276 y ls = 25,4724), para cambiar a otro nivel de confianza se debe pulsar el botón derecho del mouse y seleccionar Opciones de ventana y cambiar el nivel deseado.

SIGNIFICACIÓN DE PORCENTAJE O PROPORCIÓN A través de este procedimiento se pretende estimar el porcentaje de la población a partir de un porcentaje de muestras. La distribución muestral de porcentajes está determinada por lo siguiente:

p: proporción o porcentaje de acierto q: proporción o porcentaje de error

El error típico o desviación típica de la distribución muestral de porcentaje El intervalo de confianza para el porcentaje de la población es

p ± z . p Ejemplo Se desea saber el porcentaje de alumnos en la Facultad de Ciencias de la Educación, que utilizan con regularidad la biblioteca como recurso complementario de estudios. Para ello se seleccionó al azar una muestra de 800 alumnos, de los cuales 200 usan la biblioteca con regularidad. En el nivel del 0,01, se podría afirmar que el porcentaje de uso de la biblioteca es representativo del total de alumnos de la Facultad de Ciencias de la Educación. Datos n = 800 (Grande)

= 0,01 ----> z = ±2,58

%25100*800

200p

q = 100 - p = 100 - 25 = 75%

n

qpp

*

53,1800

75*25*

n

qpp

0,99

α/2 α/2

21,05 25 28,95 %

Page 98: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 97

28,95%

p ± z . p = 25 ± (2,58)(1,53) = 25 ± 3,95 21,05% El porcentaje real no será menor de 21,05% ni mayor de 28,95%, en el nivel del 0,01, se puede considerar como poco representativo para el total de la población ya que presenta una dispersión de 7,9%. Para el procedimiento a través del procesador se utiliza la siguiente secuencia:

1. Pulsar en la barra de menú Descripción. 2. Del menú emergente seleccionar Contraste de Hipótesis. 3. Del cuadro de dialogo seleccionar Parámetro: Proporción Binomial. 4. Completar el cuadro de dialogo: Hipótesis nula, proporción de la muestra y tamaño de la

muestra. 5. Pulsar el botón Aceptar.

Fig. 8.4. Intervalo de Confianza para proporción o porcentaje por el Statgraphics Comparando con los resultados obtenidos en forma manual son muy semejantes, nótese que el procesador indica que es una aproximación el resto de los resultados será, analizados en el próximo capítulo.

SIGNIFICACIÓN PARA EL COEFICIENTE DE CORRELACIÓN DE PEARSON A través de este procedimiento se pretende estimar el coeficiente de correlación de Pearson de la población a partir de un coeficiente de correlación de muestras. El intervalo de confianza para el coeficiente de correlación de la población es Para realizar esta estimación existen dos fórmulas para el error típico:

Fórmula Clásica Conversión z de Fisher

OBJECIONES A LA FORMULA CLÁSICA a. El rxy de esta fórmula es el verdadero, por lo tanto corresponde a la población. Como generalmente no se conoce, se sustituye por el obtenido en la muestra, a fin de hacer una estimación del error típico del rxy , si este es errado también lo será la estimación. b. La distribución muestral del rxy no es normal, excepto cuando el rxy = 0 y n es grande, entonces

xyrxy Cr *

3

1

nzr

2

)(1 2

n

rxy

rxy

Page 99: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 98

si rxy es un valor entre ±0,40 y ±0,60 y n > 100 se usa la fórmula clásica, sino se utilizará la conversión de Fisher. Ejemplo Se seleccionó una muestra aleatoria de 110 casos de alumnos de FaCE que habían cursado y aprobado Lógica y matemática, obteniéndose un coeficiente de correlación de 0,49. En el nivel del 0,05 determine un intervalo de confianza para la correlación de toda la población de alumnos que han cursado y aprobado Lógica y Matemática en FaCE. Datos

n = 110 xyrxy zr *

rxy = 0,49

= 0,05 ----> z = ±1,96 0,63 0,35

La correlación entre Lógica y Matemática de los alumnos que la cursaron y aprobaron en FaCE, al nivel del 0,05, no será menor de 0,35 ni mayor de 0,63. Motivado al problema que presenta el conocer el coeficiente de la población es preferible utilizar la conversión de Fisher ya que esta depende únicamente del tamaño de la muestra. Entre sus características más importante se tiene: 1. Su distribución es aproximadamente normal. 2. El error típico solo depende de la magnitud de n y es independiente del valor del rxy. Ejemplo Un profesor de una Escuela Básica desea determinar el verdadero grado de relación existente entre Química y Biología del 9no grado. Para ello eligió una muestra aleatoria de 27 alumnos que habían cursado ambas asignatura, de las calificaciones obtenidas obtuvo un coeficiente de correlación de 0,70. Determine, en el nivel del 0,01, si dicho coeficiente es representativo de todos los alumnos del 9no grado que han cursado Química y Biología. Datos n = 27 (Pequeña)

07,02110

)49,0(1

2

)(1 22

n

rxy

rxy

14,049,0)07,0)(96,1(49,0*xyrxy zr

-1,96σ 0 +1,96σ z

0,35 0,49 0,63 rxy

0,95

Page 100: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 99

rxy = 0,70 ---> Conversión Fisher ---> rz = 0,87

= 0,01 muestra pequeña, tabla t de student gl = n - 3 = 27 - 3 = 24 al 0,995 ---> t = 2,8 rz rxy 1,43 0,90

0,31 0,30

Se desprende que la correlación de la población no será menor de 0,30, ni mayor de 0,90, en el nivel del 0,01. En cuanto a la representatividad se dice que el coeficiente de correlación es poco representativo para los alumnos de 9no grado de la EB que cursaron Química y Biología.

ESTIMACIÓN DE LA VARIANZA DE LA POBLACIÓN El estadístico que se va utilizar es:

siguiendo este estadístico una distribución aproximada a la de Chi cuadrado ( 2), la cual es asimétrica positiva

La variable aleatoria que lleva directamente al chi cuadrado es:

20,024

1

327

1zr

56,087,0)20,0)(8,2(87,0*zrz tr

-2,8 0 +2,8 t

0,35 0,49 0,63 rxy

1

)( 2_

2

n

XXs

)()1(_

2 XXns

1-α

1

)1(

1

)( 2_

n

ns

n

XXy

0,99

Page 101: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 100

donde "y" es la función de distribución chi cuadrado. A partir de esta variable aleatoria se van a determinar los valores críticos los cuales van a limitar el intervalo de confianza para la varianza de la población, utilizando la tabla para ello.

Límites de confianza para la varianza Ejemplo Un grupo de cinco alumnos presentó una prueba objetiva de Biología obteniéndose los siguientes resultados: 10 - 15 - 08 - 12 - 11. En el nivel del 0,05 establezca un intervalo de confianza para la varianza de la población. X (X - X) (X - X)2 08 -3,2 10,24 10 -1,2 1,44 11 -0,2 0,04 12 0,8 0,64 15 3,8 14,44 ---------

(X - X)2 = 26,80 gl = n - 1 = 5 - 1 = 4gl // c1 = 0,48 // c2 = 11,14

2,41 < 2 < 55,83 a nivel de desviación típica 1,55 < < 7,47 La varianza poblacional no será menor de 2,41 ni mayor de 55,83, al niel del 0,05 para todos los alumnos que presentaron la prueba de Biología. Estos límites no se determinan directamente con el paquete estadístico pero si observamos los resultados del intervalo de confianza de la media aparecen los de la desviación típica y pueden ser transformados en Varianza, elevándolos al cuadrado.

TAMAÑO DE LA MUESTRA En cualquier investigación que tenga como uno de sus objetivos una inferencia estadística surge, al comenzar la etapa de planificación, la pregunta acerca del tamaño de la muestra que se va a seleccionar. En cualquier investigación es de gran importancia que la muestra que se va a obtener sea de tamaño adecuado. Si se toma una muestra demasiado grande se pierde dinero y otros recursos, si la muestra es demasiado pequeña produce resultados inútiles. Se sabe que, cuando la estimación de la media poblacional es la meta inferencial de una investigación, una vez que se ha seleccionado la muestra y se tienen los datos disponibles para el análisis, se construirá un intervalo de confianza

1

22

2

2

1

2_

2

2

2_

)1()1()()(

c

ns

c

nsó

c

XX

c

XX

48,0

80,26

14,11

80,26)()(2

1

2_

2

2

2_

c

XX

c

XX

0,95

0,975

Page 102: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 101

Estadístico ± (Valor crítico)(Error típico)

se puede observar que de la segunda parte de la ecuación nz /* se puede despejar "n" para

determinar su valor.

Si se sabe que nz /* es igual a la mitad de la amplitud del intervalo de confianza; la distancia

máxima que hay entre la estimación y la media verdadera. Si antes de extraer la muestra se puede especificar la amplitud del intervalo que se desea construir, se habrá determinado la magnitud

deseada de z . / n . Al determinar la amplitud de este, el intervalo, se estaría determinando lo más cercano que estaría la estimación de la media verdadera. Si se considera esa distancia como el error (e) se tendría: quedando de allí que la fórmula para determinar el tamaño de la muestra en poblaciones infinitas sería:

(N 100.000) Lo más problemático para la utilización de esta fórmula es el conocer la varianza poblacional, de allí que sea necesario estimarla y se puede hacer a través de:

a. una muestra piloto, el investigador puede extraer una muestra piloto y le determina la varianza siendo esta estimación utilizada como la poblacional.

b. estudios previos similares, estudios realizados con anterioridad, se utilizan estos resultados para utilizar la fórmula. Para poblaciones finitas se tiene la siguiente fórmula:

(N < 100.000) Las fórmulas, permiten la determinación del tamaño de la muestra para la estimación de la media poblacional. Para la estimación de las proporciones o porcentajes poblacionales se tiene las siguientes.

(N 100.000) Poblaciones infinitas

(N 100.000) Poblaciones finitas Existe una fórmula que nos permite obviar un tanto el conocimiento de la varianza poblacional o de las proporciones, esta es la fórmula de Domenech y Massons, la cual considera el tamaño de la muestra y el error del investigador:

nze *

2

22 *

e

zn

)1(*

**222

22

Nez

zNn

2

22 **

e

qpzn

)1(**

***22

22

Neqpz

qpzNn

Page 103: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 102

Ejemplo Se desea determinar el promedio de la aptitud mecánica de un grupo mayoritario de estudiantes. ¿Qué tamaño de la muestra se necesita para asegurar, en el nivel del 95% de confianza, para que la media no diste en más de 3 puntos de la media poblacional? Si se conoce de experiencias que la desviación típica es de 18 puntos. Datos

nivel: 95% ---> z = 1,96 ; = 18 ---> 2 = 324 e = 3 Con una muestra de 138 se puede realizar una estimación que sea representativa de la población. De una población de 1623 alumnos cursantes en una Unidad educativa, se desea hacer un estudio en cuanto al promedio de calificaciones obtenido por ellos. Si el Director de dicho instituto se plantea un error del investigador del 5%, determine el tamaño de la muestra para que esta sea representativa de toda la población. Datos N = 1623 e = 0,05 n = 321 alumnos Para que la muestra sea representativa de la población se necesita seleccionar a 321 alumnos. Si deseamos utilizar algún software para determinar el tamaño de la muestra existen también muchos, pero con el Statgraphics no es muy práctico así que recurrimos al STATS, que para el tamaño de la muestra es bastante sencillo, para ello seguiremos la siguiente secuencia:

1. Activar el Stats. 2. Seleccionar el tamaño de la muestra, de la pantalla que muestra 3. Completar el tamaño de la población (universo), error máximo posible, el porcentaje

estimado en la población si es conocido, sino dejarlo en 50% y el nivel de confianza al cual se hará el trabajo, luego de estos

4. Pulsar el botón calcular y mostrara, cuanto es la muestra

1)1(2 Ne

Nn

1383

)324()96,1(**2

2

2

22

e

qpzn

1)11623()05,0(

1623

1)1( 22 Ne

Nn

Page 104: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 103

fig. 8.5 Resultados del tamaño de la muestra por el Stats

Hemos considerado la misma población como también el error máximo y por el Stats el tamaño de la muestra es de 310,6338.

Ejercicios 1. Sea el siguiente grupo de 12 alumnos:

Juan María Alicia Roberto Gabriela Tomás Mauricio Bárbara Juana Susana Marta Yanina

1.a. Seleccionar una muestra aleatoria de ocho alumnos, utilizando los dos últimos dígitos de la columna 4 de la tabla de números aleatorios, como también por el Stats. 1.b. Seleccionar una muestra de 10 alumnos, mediante muestreo estratificado proporcional utilizando los dos primeros dígitos de la columna 8, para ello también utilice el Stats. R: 7 hembras y 3 varones. 2. Una población esta formada por las siguientes puntuaciones: 14; 10; 12; 8; 6. 2.a. Obtenga todas las muestras posibles de tamaño 2 con reemplazo.

2.b. Demuestre que = x y 2 = s2.

3. Si se selecciona una muestra de tamaño n a partir de una población con media y varianza 2. Si el tamaño de la muestra permite suponer que X se distribuye normalmente, determine las probabilidades de que X, se encuentre entre los siguientes puntos:

3.a. - n

y + n

R: 0,6827

3.b. - 1,64 n

y + 1,64 n

R: 0,8990

3.c. - 2,58 n

y + 2,58 n

R: 0,9901

3.d. - 1,96 n

y + 1,96 n

R: 0,9500

4. Para una muestra de 10 profesores de una escuela básica se observaron las siguientes edades: 45; 37; 37; 30; 29; 44; 39; 35; 40; 33. Establezca un intervalo de confianza al nivel del 0,01, para la edad promedio de la población. R: (31,38 - 42,42) 5. Con la población de 50 alumnos en el ejercicio 4 del capítulo VI:

Page 105: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 104

5.1. Determine el tamaño de la muestra con un error máximo del investigador del 15% 5.2. Seleccione esa muestra por azar simple. 5.3. Con el nivel del 0,05, en la muestra obtenida en el 5.2., establezca un intervalo de confianza para el promedio de edad cumplida. 5.4. En el nivel de confianza del 99%, será cierto que para toda la población de alumnos el promedio del índice académico es representativo. 5.5. Determine en el nivel del 0,05, si la relación existente entre las calificaciones del primer lapso y la resolución de problemas es significativamente distinta de cero.

6. Con la misma población: Determine el tamaño de la muestra con un error máximo del investigador del 25%. Seleccione la muestra estratificando por sexo y turno de estudio. Entre que límites se encuentra el promedio de las hembras en las calificaciones en el primer lapso, con un nivel de confianza del 95% En el nivel del 0,05, determine si el promedio de notas en el trabajo de investigación es representativo para toda la población. En el nivel del 0,05, determine los límites fiduciales para el promedio del trabajo de investigación para los alumnos del plantel público, e indique si es representativo Será cierto que al nivel del 0,01, que el promedio de la edad es representativo para los alumnos que ingresan por CNU. Determine en el nivel del 0,01, si la relación existente entre la edad y el trabajo de investigación. 7. En FaCE se seleccionó una muestra aleatoria de 320 alumnos y se les interrogó acerca de los nuevos aranceles. De los análisis de las respuestas se obtuvo que 250 de ellos no están de acuerdo con los nuevos aranceles. En el nivel del 0,05, podemos afirmar que los alumnos de FaCE (representados por la muestra) están en desacuerdo en un 75% con los nuevos aranceles. R: (73,45% - 82,55%). 8. Se desea realizar la estimación de la proporción de familias que en un barrio tienen ingresos medios mensuales superiores a Bs. 50000; para ello se eligió una muestra aleatoria de 900 familias, de las cuales 480 tenían ingresos superiores a Bs. 50000. En el nivel del 0,01 establezca un intervalo de confianza para la proporción de la población. R: (0,49 - 0,57) 9. Si se conoce que la desviación típica de las puntuaciones de cierta población es 20. ¿Cuál sería el tamaño de la muestra para que el error típico de la media sea igual 10.a. a 2 R: 100 10.b. a 1 R: 400 10. Si el coeficiente de correlación existente entre las puntuaciones de las asignaturas Sociología y Sociología de la Educación para una muestra de 23 alumnos es de 0,81, en el nivel del 0,05 establezca los límites fiduciales para el coeficiente de correlación verdadero. R: (0,58 - 0,92) 11. Un consejero escolar desea calcular la proporción de 1000 alumnos del último año que piensa continuar estudios en la universidad. Determine el tamaño de la muestra que necesita tomar el consejero, si su estimación debe estar a 0,05 del valor verdadero con un 95% de confianza, si se conoce que el año anterior el 70% de los encuestados dijeron que tenían planeado seguir estudios en la universidad. R: 359 12. Se ha aplicado una prueba de Castellano a los alumnos de una escuela básica y se ha obtenido una desviación típica de 15. ¿Cuál sería el número que debería tener la muestra para que el error muestral máximo en el nivel del 0,01 12.1. sea de 3 puntos con respecto a la media poblacional. R: 167 12.2. sea de 8 puntos con respecto a la media poblacional. R: 23 13. En un Distrito Escolar se sabe que la población se encuentra dividida de la manera siguiente de acuerdo al nivel de estudio: Nivel Alumnos

Pre-escolar 3200 Básica 7700

Page 106: Apuntes de Estadística

lexander Pinto y Neilé Pernalete Capítulo VII

pág. 105

Media Diversificada 4300 Universitaria 800

13.1. Determine el tamaño de la muestra para que sea representativa de la población con un error máximo permitido del 4%. R: 602 13.2 Luego de determinado el tamaño de la muestra que cantidad de alumnos correspondería a cada nivel de manera proporcional. R: (120 - 289 - 163 - 30). 14. Si de una población de 1832 sujetos se desea determinar el tamaño de la muestra para que sea representativa de la población con un error máximo admitido del 5%. R: 328.

Page 107: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 105

CAPITULO IX: INFERENCIA ESTADÍSTICA: PRUEBA O CONTRASTE DE HIPÓTESIS En el capítulo anterior se desarrollo una de las técnicas más útiles en el campo de la inferencia estadística, la estimación de parámetros o intervalos de confianza. En este capítulo trataremos la prueba de hipótesis, quizás lo más común en el campo de la inferencia. La prueba de hipótesis emplea los mismos conceptos de la estimación de intervalos. Aunque la prueba de hipótesis y la estimación de intervalos se llevan a cabo de diferente forma conducen a resultados y conclusiones comparables. La palabra hipótesis se puede definir de las siguientes maneras, a saber:

afirmación que está sujeta a verificación o comprobación.

suposición que se utiliza como base para una acción.

aseveración acerca de la veracidad de algo. Partiendo de allí, se encuentra que la clave, una hipótesis es una afirmación o suposición y no un hecho establecido. Por ejemplo, al no existir un conocimiento previo sobre la efectividad de dos métodos de enseñanza, un investigador trata de proponer la hipótesis de que para la enseñanza de la lectura a estudiantes del primer año, el método A es superior al método B. Hipótesis de esta naturaleza pueden basarse en la experiencia y la observación, experimentación o la intuición. Las hipótesis establecidas en esta forma proporcionan con frecuencia motivo para realizar una investigación. Por esta razón se pueden denominar hipótesis de investigación.

HIPÓTESIS DE INVESTIGACIÓN Se define como un enunciado predictivo el cual relaciona una o más variable dependiente con una o más variables independientes. Dicho enunciado es una suposición que debe ser confirmada. Ejemplo: “Los niños que reciben orientación demostrarán mayor aumento en la creatividad que aquellos que no la reciben”. Esto constituye lo que se llama también hipótesis de trabajo. Generalmente la hipótesis de investigación es necesario volverlas a plantear antes de ser comprobadas estadísticamente. Cuando ya se han planteado en forma conveniente, de tal forma que se puedan comprobar por medio de los métodos estadísticos, reciben el nombre de hipótesis estadísticas.

HIPÓTESIS ESTADÍSTICAS Consisten en postulados predictivos que se establecen en base a la hipótesis de investigación y se comprueban estadísticamente, en otras palabras son afirmaciones sobre uno o más parámetros de una o más poblaciones. Las hipótesis estadísticas son de dos tipos: Hipótesis Nula y la Hipótesis Alternativa.

HIPÓTESIS NULA (Ho) Postulado que no establece diferencia entre el o los resultados obtenidos (muestra) y los teóricos (población). Es la hipótesis que realmente se toma para ser verificada través de los procedimientos estadísticos. Especifica los valores hipotéticos para uno o más parámetros poblacionales. Recibe también el nombre de hipótesis de ninguna diferencia. Su nombre es debido a que es “el punto de partida” de una investigación. Resumiendo la hipótesis nula es

Page 108: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 106

una afirmación que no establece diferencia entre dos poblaciones o entre el valor verdadero de algún parámetro y su valor hipotético.

HIPÓTESIS ALTERNATIVA (H1) Postulado que afirma que el parámetro poblacional tiene un valor distinto al hipotético. Es una aseveración sobre el mismo parámetro poblacional que se utiliza en la hipótesis nula. El rechazo de la hipótesis nula implicará la aceptación de la hipótesis alternativa, lo cual indica que los datos particulares proporcionan suficiente evidencia para concluir que la hipótesis nula era falsa y por lo tanto la segunda hipótesis, la alternativa, es verdadera. La hipótesis alternativa puede ser direccional o unilateral cuando se indica la dirección de la diferencia, y no direccional o bilateral cuando afirma solamente que el parámetro poblacional es diferente al hipotético. Es decir se formula operacionalmente la hipótesis de investigación. Escritura simbólica de las hipótesis estadísticas. Para una sola muestra Ho: µ = 100 pts

H1 : µ 100 pts (No direccionada) -----> Indica diferencia H1 : µ > 100 pts (Direccionada) ---------> Indica aumento H1 : µ < 100 pts (Direccionada) ---------> Indica disminución Para dos muestras

Ho : µ1 - µ2 = 0 ( 1 = 2)

H1 : µ1 - µ2 0 ( 1 2)

H1 : µ1 - µ2 > 0 ( 1 2)

H1 : µ1 - µ2 < 0 ( 1 2) Ejemplos para plantear las hipótesis estadísticas a partir de la hipótesis de investigación Hipótesis de Investigación El método A es más efectivo que el método B para la enseñanza de la lectura en alumnos del séptimo grado. Ho: µA = µB (Las dos medias son iguales) H1 : µ1 > µ2 (El método A da un puntaje promedio mayor que el método B). Hipótesis de investigación El porcentaje de alumnos que está de acuerdo con la metodología del profesor es del 58%. Ho : ¶ = 58% (El porcentaje es igual al 58%)

H1 : ¶ 58% (El porcentaje es diferente del 58%, ya que no indica dirección). Si la hipótesis nula no es rechazada, se dice que los datos particulares de la muestra no aportan la evidencia suficiente como para concluir que la hipótesis nula es falsa.

PRUEBA DE HIPÓTESIS

Page 109: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 107

Es el proceso de usar la muestra para contrastar o comprobar si la hipótesis formulada es verdadera o falsa; no existiendo certeza de que no se cometerán equivocaciones. Es denominado también “Prueba estadística de la verdad o falsedad de la hipótesis”. Teniendo en cuenta los resultados que se obtienen en el análisis de los datos de la muestra, se rechaza o no la hipótesis nula. Rechazar la hipótesis nula no constituye una prueba de que sea realmente falsa, cabe la posibilidad de que esta última sea verdadera y de que la hipótesis alternativa sea falsa. De la misma manera que en el caso anterior, aunque la hipótesis nula no sea rechazada, cabe la posibilidad de que sea falsa. La consideración de estos hechos lleva a la conclusión de que el rechazo o no rechazo de la hipótesis nula se corre el riesgo a equivocarse. Los dos tipos de errores posibles son:

Error Tipo I ( ) : es el que se comete cuando se rechaza la hipótesis nula a nivel de la muestra y esta a nivel de la población es cierta, esto es el rechazo de una hipótesis nula verdadera.

Error Tipo II ( ) : es el que ocurre cuando a nivel de la muestra se acepta la hipótesis nula y esta a nivel de la población es falsa, consiste en la aceptación de una hipótesis nula falsa.

Muestra

Población Ho H1

Ho

No hay error

(1- )

Error Tipo I

( )

H1

Error Tipo II

( )

No hay error

(1 - )

Se denomina al nivel de significación. Cuando se selecciona un nivel de significación igual a

y se rechaza la hipótesis nula, se dice que los resultados de la muestra son significativos. El

se fija antes de empezar la selección aleatoria de la muestra. Los más utilizados en el campo de las ciencias sociales son

= 0,05

y = 0,01

Estadístico pertinente, se refiere al estadístico particular que va a formar parte del procedimiento de verificación de hipótesis y está determinado por el parámetro que tiene relación con la hipótesis. Si se trata de verificar una hipótesis sobre una media poblacional, el

estadístico pertinente es la media muestral X

Cuando se está practicando una prueba de hipótesis existen una serie de pasos análogos que pueden seguirse, a saber:

1. FACTORES: TAMAÑO PEQUEÑA (n < 30)

Page 110: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 108

DE LA

MUESTRA GRANDE (n 30) BILATERAL (establece diferencias) CONTRASTE UNILATERAL (indica una dirección) VARIANZAS DESCONOCIDAS (Hacer Prueba F) DE LA POBLACIÓN CONOCIDAS TIPO DE CORRELACIONADAS MUESTRA NO CORRELACIONADAS O INDEPENDIENTES

2. PLANTEAMIENTO DE HIPÓTESIS Hipótesis Nula (Ho): (Siempre plantea igualdad) Hipótesis Alternativa (H1 ): (Plantea diferencias)

3. RAZÓN CRÍTICA POBLACIONAL (z ó t )

Si n 30 se utiliza como valor crítico z , de acuerdo al contraste.

Si n < 30 se utiliza como valor crítico t , de acuerdo al contraste y los grados de libertad; estos valores críticos son valores teóricos y van a depender del nivel de confianza o de significación. De acuerdo a este planteamiento existen regiones de rechazo y de aceptación de la hipótesis nula, de allí que la región de rechazo consta de todos aquellos valores de estadístico de prueba que son de tal magnitud que, de ser el valor observado del estadístico de prueba igual a uno de ellos, la hipótesis nula se rechaza. La región de aceptación es el complemento de la región de rechazo. Si el valor observado del estadístico de prueba es igual a alguno de los valores que componen la región de aceptación, la hipótesis nula no se rechaza. El tamaño de las regiones de rechazo y

aceptación esta determinado por el error tipo I ( ). Se dice que un valor calculado es significativo si lleva a concluir que se rechaza una hipótesis nula.

Page 111: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 109

La ubicación de la zona de rechazo depende de la hipótesis alternativa. Si H1 indica dirección

(aumento o disminución), se tiene que es una prueba UNILATERAL (de un extremo) H1 : µ1 > µ2 ; si H1 no indica dirección, solo establece diferencia o desigualdades, allí se esta en

presencia de una prueba BILATERAL (de dos colas o extremos); H1 : µ1 µ2.

BILATERAL UNILATERAL

4. RAZÓN CRITICA MUESTRAL O ESTADÍSTICO DE PRUEBA (z ó t ) Estadístico de prueba, es una cantidad numérica que se determina a partir de los datos de la muestra y que se utiliza para tomar la decisión de rechazar o no una hipótesis nula.

5. REGLA DE DECISIÓN Y DECISIÓN ESTADÍSTICA Consiste en comparar el valor real calculado del estadístico de prueba con el valor

crítico de esta (z ó t ). Si este valor calculado esta en la región de rechazo, se rechaza la hipótesis nula, de lo contrario, no se puede rechazar.

Si z < z Se acepta Ho Si t < t Se acepta Ho

Si z z Se rechaza Ho Si t t Se rechaza Ho

PRUEBA DE HIPÓTESIS PARA LA MEDIA Un orientador esta interesado en verificar la calificación promedio de los alumnos que ingresan al Ciclo Diversificado, ya que estima que esta es de 11 puntos para toda la población. Para comprobarlo seleccionó una muestra aleatoria de 17 alumnos y obtuvo de ellos una calificación promedio de 10,78 puntos y una variabilidad de 2,22 puntos. En el nivel del 0,05 proporcionarán

TìpicoError

ParámetrooEstadìstic

_

Ho

H1

Page 112: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 110

estos datos evidencia suficiente para concluir que la calificación promedio de toda la población de alumnos que ingresan al ciclo diversificado es de 11 puntos. Datos 1. Factores n = 17 Tamaño: PEQUEÑA X = 10,78 pts Contraste: BILATERAL s = 2,22 pts Varianzas: DESCONOCIDAS

= 0,05 2. Planteamiento de las Hipótesis Ho : µ = 11 pts

H1 : µ 11 pts

3. Razón crítica poblacional (t ) Como la muestra es pequeña y la varianza de la población no se conoce se trabaja con la tabla de distribución t de student, para ello es necesario los grados de libertad

gl = n - 1 = 17 - 1 = 16 gl -----> t = ± 2,12

t = -2,12 t = 2,12 4. Razón crítica muestral o estadístico de prueba (t ) 5. Regla de decisión

Si t < t --------> Ho

Si t t --------> H1 Conclusión 0,41 < 2,12 De acuerdo a la regla de decisión se tiene que el valor calculado es menor que el valor teórico, por lo tanto se acepta la hipótesis nula, lo cual significa que al nivel del 0,05 se acepta que la calificación promedio de todos los alumnos que ingresan al ciclo diversificado es igual a 11 puntos (Ho: µ = 11 pts).

04154,0

/1178,10///1

x

Xt

54,012,4

22,2

17

22,2

n

sx

Page 113: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 111

Ejemplo Un investigador desea determinar si la talla promedio de cierta clase social ha variado,

ya que según investigaciones anteriores era de 167 cms. Para probarlo eligió una muestra aleatoria de 52 sujetos y obtuvo de ellos una talla promedio de 170 cms y una desviación de 6 cms. En el nivel del 0,01 determine si realmente ha aumentado dicha talla promedio para la clase social estudiada. Datos 1. Factores µ = 167 cms Tamaño: GRANDE n = 52 Contraste: UNILATERAL X = 170 cms s = 6 cms

= 0,01 2. Planteamiento de las Hipótesis Ho : µ = 167 cms H1 : µ > 167 cms

3. Razón critica poblacional (z ) Como la muestra es grande y se trabaja con la tabla de distribución normal para el valor crítico z,

z = 2,33

z = 2,33 4. Razón critica muestral o estadístico de prueba (z ) 5. Regla de decisión Si z < z --------> Ho

Si z z --------> H1 Conclusión 3,61 < 2,33

61,383,0

/170167///1

x

Xt

83,021,7

6

52

6

n

sx

Page 114: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 112

De acuerdo a la regla de decisión planteada, se tiene que el estadístico de prueba es mayor que el valor teórico por lo tanto se puede concluir al nivel del 0,01 que la talla promedio de la clase social estudiada realmente ha aumentado. Secuencia para la prueba de hipótesis con el procesador

1. Pulsar en la barra de menú Descripción. 2. En el menú emergente seleccionar Datos Numéricos. 3. Luego seleccionar Análisis Unidimensional. 4. Seleccionar la variable deseada. 5. Pulsar el botón Aceptar, se muestran las cuatro ventanas: resumen del procedimiento,

resumen estadístico, los gráficos: de dispersión y el de caja y bigotes. 6. Pulsar el botón de opciones tabulares del cuadro de análisis 7. Seleccionar Contraste de Hipótesis. A continuación nuestra el análisis de la prueba de hipótesis para la media

Fig. 9.1. Resultados de la prueba de hipótesis

Ahora identificamos los elementos que muestra la prueba t para poder realizar la interpretación, la variable a la cual se le esta realizando la prueba se denomina puntos, nos muestra la media y la mediana, luego la contraste t, supongamos que deseamos probar

Ho: = 11,75

H1: 11,75

Para plantearse los contraste de las hipótesis debemos considerar para contraste bilateral No

igual, para contraste unilateral a la derecha Mayor que, para contraste unilateral a la izquierda

Menor que, lo cual es reflejado en el análisis siempre lo muestra por defecto el contraste No igual pero se puede modificar como también el nivel de confianza pulsando el botón derecho del mouse y seleccionando Opciones de ventana y luego escoger los criterios planteados.

Page 115: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 113

Fig. 9.2. Cuadro de opciones de la prueba de hipótesis

Con respecto al P-valor es una probabilidad para determinar la aceptación o rechazo de la hipótesis nula de acuerdo al nivel de significación que fue establecido, a partir de las siguientes reglas de decisión.

Si P-valor es mayor que alfa se acepta la hipótesis nula (Si P-valor Ho)

si P-valor es menor o igual al alfa se rechaza la hipótesis nula (Si P-valor H1).

En este caso no hubo necesidad de realizar el contraste con esta regla de decisión ya que nos indica que no se puede rechazar la hipótesis nula para un alfa de 0,05

PRUEBA DE HIPÓTESIS PARA PORCENTAJE El procedimiento de determinación sigue los mismos pasos, solo que se debe considerar que el parámetro al cual se va hacer referencia es el porcentaje. Ejemplo Un especialista en Didáctica sostiene que cierto método de enseñanza posee un 90% de efectividad en los alumnos con respecto al aprendizaje de la lectura. Para probarlo se seleccionó una muestra aleatoria de 200 alumnos a quienes les aplicó dicho método, observándose que fue efectivo en 160 de ellos. En el nivel del 0,05, determine si el planteamiento del investigador fue cierto. Datos 1. Factores

= 90% Tamaño: GRANDE n = 200 Contraste: BILATERAL p = (160/200)100 = 80% q = 100 - p = 100 - 80 = 20%

= 0,05 2. Planteamiento de las Hipótesis

Ho : = 90%

H1 : 90%

3. Razón critica poblacional (z ) Como la muestra es grande y se trabaja con la tabla de distribución normal para el valor

crítico z

z = ± 1,96

z = -1,96 z = 1,96

Page 116: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 114

4. Razón critica muestral o estadístico de prueba (z)

5. Regla de decisión

Si z < z --------> Ho

Si z z --------> Hi Conclusión 3,53 > 1,96 Al contrastar el valor critico poblacional con el valor critico muestral, se encuentra que el valor calculado es mayor, por lo tanto, y siguiendo la regla de decisión se rechaza la hipótesis nula, de allí que el planteamiento del investigador no fue cierto ya que el porcentaje de efectividad del método de enseñanza es diferente del 90%. Con el paquete estadístico Statgraphics se puede proceder siguiendo la siguiente secuencia:

1. Pulsar en la barra de menú Descripción. 2. Del menú emergente seleccionar Contraste de Hipótesis. 3. Del cuadro de dialogo seleccionar Parámetro: Proporción Binomial. 4. Completar el cuadro de dialogo: Hipótesis nula, proporción de la muestra y tamaño de la

muestra. 5. Pulsar el botón Aceptar.

A continuación muestra el contraste y un gráfico denominado curva de potencia.

Fig. 9.3. Resultados de prueba de hipótesis para porcentaje o proporción

PRUEBA DE HIPÓTESIS PARA COEFICIENTE DE CORRELACIÓN Ejemplo

53,383,2

/9080///1

p

pz

83,28200

)20)(80(*

n

qpp

Page 117: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 115

En las últimas investigaciones realizadas en los ciclos diversificados de la región, la relación existente entre las asignaturas Física y Química es de 0,75, pero actualmente se sospecha que ha disminuido. Para probarlo un grupo de profesores seleccionó una muestra aleatoria de 23 alumnos y obtuvo un coeficiente de correlación de 0,70 entre ambas asignaturas. En el nivel del 0,01 ayude a dichos profesores a determinar si el coeficiente de correlación entre Física y Química realmente disminuyó para la población de alumnos de los ciclos diversificados de la región. Datos 1. Factores

= 0,75 ---> z = 0,97 Tamaño: PEQUEÑA n = 23 Contraste: UNILATERAL r = 0,70 ----> r z = 0,87

= 0,01 2. Planteamiento de las Hipótesis

Ho : = 0,75

H1 : < 0,75

3. Razón critica poblacional (t ) Como la muestra es pequeña y la varianza de la población no se conoce se trabaja con la tabla de distribución t de student, para ello es necesario los grados de libertad

gl = n - 1 = 23 - 3 = 20 gl -----> t = 2,53

t = 2,53 4. Razón critica muestral o estadístico de prueba (t ) 5. Regla de decisión

Si t < t --------> Ho

Si t t --------> H1 Conclusión 0,45 < 2,53

45,022,0

/97,087,0///1

zr

zzrt

22,047,4

1

323

1

3

1

nZr

Page 118: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 116

De acuerdo a la regla de decisión se tiene que el valor calculado es menor que el valor teórico, por lo tanto se acepta la hipótesis nula, lo cual significa que al nivel del 0,01 se acepta que la correlación existente entre las asignaturas Física y Química de todos los alumnos del ciclo diversificado no ha disminuido. Para probar el coeficiente de correlación de Pearson mediante el paquete Statgraphics Plus, se utiliza la misma secuencia que vimos en el capítulo VI, considerando que lo que prueba este procesador es si el coeficiente de correlación es realmente distinto de cero, (ojo buscar imagen capitulo seis)

Fig. 9.4. Resultados de la correlación y su significación

Como se observa el grado de correlación existente entre las variables puntos y nota1 es igual a 0,6810, y comparamos por ejemplo el P-valor con el nivel del 0,05 y la conclusión que llegamos es que es significativamente distinto de cero (0,0052 > 0,05), de acuerdo a la regla de decisión que se planteo con antelación.

CONTRASTE O PRUEBA DE HIPÓTESIS PARA VARIANZAS Este procedimiento permite la determinación de la homogeneidad de las varianzas; por lo tanto a través de la realización de la prueba F (Estadístico de prueba), se puede sacar la conclusión respectiva a la procedencia de las muestras a que pertenezcan los datos respectivos, si pertenecen a una misma población o a poblaciones diferentes. Para llevar a cabo dicho procedimiento se hará por los siguientes pasos: a. Establecimiento de las hipótesis

Ho: 12 = 2

2

H1: 12 2

2

b. Razón crítica poblacional (F ) Esta razón crítica como es un valor teórico es necesario ubicarlo en tablas, para ello se utilizará la Distribución F de Snedecor, donde se trabajará de acuerdo al nivel de confianza con grados de libertad, m y n, correspondiendo “m” a la muestra que tenga la varianza con mayor valor, y el “n”, para la muestra con la varianza de menor valor m: gl = n - 1 (muestra con la varianza mayor) n : gl = n - 1 (muestra con la varianza menor)

El valor de F se ubica de acuerdo del nivel de confianza.

Page 119: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 117

c. Razón crítica muestral (F ) d. Regla de decisión

Si F < F --------> Ho

Si F F --------> Hi e. Conclusiones Ejemplo De dos grupos seleccionados al azar se obtuvo los siguientes resultados: Grupo I Grupo II 11,23 Media 13,44 7,21 Variación promedio 16,80 51 Tamaño 41 Se podría afirmar, en el nivel del 0,05 que ambos grupos provienen de una misma población. a. Planteamiento de la hipótesis.

Ho: 12 = 2

2

H1: 12 2

2

b. Razón crítica poblacional (F ) m: gl = n - 1 = 41 - 1 = 40 n: gl = n - 1 = 51 - 1 = 50

Se ubica a continuación en la tabla de distribución F, el valor crítico F = 1,63 c. Razón crítica muestral (F1 ) d. Regla de decisión

Si F < F --------> Ho

Si F F --------> H1 e. Decisión 2,33 > 1,63 De acuerdo a la regla de decisión, se ve que la razón crítica muestral es mayor que la poblacional, por lo tanto se puede afirmar que las muestras objetivo de estudio al nivel del 0,05 provienen de poblaciones diferentes. La secuencia para la determinación del contraste de varianzas o Prueba F, utilizando el Statgraphics se sigue la secuencia que a continuación se muestra:

1. Pulsar en la barra de menú Comparación. 2. En el menú emergente seleccionar Dos muestras 3. Luego seleccionar Contraste de Hipótesis. 4. Seleccionar Desviación típica normal. 5. Completar Desviación típica 1 y desviación típica 2. 6. Pulsar el botón Aceptar

menors

mayorsF

2

2

1

33,221,7

80,162

2

1menors

mayorsF

Page 120: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 118

Muestra el contraste de hipótesis y una curva de potencia. Para cambiar el nivel de significación se pulsa el botón derecho del mouse y se selecciona Opción de Análisis y luego proceder al cambio ya que por defecto siempre lo ubica en el 95%.

Fig. 9.5. Resultado del contraste de varianzas

PRUEBA DE HIPOTESIS PARA LA DIFERENCIA ENTRE MEDIAS Es una prueba que sirve para contrastar si los resultados obtenidos en la investigación, procedentes de dos muestras diferentes, referentes bien a dos poblaciones distintas, o bien a la misma población en dos momentos sucesivos, representan diferencias significativas en las poblaciones, o no es así por ser atribuibles dichas diferencias al azar muestral. En otras palabras, se utiliza para determinar si existe diferencia significativa entre las medias correspondientes a dos grupos, se hace necesario considerar todos los factores que se habían hecho mención con anterioridad, tamaño de la muestra, contraste, varianzas a nivel de la población y tipo de muestra. En cuanto al tipo de muestra, se tendrá que son correlacionadas cuando a un mismo grupo se le aplican dos pruebas o instrumentos, o la misma prueba o instrumento aplicada en dos oportunidades. Y se refieren a muestras no correlacionadas o independientes cuando provienen de grupos que son diferentes. 1. Luego de la aplicación del segundo examen parcial de Estadística I a las menciones de Orientación y Matemática de la Escuela de educación, se obtuvieron los siguientes resultados: Orientación Matemática

6,121X 2,112X

2 = 10,10

2 = 14,25

N1 = 26 N2 = 51 En el nivel del 0,01, determine si existe diferencia significativa entre el rendimiento medio observado en ambos grupos. 1. Factores

Tamaño: GRANDE Contraste: BILATERAL Varianzas: CONOCIDAS Tipo: NO CORRELACIONADA

2. Planteamiento de Hipótesis

Ho: 1 = 2

H1: 1 2

Page 121: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 119

3. Razón Crítica Poblacional (z ) Como es una muestra grande y se conocen las varianzas a nivel de la población se utiliza la

tabla de distribución normal, cuyo valor crítico z,

z = 2,58 3. Razón Crítica Muestral (z1)

En este caso se hace necesario seleccionar el error típico de acuerdo a las condiciones, muestras de tamaño grande, no correlacionadas y varianzas poblacionales conocidas, de allí que sea: Ahora se realiza el cálculo del error típico A continuación se sustituye para determinar la razón crítica poblacional Siguiendo con la resolución se planteará ahora la regla de decisión 4. Regla de decisión

Si z1 z se acepta H0

Si z1 z se acepta H1 5. Toma de decisión.

z1 = 1,71 z = 2,58 de allí que 1,71 2,58 por lo tanto z1 z se acepta H0. Se acepta H0 al nivel de significación del 0,01, lo cual indica que la diferencia observada entre el rendimiento medio de ambos grupos no es significativa al nivel de la población. 2. En el Departamento de Idiomas Modernos, se desea saber si existe diferencia significativa entre el inicio y el final del semestre de los alumnos que cursan Inglés I. Para probarlo se eligió

21

//// 2121

1xx

XXz

2

2

1

1

21 NNXX

82,067,028,039,051

25,14

26

10,10

21 XX

71,182,0

/4,1/

82,0

0/2,116,12/1z

Page 122: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 120

una muestra aleatoria de 20 alumnos los cuales presentaron una prueba de dominio instrumental del idioma al inicio y al final del semestre, obteniéndose los siguientes resultados: Inicio Final 10,9 Promedio 13,3 Si de investigaciones anteriores se sabe que la variación promedio era de 9 y 8 respectivamente para ambas aplicaciones, y el coeficiente de correlación es de 0,45. En el nivel del 0,01 determine si el rendimiento medio observado al final del curso es realmente mayor que al inicio. 1. Factores:

Tamaño: PEQUEÑO Contraste: UNILATERAL Varianzas: CONOCIDAS Tipo: CORRELACINADA

2. Hipótesis

Ho: 1 = 2 ( 1 - 2 = 0)

H1: 1 2 ( 1 - 2 0)

2. Razón crítica Poblacional (z )

z = 2,33

0,99 z = 2,33

3. Razón crítica Muestral (z1) Es necesario definir el error típico correspondiente de acuerdo a las condiciones de la muestra, la cual es pequeña, correlacionada pero se conocen las varianzas muestrales.

Sustituyendo en la fórmula del error típico

2121

**.2 122

2

1

1

XXXX

rNN

67,047,4

3

20

3

1

1

1 NX

63,047,4

83,2

20

83,2

2

2

2 NX

21

//// 2121

1xx

XXz

Page 123: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 121

Ahora se calcula la razón crítica muestral 4. Regla de decisión

Si z1 z se acepta H0

Si z1 z se acepta H1 5. Toma de decisión

Si z1 z H0 z1 = 3,48

Si z1 z H1 z = 2,33

3,48 2,33

z1 z H1

Se rechaza la H0 al 0,01 de significación, lo cual indica que el rendimiento medio observado al final del curso es mayor que al inicio.

3. Se esta averiguando si existen diferencias significativas en cuanto a los rendimientos medios obtenidos en el primer parcial de Estadística II de acuerdo al sexo de los alumnos, ya que los investigadores indican que es igual entre varones y hembras. Para comprobarlo se seleccionó una muestra aleatoria la cual se dividió en varones y hembras; se les aplicó una prueba y se obtuvo los siguientes resultados:

Varones Hembras 10,35 Media 9,12 2 Desviación 1,86 12 Tamaño 16 En el nivel del 0,05 compruebe si es cierto el planteamiento de los investigadores. 1. Factores:

Tamaño: PEQUEÑA Contraste: BILATERAL Varianzas: DESCONOCIDAS (Prueba F) Tipo: NO CORRELACIONADAS O INDEPENDIENTES

2. Planteamiento de Hipótesis

Ho: 1 = 2 ( 1 - 2 = 0)

H1: 1 2 ( 1 - 2 0)

Antes de determinar la razón crítica poblacional y por las características de las muestras se hace necesario aplicar la prueba F, para verificar la homogeneidad o heterogeneidad.

Prueba F a. Planteamiento de la hipótesis.

69,047,038,040,045,0)63,0)(67,0)(45,0(220

8

20

9

21 XX

48,369,0

/4,2/

69,0

0/3,139,10/1z

Page 124: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 122

b. Razón crítica poblacional (F ) m: gl = n - 1 = 12 - 1 = 11 n: gl = n - 1 = 16 - 1 = 15

Se ubica a continuación en la tabla de distribución F1 el valor crítico F = 2,54

c. Razón crítica muestral (F ) d. Regla de decisión

Si F1 < F --------> Ho

Si F1 F --------> H1 d. Decisión

2,33 > 1,63 2

2

2

1:Ho

3. Razón crítica poblacional (t ) De acuerdo a las condiciones se tiene que las varianzas son conocidas y pequeñas, esto es indicativo para seleccionar el valor crítico y el error típico, como es una muestra pequeña el valor crítico se obtiene con la tabla t de student dependiendo de los grados de libertad.

gl = n1 + n2 – 2 = 12 + 16 – 2 = 26 gl t = 2,06

t = -2,06 t = 2,06 4. Razón crítica a nivel de la muestra (t1)

El error típico de acuerdo a las características de la muestra es el siguiente:

21

//// 2121

1

XX

XXt

)*

)(2

(21

21

21

21

21 nn

nn

nn

XX

XX

33,221,7

80,162

2

1menors

mayorsF

2

2

2

1:Ho

2

2

2

11 :H

Page 125: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 123

Sustituyendo en el error típico

Ahora se determina la razón crítica muestral

5. Regla de decisión 6. Toma de decisión

Si t1 t H0 t1 = 1,66

Si t1 t H1 t = 2,06

1,66 < 2,06

t1 t H0

Se acepta H0 al nivel del 0,05, lo cual indica que no existe diferencia significativa entre los rendimientos medios obtenidos por varones y hembras.

Secuencia para la determinación de la prueba de hipótesis para la diferencia entre medias con el Statgraphics:

Muestras Independientes 7. Pulsar en la barra de menú Comparación. 8. En el menú emergente seleccionar Dos muestras 9. Luego seleccionar Comparación. 10. Seleccionar las muestra 1 y la muestra 2.

Si las variables en la base de datos corresponden a muestras independientes se ubica en cada una de ellas, si las dos variables corresponden a una misma muestra y se desea establecer la diferencia con respecto a una variable categórica (nominal) se debe colocar la variable numérica con la selección a realizar, se debe seguir este comando:(Variable Numérica) SELECT(Variable Nominal =”Categoría 1”) y en la segunda muestra (Variable Numérica) SELECT(Variable Nominal =”Categoría 2”).

11. Pulsar el botón Aceptar. Aparecen las cuatro ventanas dos de opciones de resultados y dos con gráficos, luego

12. Seleccionar el icono Opción Tabular. 13. Seleccionar Comparación de Medias 14. Pulsar el botón de Aceptar.

A continuación muestra el análisis de la prueba de hipótesis para diferencia entre medias, si va a cambiar el nivel de confianza solo debe pulsar el botón derecho del mouse y en el menú emergente seleccionar Opciones de Ventana y luego proceder al cambio ya que por defecto siempre lo ubica en el 95%.

74,05535,0)15,0)(69,3()192

28)(

26

9,5144()

16.12

1612)(

26

)15(46,3)11(4(

21 XX

66,174,0

/23,1/

74,0

0/12,935,10/1t

Page 126: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 124

Fig.9.4. Resultados de la comparación entre las medias independientes

Este cuadro nos muestra, en una primera parte los límites de confianza tanto para las medias de acuerdo a la variable categórica, y también un intervalo de confianza para la diferencia entre las medias. En el ejemplo se está contrastando si existe diferencia significativa en la edad de acuerdo al tipo de plantel, y aparecen los contraste bilateral (No Igual) y los unilaterales (Mayor que y Menor que), de allí debemos escoger la hipótesis alternativa que necesitemos de acuerdo a la investigación, teniendo en cuenta si las varianzas son iguales o diferentes, para las conclusiones con respecto a la existencia o no de diferencias significativas asumimos

nuevamente la regla de decisión del P-valor y el . Si asumimos que es un contraste bilateral tendremos que el P-valor = 0,229684 y el nivel del 0,05 debemos concluir que no existe diferencia significativa entre la edad de acuerdo al tipo de plantel, contrastando con la regla de decisión.

Muestras Correlacionadas o Pareadas 1. Pulsar en la barra de menú Comparación. 2. En el menú emergente seleccionar Dos Muestras. 3. Luego seleccionar Comparación de muestras pareadas. 4. Seleccionar las muestras (Muestra 1 y Muestra 2). 5. Pulsar el botón Aceptar. 6. Aparecen las cuatro ventanas dos de opciones de resultados y dos con gráficos, luego, 7. Seleccionar el icono Opción Tabular. 8. Seleccionar Contraste de Hipótesis.

A continuación muestra el análisis de la prueba de hipótesis para diferencia entre medias correlacionada o pareada, si va a cambiar el nivel de confianza solo debe pulsar el botón derecho del mouse y en el menú emergente seleccionar Opciones de ventana, también se puede cambiar el contraste o la hipótesis alternativa y luego proceder al cambio ya que por defecto siempre lo ubica en el 95%.

Page 127: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 125

Fig.9.5. Resultados de la comparación entre las medias independientes

Se observa en la figura 9.5., donde están los resultados para la prueba de hipótesis de la diferencia entre medias correlacionada, donde muestra la diferencia entre las medias y luego la prueba t, en este caso para contraste bilateral (No Igual), presenta el valor t calculado, el P-valor y luego nos señala que la hipótesis nula no puede ser rechazada por lo tanto no existe diferencia significativa entre los puntos y nota1, pues su promedio a nivel poblacional de acuerdo a esto es igual. A continuación presentamos los errores típicos para las diferencias entre medias de acuerdo a algunas condiciones ya que el procedimiento manual es el mismo y por el paquete lo que tenemos es que señalar claramente el tipo de muestra. Muestras independientes, varianzas desconocidas Muestra correlacionada y varianzas Y diferentes desconocidas

DIFERENCIA DE PORCENTAJES La teoría inherente a la diferencia entre las medias se corresponde de la misma manera con la diferencia de porcentajes. Ejemplo Se desea saber si existe diferencia significativa en cuanto al porcentaje de alumnos que cursan el 5to semestre de la licenciatura en Educación de acuerdo a las especialidades de Educación Comercial y Orientación. Para probarlo se seleccionó una muestra aleatoria de 32 alumnos de Orientación de los cuales 13 eran varones. La otra muestra aleatoria correspondiente a Educación Comercial era de 44 alumnos, de los cuales 27 eran hembras. En el nivel del 0,05, podemos concluir que el porcentaje de hembras cursantes del 5to semestre de la Licenciatura en Educación es el mismo entre ambas especialidades.

Datos Orientación Educación Comercial n = 32 n = 44

2

2

2

1

2

1

n

s

n

s

)1(nn

d

Page 128: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 126

13 varones 27 hembras 18 hembras 17 varones p1 = (19/32)100 = 59,38% p2 = (27/44)100 = 61,36% q1 =100 – p1 = 40,62 q2 = 100 – p2 = 38,64 1. Factores:

Tamaño: GRANDE Contraste: BILATERAL Varianzas: DESCONOCIDAS Muestras: INDEPENDIENTES

2. Planteamiento de hipótesis

Ho : 1 = 2 ( 1 - 2 = 0)

H1 : 1 2 ( 1 - 2 0)

3. Razón crítica poblacional (z )

z = 1,96

4. Razón crítica muestral (z1)

El error típico de diferencia de porcentajes para muestras independientes es el siguiente:

sustituyendo

ahora se determina la razón crítica muestral

21

//// 21211

pp

ppz

2

22

1

11 **21 n

qp

n

qppp

37.1126,12988,5338,7544

95,2370

32

02,2412

44

)64,3836,61(

32

)62,4038,59( xx

18,093,10

/98,1/

93,10

0/36,6138,59/1z

Page 129: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 127

5.Regla de decisión 6. Toma de decisión

Si z1 z H0 z1 = 1,96

Si z1 z H1 z = 0,18

0,18 = 1,96

z1 z H0

Se acepta la Ho al nivel del 0,05 de significación, lo cual indica que el porcentaje de hembras en ambas especialidades son iguales a nivel poblacional.

Fig. 9.6. Resultados de la diferencia de porcentajes

Otra forma para determinar es usando el paquete estadìstico STATS, cuya secuencia es la siguiente:

1. Activar el Stats. 2. Seleccionar diferencia de dos proporciones independientes 3. Completar los cuadros, en el número de respuestas de los grupos se deben colocar los

tamaños de las muestras, y en los porcentajes se corresponden a cada grupo. 4. Pulsar calcular y nos presenta los resultados de las probabilidades de las diferencias y

el valor z.

Page 130: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 128

Fig. 9.6. Resultados de la diferencia de porcentajes

Para interpretarlo se puede hacer de dos formas las cuales conducen a la misma conclusión, si tomamos el valor z y lo comparamos con la tabla de distribución normal al compararlo encontramos que no podemos rechazar la hipótesis nula ya que 0,17 < 1,96, o podemos considerar la probabilidad de la diferencia significativa tampoco podemos rechazar la hipótesi nula ya que para poder considerarla como rechazada este valor debe ser mayor al nivel de confianza planteado, si es al 95% tendriamos que menor (13,86 < 95).

Errores Tipo I y II

Muestra

Población Ho H1

Ho

No hay error

(1- )

Error Tipo I

( )

H1

Error Tipo II

( )

No hay error

(1 - )

El criterio de aceptar o no la Ho, basándose en la evidencia dada por la muestra, no

constituye una garantía de que se arribe a una conclusión correcta. Se pueden cometer dos cases de errores: rechazar una hipótesis cuando en realidad es verdadera o aceptarla cuando es falsa. El rechazo de una hipótesis verdadera se denomina error tipo I. La aceptación de una hipótesis falsa se conoce como error tipo II. Siendo la Ho la hipótesis sometida a prueba,

tendremos ERROR TIPO I ( ) se rechaza la Ho siendo verdadera y se acepta H1 siendo falsa,

o ERROR TIPO II ( aceptar Ho siendo falsa y rechazar H1 siendo verdadera).

De allí que las decisiones correctas sean 1- , se acepta Ho siendo verdadera y se rechaza H1

siendo falsa, o 1- lo cual significa que se rechaza Ho siendo falsa y se acepta H1 siendo verdadera, esta se conoce como la POTENCIA DE LA PRUEBA, lo cual no es más que la probabilidad de rechazar Ho cuando ésta es falsa y por ende aceptar correctamente H1.

Ejercicios

Page 131: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 129

1. Un investigador cree que el 65% de los alumnos que cursan en FaCE provienen de hogares con ingresos menores o iguales a Bs. 50000. Seleccionó una muestra aleatoria de 200 alumnos y obtuvo que 125 provienene de este tipo hogares. En el nivel del 0,01, apoyarían estos datos el planteamiento del investigador. R: 0,73 se acepta Ho.

2. Un fabricante sostiene que el 95% de los equipos que suministra a una fabrica esta de acuerdo con las especificaciones requeridas. Un examen a una muestra aleatoria de 200 de tales equipos reveló que 18 eran defectuosos En el nivel del 0,05, pruebe la hipótesis del fabricante. R: 1,98 se rechaza Ho

3. Un profesor desea utilizar la instrucción programada, como estrategia de enseñanza. Para comprobar si podría aplicarla, eligió una muestra representativa de la población, la cual separó aleatoriamente en dos grupos: control y experimental. El grupo control continuo sometido a la clase tradicional y el experimental a la instrucción programada, ambos fueron sometidos a una prueba antes de iniciar el experimento y luego de realizado, obteniéndose los siguientes resultados:

Control Experimental Media primera aplicación 11,21 11,35

Varianza primera aplicación 3,33 3,18 Tamaño primera aplicación 14 12 Media segunda aplicación 12,40 13,55 Varianza seguna aplicación 3,52 2,12 Tamaño segunda aplicación 14 12 Coeficiente entre ambas aplicaciones 0,52 0,66 En el nivel del 0,05:

3.1. Considerando en el grupo experimental las varianzas como las de la población, determine si es realmente significativo el aumento observado en la segunda aplicación. R: 5,5 se rechaza Ho

3.2. Determine si existe diferencia significativa entre el el grupo control y el experimental en la segunda aplicación con respecto al rendimiento medio. R: 1,74 se acepta Ho.

3.3. Si se sabia que el coeficiente de correlación entre las dos aplicaciones el grupo control para la población era de 0,60, determine si es significativo la disminución observada. R: 0,33 se acepta Ho.

4. En la Escuela Básica Juan XXIII, se desea implantar una nueva estrategia de la enseñanza de la electricidad del área Formación para el Trabajo, para investigarlo se seleccionó una muestra aleatoria de siete (7) alumnos del 7mo grado a los cuales se les va a impartir una unidad didáctica con la nueva metodología, antes de iniciarla, se aplicó una prueba objetiva y al final se repitió la aplicación de la prueba, obteniendose los siguientes resultados:

1era aplicación 08 10 12 11 07 08 13 2da aplicación 10 11 15 12 07 08 13

En el nivel del 0,01, determine si el rendimiento medio de los alumnos en la segunda aplicación fue mejor que en la primera. R: 2,27 se acepta Ho.

5. En el Departamento de Castellano y Literatura de un CD se eligió al azar dos grupos de alumnos, los cuales fueron sometidos a un test de ortografía y los resultados obtenidos fueron los siguientes:

Grupo I Grupo II 18 8 14 7 12 6

12 5 25,10X

2,6X

Page 132: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 130

10 5 8 s = 1,3

6 s= 4,95 2

En el nivel del 0,05, determine ni el rendimiento medio del grupo I es realmente mayor que el del grupo II al nivel de la población. R: 2,2 se rechaza Ho.

6. Un grupo de alumnos cursantes de Matemática del 9no grado de una EB, fue seleccionado al azar y se les aplicó una prueba de aritmética. Luego el profesor les provoca un estado de ansiedad, y una vez superado este les aplica de nuevo el test obteniéndose los siguientes resultados:

Antes Después 35,33 promedio 33,33 30 tamaño 30 Coeficiente de correlación 0,72

Si de experiencias anteriores se sabe que la dispersión promedio es de 8,2 antes del estado de ansiedad y de 5,4 luego de dicho estado. En el nivel del 0,05 determine si realmente el rendimiento medio es menor luego de provocado el estado de ansiedad. R: 5,41 se rechaza Ho.

7. Una muestra aleatoria presentóprimero y segundo parcial de Matemática y se conocen los siguientes resultados:

1er parcial 2do parcial 35 Nº de items 35 48 Nº alumnos 48 12,10 Promedio 13,48 6,15 Varianza poblacional 3,92 Correlación entre ambos parciales 0,72

En el nivel del 0,05 7.1. Si los alumnos tuvieron un rendimiento medio significativamente más alto en el

2do parcial que en el 1ro. R: 5,75 se rechaza Ho. 7.2. Si sabemos que en el primer parcial 28 alumnos estuvieron por encima de la

media, y el investigador suponía que era el 55%, confirman estos resultados lo que se suponía. R: 0,46 se acepta Ho.

7.3. Si antes de la aplicación de las pruebas, el profesor estima que la relación entre los resultados de ambos parciales sería igual a 0,79; una vez conocidos los resultados anteriomente señalados, puede el profesor mantener su hipótesis inicial. R:1,07 se acepta Ho.

8. Un grupo de alumnos de Diseño de Investigación se encuentra realizando una

investigación acerca de la audiencia de programas matutinos de la TV. Para ello seleccionó muestras de sujetos correspondientes a dos clases sociales diferentes y los encuestó acerca de los programas matutinos, obteniéndose los siguientes resultados: Clase Tamaño Nº de mujeres que ve programas matutinos A 200 80 B 150 98 En el nivel del 0,05, proporcionarán estos datos evidencias suficientes para asegurar que no existe diferencia significativa en cuanto al porcentaje de mujeres que ven programas matutinos de TV. R: 4,68 se rechaza Ho.

9. Se ha realizado una encuesta entre los estudiantes universitarios que utilizan los autobuses urbanos para ir a la Universidad de Carabobo, para que opinen acerca de

Page 133: Apuntes de Estadística

Alexander Pinto y Neilé Pernalete de P Capítulo IX

pág. 131

de tres proposiciones: A: mejorar los autobuses existentes, B: aumentar el número de autobuses; y C: instalar una nueva línea de autobuses. Se toma yuna muesta 200 varones y 200 mujeres, elegidos al azar, en la población extudiantil, observándose las iguientes elecciones:

Sexo A B C

Varones 62 75 63

Hembras 67 60 73

Se desea saber al nivel del 0,05, si los varones prefieren la opción B más que las mujeres.R: 1,59 se acepta Ho Una trabajadora social desea comparar dos comunidades con respecto a varias variables, selecciona al azar una muestra independiente de 120 hogares de la comunidad A, y una muestra independiente de 100 hogares de la comunidad B. 36 familias de la comunidad A y 35 familias de la comunidad B están de acuerdo en recibir aistencia social, en el nivel del 0,05 ¿Serán estos datos suficientes para concluir que los porcentajes de hogares que aspiran recibir asistencia social en las dos comunidades es diferente? R: 0,79 se acepta Ho. 10. En los ejemplos que se plantean a continuación determinar si se ha cometido error:

tipo I o tipo II o no se ha cometido ningún error: Ho Hi Valor real de P Decisió Tomada

P = 0 P 0 0 Rechazar Ho

P = 0 P 0 0,40 Rechazar Ho

P = 0 P 0 0 Rechazar Ho

P = 0 P 0 - 0,50 Rechazar Ho 11. Para la muestra seleccionada en el ejercicio 5.2 del capítulo VII, en el nivel del 0,05:

11.a. Pruebe que respect a la edad que el promedio es menor de 22 años . 11.b. Compruebe si es cierto que el razonamiento de las mujeres es mayor que el de los hombres en la calificación del primer lapso. 11.c. Compruebe si la proporción de alumnos de los planteles público tienden a ser menores que los de los planteles privados en el CNU. 11.d. Sera cierto que los de la PIA tienden a tener igual promedio en la calificación del trabajo de investigación. 11.e. Establezca si es cierto que el rendimiento medio entre la calificación del primer lapso es dferente a la de resolución de problemas para toda la muestra.

12. Para la muestra seleccionada en el ejercicio 6.2 del capítulo VII, en el nivel del 0,01 Pruebe que el promedio de calificaciones para el primer lapso es realmente mayor de 17 puntos. Compruebe que la proporción de alumnos del CNU es realmente menor que los de PIA. Compruebe que el rendimiento de la PIA es menor que el del CNU en las calificaciones de resolución de problemas. Establezca si el coeficiente de correlación entre resolución de problemas y el trabajo de investigación es realmente distinto de cero. Pruebe si existe diferencia significativa entre las calificaciones de resolución de problemas y el tabajo de investigación.