Validez y Confiabilidad

Lcda. Alba M. AbreuAbog. Mariela Nez

Universidad YacambVicerrectorado de Investigacin y PostgradoMaestra en Gerencia de las Finanzas y de los NegociosBarquisimeto, Estado LaraVenezuela

Medir ha sido una necesidad humana, sobre todo en el mundo contemporneo. La investigacin cientfica no est ajena a parmetros de medicin, tanto en las ciencias sociales, como las ciencias naturales. Medicin es entonces la asignacin de algn valor significativo, sea numrico o alfabtico o de otro orden, a una serie de objetos, con la finalidad de operacionalizar variables. Esta forma de medir, obliga al investigador a relacionar tambin conceptos y postulados tericos con datos y hechos empricos que ha ido observando y recolectando a lo largo del proceso de investigacin. Son datos que efectivamente deben tener correspondencia con los objetivos planteados.

Concepto de Medicin

Anlisis del instrumento Para que un instrumento de medicin pueda ser ptimo al momento de su aplicacin, es necesario que cumpla los siguientes principios: Validez y Confiabilidad. El rigor y la calidad para evaluar el aprendizaje dependen, fundamentalmente, de cmo se aborde la validez y la confiabilidad, cualidades esenciales que deben estar presentes en el desarrollo del proceso de recoger y analizar la informacin conducente a garantizar una mayor confianza sobre las conclusiones emitidas, de manera individual y compartida, por el evaluador. Tanto la validez como la confiabilidad se conjugan para coadyuvar al evaluador a ser objetivo en el proceso de describir la realidad derivada de un aprendizaje especfico, el cual est inmerso en un discurso privado y que pretende ser pblico a travs de la comunicacin. La validez y la confiabilidad se abordan desde diferentes perspectivas, dependiendo de la aproximacin epistemolgica considerada. Factores a evitar para que el contenido de un instrumento de medicin sea vlido:No dar instrucciones empricas o vagas Hacer estructura sintctica de oraciones fcilesEvitar preguntas inadecuadas sobre especificacionesEvitar preguntas que sugieren respuestasEvitar ambigedad en formulacin de los reactivos o preguntas que lleven a diferentes interpretacionesNo presentar cuestionarios, escalas o pruebas demasiado cortosEvitar que los tems sean incongruentes con variables a medirEvitar ordenamiento inadecuado de temsEvitar improvisarEvitar tomar instrumentos validados en otros contextos

Anlisis del Instrumento Requisitos que debe cumplir un Instrumento de Medicin:

Validez.Confiabilidad.Objetividad.

Definicin segn diversos autores:De acuerdo con Hernndez, Fernndez y Baptista (1998),la validez en trminos generales, se refiere al grado en que un instrumento realmente mide la variable que pretende medir (pg.243).

Tamayo y Tamayo (1998) considera que validar es determinar cualitativa y/o cuantitativamente un dato (224).

Segn Rusque M (2003) la validez representa la posibilidad de que un mtodo de investigacin sea capaz de responder a las interrogantes formuladas.

Validez Un instrumento de recoleccin de datos es vlido cuando mide lo que se supone debe medir en trminos de contenido, prediccin, concurrencia y construccin. Campbell y Stanley (1972) distinguen dos tipos de consideraciones para la validez cuantitativa : la validez interna y la externa, definidas as:La validez interna: Se refiere al mayor o menor control que tenemos de variables que pueden perturbar los resultados. Ocurre cuando se puede asegurar que los cambios de la variable dependiente se deben a los cambios de la o las variables independientes.La validez externa: Se refiere a la posibilidad de que los resultados obtenidos en una muestra puedan ser generalizados a la poblacin o universo del cual fue seleccionada; as como que puedan ser generalizados a un ambiente diferente de su ambiente originario.

Validez en la Investigacin Cuantitativa La validez cuantitativa, bajo la perspectiva de la teora positivista, se orienta fundamentalmente hacia las tcnicas e instrumentos de medicin elaborados por el evaluador, supuestos desarrollados a partir de las teoras planteadas por el filsofo francs Auguste Comte (1798-1857). En esa perspectiva, la validez asociada a la evaluacin del aprendizaje se concibe en trminos de: (a) precisar el rasgo del aprendizaje del evaluado que se pretende medir, como aprendizaje a travs de pruebas o tests, (b) predecir algn rasgo del aprendizaje adicional a lo que se pretende medir, y (c) medir lo que se dice medir de cierto rasgo (Comte, 1896). Este tipo de evaluacin presenta diferentes interpretaciones de validez, referidas a pruebas o tests, establecidas en los Estndares para Tests y Manuales para Educacin y Psicologa (American Psychological Association APA-, 1985)

Validez de Contenido: Est representada por el grado en que una prueba representa el universo de estudio. Por tal motivo, debern seleccionarse los indicadores e tems de tal manera que estos respondan a las caractersticas peculiares del objeto de estudio. Tambin se puede sealar que se refiere a la fidelidad con que los tems contenidos en una prueba reflejan el constructo que se desea medir. Por Ejemplo: Una prueba de operaciones aritmticas no tendra validez de contenido si slo incluye problemas de resta y excluye problemas de suma, multiplicacin y divisin. Si el dominio de un instrumento es demasiado estrecho con respecto al dominio de la variable, el primero no representar a esta. Entendindose como Constructo cualquier entidad hipottica de difcil definicin dentro de una teora cientfica. Un constructo es algo de lo que se sabe que existe, pero cuya definicin es difcil o controvertida. Son constructos la inteligencia, la personalidad y la creatividad, por ejemplo.

Debe hacerla un experto, pues, estos evalan lo siguiente:Si est elaborada adecuadamente la matriz de consistencia, es decir, si el problema est formulado de acuerdo a sugerencias de la investigacin cientficaSi los objetivos son explcitos y precisosSi las variables e hiptesis tienen coherencia con objetivos y problemasSi se han desagregado las variables en dimensiones, indicadores e tems (operacionalizacin correcta de variables)Si tems del instrumento representan adecuadamente a las variables que se pretenden medirSi los tems son suficientesSi el protocolo de instrucciones del instrumento es claro

Validez de criterio: Llamada tambin validez concurrente es ms fcil de estimar, lo nico que se debe hacer es correlacionar su medicin con el criterio, y este coeficiente se toma como coeficiente de validez. Un instrumento posee validez predictiva cuando es capaz de predecir, a partir de los resultados que arroja, comportamientos futuros. Ejemplo: supongamos que Fernando trata de medir el grado en que es aceptado por Laura. Entonces decide que va a tomarla de la mano y observar su reaccin. Supuestamente, si ella no retira la mano, esto indicara cierta aceptacin, pero para asegurarse que su medicin es vlida decide utilizar otra forma de medicin adicional, por ejemplo, mirarla fijamente sin apartar la vista de sus ojos, en apariencia, si Laura le sostiene la mirada, esto sera otro indicador de aceptacin. As, su medicin de aceptacin se valida mediante dos mtodos al comparar dos criterios.

La validez de criterio es una medida del grado en que una prueba est relacionada con algn criterio. Es de suponer que el criterio con el que se est comparando la prueba tiene un valor intrnseco como medida de algn rasgo o caracterstica. En este tipo de validez, se debe predeterminar cul ser el rasgo o criterio que se va a correlacionar con los resultados de la prueba. Ambos valores deben estar directamente relacionados en trminos de que el rasgo o criterio emprico sea pronosticable lgicamente a partir de los resultados de la prueba a la cual se le va a medir su nivel o grado de predictibilidad. Al igual que toda prueba de correlacin, si los resultados se acercan a 1, mejor ser la validez de criterio del instrumento en cuestin.

Validez de constructo:

Este tipo de validacin busca establecer hasta qu punto un instrumento mide una variable que es producto de un constructo que intenta describir una realidad compleja.

Es el caso, por ejemplo de variables como actitudes hacia discriminacin racial, satisfaccin en el trabajo, clima organizacional, que suponen cualidades hipotticas que explican la conducta de los sujetos. Caso contrario sucedera con la medicin de variables no complejas como sexo, edad, nivel de instruccin, cuya medicin no amerita la construccin de un concepto complejo, ya que son datos directamente observables en la realidad.Este tipo supone como paso previo la conceptualizacin del rasgo o variable que se pretende medir. Estos conceptos deben ser construidos a partir de una teora determinada que explique el fenmeno a estudiar. Slo as se tendr claridad de la manera como se manifiesta en la realidad el atributo que se pretende medir (Ruz, 2002).El cuadro de operacionalizacin de variables permitir visualizar de manera organizada la complejidad de las variables que se van a estudiar si alguna de ellas supone la combinacin de determinados indicadores en virtud de la conceptualizacin realizada, es necesario corroborar a travs de una prueba emprica que tal conceptualizacin es vlida, ya que expresa de manera precisa el comportamiento de la variable en la realidad. De all, la expresin Validez de constructo.

En ltima instancia, lo que se pretende a partir de este tipo de validez es confirmar en la prctica la capacidad explicativa del concepto que se ha construido. Es decir, si es reflejo del fenmeno que pretende describir.Para este tipo de validez se utilizan mtodos de carcter estadstico.Prueba de correlacin: otra de las pruebas para validar el constructo terico de un instrumento es la prueba correlacional. Consiste en correlacionar los valores obtenidos en la prueba piloto del instrumento que se diseado, con medidas obtenidas en estudios similares con otros instrumentos que fueron construidos para medir las mismas variables.Otro procedimiento es correlacionar los valores obtenidos por el instrumento que se est validando con los obtenidos por otras variables cuyo comportamiento est directamente asociado a la variable en estudio y, por lo tanto, hipotticamente predecible.

La confiabilidad se refiere al nivel de exactitud y consistencia de los resultados obtenidos al aplicar el instrumento por segunda vez en condiciones tan parecida como sea posible.Bernal (2000:218) afirma que la pregunta clave para determinar la confiabilidad de un instrumento de medicin es: Si se miden fenmenos o eventos una y otra vez con el mismo instrumento de medicin, Se obtienen los mismos resultados u otros muy similares? Si la respuesta es afirmativa, se puede decir que el instrumento es confiable. La importancia de garantizar la confiabilidad del instrumento viene dada por el hecho de que las interpretaciones sobre el comportamiento de los fenmenos estudiados se hacen sobre la base de la confianza que se tenga en los datos recolectados. Si no se ha demostrado la confiabilidad del instrumento, siempre habr un margen de duda sobre la calidad de la interpretacin que se haga a partir de los datos obtenidos.

La Fiabilidad tiene dos grandes componentes:La Consistencia interna: Se refiere al grado en que los distintos tems, partes o piezas de un test miden la misma cosa. Significa la constancia de los tems para operar sobre un mismo constructo de un modo anlogo.La Estabilidad temporal: Se refiere al grado en que un instrumento de medida arrojar el mismo resultado en diversas mediciones concretas midiendo un objeto o sujeto que ha permanecido invariable.

Test-Retest:En este procedimiento un mismo instrumento es aplicado en dos oportunidades o ms a un mismo grupo de personas, despus de cierto perodo de tiempo. Si la correlacin entre los resultados de las diferentes aplicaciones es altamente positiva, el instrumento se considera confiable. El valor de la correlacin es un valor ubicado entre el 1 y 1. muy baja (0) baja regular aceptable elevado(1) No hay confiabilidad 100% de confiabilidad El clculo de este coeficiente se utiliza para mediciones de variables o dimensiones que responden a una escala de medicin de intervalo o razn.Es importante que para la aplicacin de esta prueba, se tome un lapso de tiempo lo suficientemente largo para que los sujetos se olviden de lo que contestaron y, por el otro, no tanto que se produzcan cambios importantes. (Prez 1998:72). Algunos expertos opinan que 15 das de distancia entre un test y otro es suficiente. Este tipo de medicin se utiliza en investigaciones cuantitativas.

Formas paralelas de un test:Este mtodo consiste en:Elaborar dos formas paralelas de un mismo test, o lo que es lo mismo, dos test paralelosAplicar una forma del test a la muestra de inters y tras un lapso de tiempo que no relevante para la aparicin de cambios en los sujetos, aplicar la segunda forma del test a la muestraCalcular el coeficiente de correlacin entre las puntuaciones empricas obtenidas por los sujetos en las dos ocasiones. Si las formas son paralelas esa correlacin es el coeficiente de fiabilidad del testPaso 1: Elaborar formas paralelasHay dos tipos de criterios que dos test han de cumplir para ser considerados paralelosCriterio Estadstico: Las dos formas presentan medias iguales y variaciones iguales tanto en sus puntuaciones empricas, como verdaderas y errores (mediciones paralelas) u obtienen las mismas puntuaciones verdaderas, pero no se requiere igual varianza de error (tau-equivalentes)Criterios de formato y contenido: En la practica dos test paralelos consisten en dos conjuntos distintos de tems referidos a una misma variable o constructo psicolgico , habitualmente con las mismas instrucciones y el mismo formato de prueba de tems. Pretenden muestrear el mismo contenido con cuestiones formuladas de manera distinta. No puede considerarse formas paralelas aquellas en que la diferencia consiste en que se ha variado el orden de los tems o el orden de las alternativas.

Paso 2: La aplicacin de las formas del testLas dos formas deben ser administradas en las mismas condiciones, o al menos, bajo los mnimos cambios posibles en las condiciones. Se trata de no introducir factores que puedan provocar cambios en los resultados.Respecto al tiempo, debe utilizarse un lapso entre ambas formas, lo suficientemente corto como para que los sujetos no hayan cambiado en la variable de inters y lo suficientemente largo para que factores de memoria, fatiga o entrenamiento tengan el mismo efecto.

Paso 3: Clculo del coeficiente de correlacinUna vez se han administrado las dos formas paralelas se dispondr de una tablade datos con N sujetos por 2 variables, la puntuacin en la forma A y en la forma B para cada sujeto. Se procede entonces a calcular el coeficiente de correlacin de Pearson.El resultado obtenido puede estar entre 1 y +1, pasando por 0 (ausencia derelacin lineal). En realidad, como se trata de formas paralelas, no tiene sentido esperar correlaciones negativas debiendo estar el resultado entre 0 y +1, incluso cabra esperar valores positivos alejados de 0. Si A y B son formas paralelas entonces la correlacin es el coeficiente de fiabilidad. Para considerar el test fiable, el coeficiente de correlacin obtenido deber ser alto, de modo que una gran proporcin de la varianza de las puntuaciones se deba avarianza verdadera.Es decir, si obtenemos un coeficiente de fiabilidad de 075 diremos que tres cuartaspartes de la varianza emprica del test se deben a varianza verdadera, o lo que es lomismo, que un 25% de la varianza emprica es varianza de error.

Split-halves (Divididas en mitades):Los resultados obtenidos de la aplicacin del instrumento se dividen en dos mitades comparativas; as, a cada sujeto le corresponde dos calificaciones despus de una sola aplicacin del instrumento. La confiabilidad se obtiene despus de correlacionar esas dos calificaciones.Una manera de resolver el problema de cmo dividir el instrumento es haciendo dos grupos con las calificaciones obtenidas de los tems pares y nones. Se debe estar seguros que todas las categoras estn representadas en las dos partes para que se divida el instrumentoSe obtienen las puntuaciones de los tems pares y de los tems nones, luego ambas se correlacionan. Si ambas puntuaciones son altas se obtendr un coeficiente de confiabilidad alto.

Coeficiente Alfa de Cronbach.

Es un coeficiente que sirve para medir la fiabilidad de una escala de medida, y cuya denominacin Alfa fue realizada por Cronbach en 1951, aunque sus orgenes se encuentran en los trabajos de Hoyt (1941) y de Guttman (1945)

Este mtodo permite medir la consistencia interna del instrumento. Se utiliza en la construccin de escalas en las que no hay respuestas correctas o incorrectas, sino que cada entrevistado responde la alternativa que mejor representa su forma de pensar sobre el objeto que se le pregunta.

Un investigador trata de medir una cualidad no directamente observable (por ejemplo, la inteligencia) en una poblacin de sujetos. Para ello mide n variables que s son observables (por ejemplo, n respuestas a un cuestionario o un conjunto de n problemas lgicos) de cada uno de los sujetos.Se supone que las variables estn relacionadas con la magnitud inobservable de inters. En particular, las n variables deberan realizar mediciones estables y consistentes, con un elevado nivel de correlacin entre ellas.El alfa de Cronbach permite cuantificar el nivel de fiabilidad de una escala de medida para la magnitud inobservable construida a partir de las n variables observadas.

El alfa de Cronbach no es un estadstico al uso, por lo que no viene acompaado de ningn p-valor que permita rechazar la hiptesis de fiabilidad en la escala. No obstante, cuanto ms se aproxime a su valor mximo, 1, mayor es la fiabilidad de la escala. Adems, en determinados contextos y por tcito convenio, se considera que valores del alfa superiores a 0,7 o 0,8 (dependiendo de la fuente) son suficientes para garantizar la fiabilidad de la escala.

Coeficiente KR20: El KR20 es un indicador de la fidelidad (consistencia interna). Los mtodos basados (Rulon, Alfa de Cronbach, Spearman, Brown) en la divisin en dos porciones (presumiblemente iguales) da desventaja de ser relacionado con las opciones de la particin (vase la mitad igualdad-impar, de la primera y segunda parte, al azar).

Kuder y Richardson desarrollaron un procedimiento basado en los resultados obtenidos con cada tem. De hecho, hay muchas maneras de precisar otra vez los tems (reactivos) en 2 grupos, que pueden conducir a las estimaciones diferentes de la consistencia interna.Esta es la razn por la cual Kuder y Richardson consideren tantas (n) partes en la prueba de acuerdo a los tems (n).En los mtodos de particin en dos, (conocido tambin como biseccin) supone para cada parte ser equivalente ( las formas paralelas ). Para el KR20, la misma lgica se adopta en el nivel de los tems. Es lo que uno llama unidimensional.El KR20 se aplica en la caja dicotmica de tems. Uno calcula el KR20 como sigue:

= variacin de las cuentas de la prueba. N = a un nmero total de tems en la prueba pi = es la proporcin de respuestas correctas al tem I. ndice de inteligencia = proporcin de respuestas incorrectas al tem I.

Se puede mostrar que el KR20 es el promedio de los ndices de la fidelidad el cul se obtendr si se calcula la fidelidad para todas las particiones posibles en dos. Para ilustrar la aplicacin del KR n 20 de la frmula de Kuder-Richardson, se puede tomar un ejemplo ficticio de una examen de 10 preguntas en el que se calcula el coeficiente de la consistencia interna. El vector 5,4 contiene la cuenta obtenida por cada pregunta as como la cuenta total del examen. Miremos al primer alumno, "Eric", que contest correctamente a seis preguntas entre las 10 preguntas del examen. Las preguntas correctas son, B, C, D, E, F, y que fall en las preguntas G, H, I, J. Verticalmente, todos los alumnos tuvieron xito en la pregunta (a) , mientras que solamente dos alumnos tuvieron xito en la pregunta (J).

Las *

Validez y Confiabilidad

Documents

Transcript of Validez y Confiabilidad