BLOQUE III - Weebly · BLOQUE III Actividad 1. Introducción al manejo de datos científicos (1...

14
BLOQUE III Actividad 1. Introducción al manejo de datos científicos (1 sesiones de 50 min.) (S1a) Los datos son esas partículas mínimas que conforma la estructura de un tipo específico de información, teniendo un origen muy particular que subyace del entorno al que se estudia; es este bloque se presenta de manera básica, cómo recopilar, manejar y utilizar datos de fuentes procedentes de entornos que corresponden al ámbito de la ciencia. Por primera instancia se hace uso de datos obtenidos de fuentes estadísticas que se integrarán a una herramienta especializada (Scilab), para la generación de trazos estadísticos básico como un modelo de regresión lineal para el análisis de situaciones donde se desarrolla correlación entre las variables de un estudio. Situación didáctica En una hoja de cálculo puedes desarrollar un ejercicio como el siguiente y es muy típico para el estudio de la regresión lineal simple. En una encuesta realizada a un grupo de 10 personas, basada en su altura y peso, se desea determina una función predictiva, que permita obtener un valor aproximado para casos subsecuentes. ENCUESTA 1 2 3 4 5 6 7 8 9 10 X 151 153 152 155 157 152 157 165 162 178 Y 51 63 54.5 58.5 64.3 61.5 61.5 70.4 67 74.3 El método que utilizaremos para resolver esta problemática se basa en la teoría estadística de la regresión lineal simple o ajuste lineal, este método es usado para aproximar la relación de independencia entre una variable independiente (X) y una dependiente (Y), este paradigma ha sido utilizado en múltiple forma de análisis, y tuvo sus principios en el año 1805 por Adrien-Marie Legendre.

Transcript of BLOQUE III - Weebly · BLOQUE III Actividad 1. Introducción al manejo de datos científicos (1...

BLOQUE III Actividad 1. Introducción al manejo de datos científicos (1 sesiones de

50 min.) (S1a)

Los datos son esas partículas mínimas que conforma la estructura de

un tipo específico de información, teniendo un origen muy particular

que subyace del entorno al que se estudia; es este bloque se

presenta de manera básica, cómo recopilar, manejar y utilizar datos

de fuentes procedentes de entornos que corresponden al ámbito de

la ciencia.

Por primera instancia se hace uso de datos obtenidos de fuentes

estadísticas que se integrarán a una herramienta especializada

(Scilab), para la generación de trazos estadísticos básico como un

modelo de regresión lineal para el análisis de situaciones donde se

desarrolla correlación entre las variables de un estudio.

Situación didáctica

En una hoja de cálculo puedes desarrollar un ejercicio como el

siguiente y es muy típico para el estudio de la regresión lineal simple.

En una encuesta realizada a un grupo de 10 personas, basada en su

altura y peso, se desea determina una función predictiva, que permita

obtener un valor aproximado para casos subsecuentes.

ENCUESTA 1 2 3 4 5 6 7 8 9 10

X 151 153 152 155 157 152 157 165 162 178

Y 51 63 54.5 58.5 64.3 61.5 61.5 70.4 67 74.3

El método que utilizaremos para resolver esta problemática se basa

en la teoría estadística de la regresión lineal simple o ajuste lineal,

este método es usado para aproximar la relación de independencia

entre una variable independiente (X) y una dependiente (Y), este

paradigma ha sido utilizado en múltiple forma de análisis, y tuvo sus

principios en el año 1805 por Adrien-Marie Legendre.

Su ecuación: 𝑦 = 𝑏𝑥 + 𝑎

Para nuestro caso de estudio, se hará uso de la ecuación simplificada,

dado que el modelo complejo implica detalles más elaborados para

mejorar la presión de la ecuación.

Los elementos que constituyen al modelo son:

n Tamaño de la muestra

b Pendiente de la recta

a Punto de corte de la recta al eje Y

x Valor de la variable independiente

A continuación, descarga el archivo y grafica tomando a las variables

X e Y en un gráfico de tipo Dispersión.

Descarga el libro de trabajo:

Con lo anterior ahora calcula…

El peso aproximado de una persona con estatura de 1.68 m.

Sustituyen en la ecuación x=168 (cm)

Y=0.7276(168)-52.51

Su peso es: ___________

Aplica al gráfico de dispersión la opción línea de tendencia Lineal,

y se apreciará una la ecuación seguido de un concepto llamado

Coeficiente de correlación, que indica la correlación entre las

variables de estudio.

Presta atención a lo mostrado en el gráfico, en especial a la

ecuación, porque podrás notar que se trata de la ecuación

resultante del modelo de regresión lineal simple.

Actividad 2. Conociendo a la herramienta especializada (1

sesiones de 50 min.)(S1b)

Ahora imaginemos que se necesita justificar esa ecuación y entender

que significan esos términos, además, si se tratara de una fuente con

una mayor cantidad de datos provenientes de un estudio o dispositivo

externo, cuál sería la herramienta adecuada para resolver esta

situación.

En el mercado existe una importante cantidad de software

especializado en el manejo de datos de corte científico, tales como

MathLab, Maple, Sage y otros, muchos de tipo comercial y otros

pocos de código abierto. En nuestro caso de estudio se hará uso de

un software denominado Scilab, el cual tiene un apoyo importante por

la comunidad científica e industrial y que comparte características

comunes con los diversos ecosistemas de su misma índole.

Conociendo a Scilab

Es un software de código abierto (licencia GPL/Linux) para el análisis

numérico, que provee de un amplio poder de computo dirigido hacia

la constitución de aplicaciones de ingeniería y científicas.

Sus funcionalidades abordan:

• Simulaciones matemáticas.

• Visualización 2D y 3D.

• Optimización

• Estadística

• Diseño de Control y análisis

• Entorno de trabajo

Actividad 3. Introducción al manejo de datos científicos (1

sesiones de 50 min.) (S2a)

Scilab tiene una estructura en la que las instrucciones se ejecutan en

una consola o en una libreta, cada uno de estos interpretes tiene un

particular sentido en la compilación1.

En el caso de la consola las instrucciones se integran en el prompt.

Para obtener la raíz cuadrada de 4, se

escribe el comando SQRT(),

integrando como parámetro al valor que

se necesite operar. Como

respuesta a esto se genera una variable2

llamada ans, la cual contiene la respuesta generada

de la operación.

Declaración de variables

Declarar una variable (VariableX) con un valor de 5.

La asignación de valores a las variables es a través del signo =, esta

estructura otorga un valor a la designación describa en la consola, y al

realizar este proceso la variable contiene este valor de manera volátil, Scilab

lleva un control de las variables utilizadas e incluso presenta un panel con

todas ellas.

1 Compilar:

Proceso en el

que se 2

Variable:

Declarar una variable (VariableZ) con un valor de 10.

Sumando las variables (VariableX y VariableZ) para asignar el resultado a una

nueva variable.

Así se verá tu consola al ingresar los datos a la misma, algo

importante que mencionar, es cómo “limpiar” la pantalla, para ello a

nivel del prompt, utiliza el comando clc (Clear Screen).

Operadores básicos en la herramienta especializada

Tipo de datos, Constantes y operadores

Reales 6.02 .0909 2.3e+2

Complejos 3+4*%i

Booleanos %t (Verdadero) %f (Falso)

Consola Registr o de variables

Constantes

%pi (PI=3.1416) %e (Número e/Euler) %i

(Unidad imaginaria)

Caracteres/Cadenas ‘Cadena de caracteres’ “string”

Operadores aritméticos: + - * / ^

Operadores de comparación: == ~= (ó <>) < > <= >=

Operadores lógicos: & | ~

Funciones elementales

sqrt(núm) Raíz cuadrada

abs(núm) Valor absoluto

exp(núm) Exponencial (Euler)

log(núm) Logaritmo natural

sin(ángulo) Seno (radianes)

cos(ángulo) Coseno (radianes)

tan(ángulo) Tangente (radianes)

Funciones utilizadas en las diversas actividades

sum()

Devuelve la suma de los datos

numéricos ingresados.

mean()

Devuelve el promedio de los datos

numéricos ingresados.

plot2d() Genera el gráfico bidimensional que

corresponde con la función

especificada como parámetro.

clf() Borra la pantalla gráfica.

csvRead() Lectura de un archivo de tipo CSV.

length() Obtiene la longitud de un arreglo

pwd Devuelve la ruta actual de la carpeta de

trabajo sobre la que se están

manipulando los archivos.

Actividad 4. Integrando datos y modelos desde una hoja de cálculo a

la

herramienta especializada (1 sesiones de 50 min.) (S2b)

Ahora, basado en la hoja de cálculo que se presentó en el ejemplo

de apoyo, se implementará el mismo modelo con sus respectivos

datos, para resolver la ecuación de regresión lineal utilizando a la

herramienta especializada de Scilab.

Ingreso de datos a través de Vectores

Para ingresar los datos a la estructura del modelo matemático se hará

uso de variables de tipo vector, las cuales funcionan como un

conjunto de cajas que almacenan datos bajo un mismo nombre, pero

diferenciadas por su nivel de posicionamiento. vector =[1,3,4,5]

Equivale en memoria a:

1 3 4 5

Vector [1] Vector [2] Vector [3] Vector [4]

Un solo nombre, distinto posicionamiento

Aprendido lo anterior, integraras la información de las variables X e Y

de la hoja de cálculo a través de dos variables de tipo vector,

posteriormente transcribe el código de Scilab en la consola.

En la consola se integran las siguientes instrucciones en cada línea

del prompt:

x=[151, 153, 152, 155, 157, 152, 157, 165, 162, 178]

y=[51, 63, 54.5, 58.5, 64.3, 61.5, 61.5, 70.4,67, 74.3] Sx=sum(x)

Sx2=sum(x^2)

Sy=sum(y) Sxy=sum(x.*y)

n=length(x) X=mean(x)

Y=mean(y)

SSxy=Sxy/n-(X*Y)

SSx2=Sx2/n-(X)^2

b=SSxy/SSx2

a=Y-b*X

Por cada instrucción integrada se realiza la validación y la consola

mostrará algo semejante a la figura.

Estas se apreciarán como se presenta en la figura inferior, sin

embargo, hay otra forma más factible de trabajar en Scilab y que

evitará la problemática Consola, para

ello se accede al Editor de Notas (SciNotes ) y se escribe la misma

estructura pero con la libertad de un editor, al termino de las

instrucciones, se procede a su ejecución utilizando el método

abreviado CTRL+L o bien a través de la secuencia: Execute…file

with echo , generando el resultado en la pantalla de la consola.

Resultado de la ejecución a través del método abreviado (Ctrl+L).

Listo, tu ecuación de regresión es semejante a la obtenida en la

hoja de cálculo.

Sea: 𝑦 = 𝑏𝑥 + 𝑎 a= -52.51 b= 0.7276

Ecuación: 𝑦 = 0.7276𝑥 − 52.51

Actividad 5. Integrando datos masivos desde una hoja de

cálculo (1 sesiones de 50 min.) (S3a)

Ejemplo de apoyo

En el ejemplo de apoyo se aprecia la incorporación de datos de

manera mínima, pero si el resultado de un estudio arrojara una

cantidad masivo de datos, como podríamos incorporarlos al

procesamiento a través de las fórmulas de valoración, para ello se

presenta el siguiente ejemplo, en el que además de integrar datos

masivos de un archivo externo, también se utilizan para su

graficación.

Utilizando el archivo que acompaña al ejemplo, vamos a integrar

datos desde una fuente distinta, en este caso a través de una hoja de

cálculo. A esta hoja de cálculo se le exportará al formato CVS2, el cual

es un estándar muy conocido para el intercambio de datos y que

además puede ser generado como archivo de texto.

2 CVS:

Conversión de datos de una hoja de cálculo al formato CVS

1. Descarga y abre el archivo

1. Menú: ArchivoGuardar como…

a. Nombre: datosExcel_a_CVS

b. Tipo: CSV UTF-8

2. Guardar

3. Cierra tu archivo (Cierra Hoja de Cálculo)

Integración de los datos del archivo CVS a la Herramienta

especializada (Scilab)

1. Identifica la carpeta donde te encuentras através del comando

pwd, utilizando la consola.

2. En este caso se está en la carpeta de Mis Documentos, por lo

que se procede a la copia del archivo CSV a esta misma

carpeta de trabajo.

3. Seguido a ello se hace uso de la función csvRead, la cual

integra los TODOS datos a una variable llamada DATOS.

DATOS=csvRead("datosExcel_a_CVS.csv")

4. Como se mencionó anteriormente, TODOS los datos ya están

cargados a través de la instrucción anterior, sin embargo,

cuando Scilab proceda a operar todas las variables, intentara

aplicar operaciones a los ENCABEZADOS que son literales,

para ello se acorta la información indicando que se toman los

datos desde el segundo elemento y serán separados por su

número de columna respectiva a través de las instrucciones:

x=DATOS(2:$,1)

y=DATOS(2:$,2)

5. Las demás instrucciones se mantienen de manera original.

Los resultados son semejantes a los mostrados en la siguiente

figura inferior y por ende la ecuación resultante también.

Actividad 6. Graficación de datos importados (1 sesiones

de 50 min.) (S3b)

Para realizar el trazo gráfico de los datos a través de Scilab, se hace

uso de la función plot2d, en la cual se integrará en sus argumentos

los valores independientes (x) y dependientes (y), con el parámetro -

1, para indicar un tipo de carácter indicativo de los valores a lo largo

de su interpretación en el plano cartesiano.

DATOS=csvRead("datosExcel_

a_CVS.csv") x=DATOS(2:$,1)

y=DATOS(2:$,2) Sx=sum(x) Sx2=sum(x^2)

Sy=sum(y)

Sxy=sum(x.*y)

n=length(x)

X=mean(x)

Y=mean(y)

SSxy=Sxy/n-(X*Y)

SSx2=Sx2/n-(X)^2

b=SSxy/SSx2

a=Y-b*X clf()

plot2d(x,y,-1)

Anexa al fina la siguiente instrucción a la libreta de notas y ejecuta

con Ctrl+L

plot2d(x,b*x+a)

y su trazo será semejante al correspondiente a la figura inferior.

Le ecuación de regresión es:

𝑦 = 0.9708𝑥 − 89.10

Ahora calcula

El peso aproximado de una persona con estatura de 1.68 m.

Sustituyen en la ecuación x=168 (cm)

Su peso es: ___________