BLOQUE III - Weebly · BLOQUE III Actividad 1. Introducción al manejo de datos científicos (1...
Transcript of BLOQUE III - Weebly · BLOQUE III Actividad 1. Introducción al manejo de datos científicos (1...
BLOQUE III Actividad 1. Introducción al manejo de datos científicos (1 sesiones de
50 min.) (S1a)
Los datos son esas partículas mínimas que conforma la estructura de
un tipo específico de información, teniendo un origen muy particular
que subyace del entorno al que se estudia; es este bloque se
presenta de manera básica, cómo recopilar, manejar y utilizar datos
de fuentes procedentes de entornos que corresponden al ámbito de
la ciencia.
Por primera instancia se hace uso de datos obtenidos de fuentes
estadísticas que se integrarán a una herramienta especializada
(Scilab), para la generación de trazos estadísticos básico como un
modelo de regresión lineal para el análisis de situaciones donde se
desarrolla correlación entre las variables de un estudio.
Situación didáctica
En una hoja de cálculo puedes desarrollar un ejercicio como el
siguiente y es muy típico para el estudio de la regresión lineal simple.
En una encuesta realizada a un grupo de 10 personas, basada en su
altura y peso, se desea determina una función predictiva, que permita
obtener un valor aproximado para casos subsecuentes.
ENCUESTA 1 2 3 4 5 6 7 8 9 10
X 151 153 152 155 157 152 157 165 162 178
Y 51 63 54.5 58.5 64.3 61.5 61.5 70.4 67 74.3
El método que utilizaremos para resolver esta problemática se basa
en la teoría estadística de la regresión lineal simple o ajuste lineal,
este método es usado para aproximar la relación de independencia
entre una variable independiente (X) y una dependiente (Y), este
paradigma ha sido utilizado en múltiple forma de análisis, y tuvo sus
principios en el año 1805 por Adrien-Marie Legendre.
Su ecuación: 𝑦 = 𝑏𝑥 + 𝑎
Para nuestro caso de estudio, se hará uso de la ecuación simplificada,
dado que el modelo complejo implica detalles más elaborados para
mejorar la presión de la ecuación.
Los elementos que constituyen al modelo son:
n Tamaño de la muestra
b Pendiente de la recta
a Punto de corte de la recta al eje Y
x Valor de la variable independiente
A continuación, descarga el archivo y grafica tomando a las variables
X e Y en un gráfico de tipo Dispersión.
Descarga el libro de trabajo:
Con lo anterior ahora calcula…
El peso aproximado de una persona con estatura de 1.68 m.
Sustituyen en la ecuación x=168 (cm)
Y=0.7276(168)-52.51
Su peso es: ___________
Aplica al gráfico de dispersión la opción línea de tendencia Lineal,
y se apreciará una la ecuación seguido de un concepto llamado
Coeficiente de correlación, que indica la correlación entre las
variables de estudio.
Presta atención a lo mostrado en el gráfico, en especial a la
ecuación, porque podrás notar que se trata de la ecuación
resultante del modelo de regresión lineal simple.
Actividad 2. Conociendo a la herramienta especializada (1
sesiones de 50 min.)(S1b)
Ahora imaginemos que se necesita justificar esa ecuación y entender
que significan esos términos, además, si se tratara de una fuente con
una mayor cantidad de datos provenientes de un estudio o dispositivo
externo, cuál sería la herramienta adecuada para resolver esta
situación.
En el mercado existe una importante cantidad de software
especializado en el manejo de datos de corte científico, tales como
MathLab, Maple, Sage y otros, muchos de tipo comercial y otros
pocos de código abierto. En nuestro caso de estudio se hará uso de
un software denominado Scilab, el cual tiene un apoyo importante por
la comunidad científica e industrial y que comparte características
comunes con los diversos ecosistemas de su misma índole.
Conociendo a Scilab
Es un software de código abierto (licencia GPL/Linux) para el análisis
numérico, que provee de un amplio poder de computo dirigido hacia
la constitución de aplicaciones de ingeniería y científicas.
Sus funcionalidades abordan:
• Simulaciones matemáticas.
• Visualización 2D y 3D.
• Optimización
• Estadística
• Diseño de Control y análisis
• Entorno de trabajo
Actividad 3. Introducción al manejo de datos científicos (1
sesiones de 50 min.) (S2a)
Scilab tiene una estructura en la que las instrucciones se ejecutan en
una consola o en una libreta, cada uno de estos interpretes tiene un
particular sentido en la compilación1.
En el caso de la consola las instrucciones se integran en el prompt.
Para obtener la raíz cuadrada de 4, se
escribe el comando SQRT(),
integrando como parámetro al valor que
se necesite operar. Como
respuesta a esto se genera una variable2
llamada ans, la cual contiene la respuesta generada
de la operación.
Declaración de variables
Declarar una variable (VariableX) con un valor de 5.
La asignación de valores a las variables es a través del signo =, esta
estructura otorga un valor a la designación describa en la consola, y al
realizar este proceso la variable contiene este valor de manera volátil, Scilab
lleva un control de las variables utilizadas e incluso presenta un panel con
todas ellas.
1 Compilar:
Proceso en el
que se 2
Variable:
Declarar una variable (VariableZ) con un valor de 10.
Sumando las variables (VariableX y VariableZ) para asignar el resultado a una
nueva variable.
Así se verá tu consola al ingresar los datos a la misma, algo
importante que mencionar, es cómo “limpiar” la pantalla, para ello a
nivel del prompt, utiliza el comando clc (Clear Screen).
Operadores básicos en la herramienta especializada
Tipo de datos, Constantes y operadores
Reales 6.02 .0909 2.3e+2
Complejos 3+4*%i
Booleanos %t (Verdadero) %f (Falso)
Consola Registr o de variables
Constantes
%pi (PI=3.1416) %e (Número e/Euler) %i
(Unidad imaginaria)
Caracteres/Cadenas ‘Cadena de caracteres’ “string”
Operadores aritméticos: + - * / ^
Operadores de comparación: == ~= (ó <>) < > <= >=
Operadores lógicos: & | ~
Funciones elementales
sqrt(núm) Raíz cuadrada
abs(núm) Valor absoluto
exp(núm) Exponencial (Euler)
log(núm) Logaritmo natural
sin(ángulo) Seno (radianes)
cos(ángulo) Coseno (radianes)
tan(ángulo) Tangente (radianes)
Funciones utilizadas en las diversas actividades
sum()
Devuelve la suma de los datos
numéricos ingresados.
mean()
Devuelve el promedio de los datos
numéricos ingresados.
plot2d() Genera el gráfico bidimensional que
corresponde con la función
especificada como parámetro.
clf() Borra la pantalla gráfica.
csvRead() Lectura de un archivo de tipo CSV.
length() Obtiene la longitud de un arreglo
pwd Devuelve la ruta actual de la carpeta de
trabajo sobre la que se están
manipulando los archivos.
Actividad 4. Integrando datos y modelos desde una hoja de cálculo a
la
herramienta especializada (1 sesiones de 50 min.) (S2b)
Ahora, basado en la hoja de cálculo que se presentó en el ejemplo
de apoyo, se implementará el mismo modelo con sus respectivos
datos, para resolver la ecuación de regresión lineal utilizando a la
herramienta especializada de Scilab.
Ingreso de datos a través de Vectores
Para ingresar los datos a la estructura del modelo matemático se hará
uso de variables de tipo vector, las cuales funcionan como un
conjunto de cajas que almacenan datos bajo un mismo nombre, pero
diferenciadas por su nivel de posicionamiento. vector =[1,3,4,5]
Equivale en memoria a:
1 3 4 5
Vector [1] Vector [2] Vector [3] Vector [4]
Un solo nombre, distinto posicionamiento
Aprendido lo anterior, integraras la información de las variables X e Y
de la hoja de cálculo a través de dos variables de tipo vector,
posteriormente transcribe el código de Scilab en la consola.
En la consola se integran las siguientes instrucciones en cada línea
del prompt:
x=[151, 153, 152, 155, 157, 152, 157, 165, 162, 178]
y=[51, 63, 54.5, 58.5, 64.3, 61.5, 61.5, 70.4,67, 74.3] Sx=sum(x)
Sx2=sum(x^2)
Sy=sum(y) Sxy=sum(x.*y)
n=length(x) X=mean(x)
Y=mean(y)
SSxy=Sxy/n-(X*Y)
SSx2=Sx2/n-(X)^2
b=SSxy/SSx2
a=Y-b*X
Por cada instrucción integrada se realiza la validación y la consola
mostrará algo semejante a la figura.
Estas se apreciarán como se presenta en la figura inferior, sin
embargo, hay otra forma más factible de trabajar en Scilab y que
evitará la problemática Consola, para
ello se accede al Editor de Notas (SciNotes ) y se escribe la misma
estructura pero con la libertad de un editor, al termino de las
instrucciones, se procede a su ejecución utilizando el método
abreviado CTRL+L o bien a través de la secuencia: Execute…file
with echo , generando el resultado en la pantalla de la consola.
Resultado de la ejecución a través del método abreviado (Ctrl+L).
Listo, tu ecuación de regresión es semejante a la obtenida en la
hoja de cálculo.
Sea: 𝑦 = 𝑏𝑥 + 𝑎 a= -52.51 b= 0.7276
Ecuación: 𝑦 = 0.7276𝑥 − 52.51
Actividad 5. Integrando datos masivos desde una hoja de
cálculo (1 sesiones de 50 min.) (S3a)
Ejemplo de apoyo
En el ejemplo de apoyo se aprecia la incorporación de datos de
manera mínima, pero si el resultado de un estudio arrojara una
cantidad masivo de datos, como podríamos incorporarlos al
procesamiento a través de las fórmulas de valoración, para ello se
presenta el siguiente ejemplo, en el que además de integrar datos
masivos de un archivo externo, también se utilizan para su
graficación.
Utilizando el archivo que acompaña al ejemplo, vamos a integrar
datos desde una fuente distinta, en este caso a través de una hoja de
cálculo. A esta hoja de cálculo se le exportará al formato CVS2, el cual
es un estándar muy conocido para el intercambio de datos y que
además puede ser generado como archivo de texto.
2 CVS:
Conversión de datos de una hoja de cálculo al formato CVS
1. Descarga y abre el archivo
1. Menú: ArchivoGuardar como…
a. Nombre: datosExcel_a_CVS
b. Tipo: CSV UTF-8
2. Guardar
3. Cierra tu archivo (Cierra Hoja de Cálculo)
Integración de los datos del archivo CVS a la Herramienta
especializada (Scilab)
1. Identifica la carpeta donde te encuentras através del comando
pwd, utilizando la consola.
2. En este caso se está en la carpeta de Mis Documentos, por lo
que se procede a la copia del archivo CSV a esta misma
carpeta de trabajo.
3. Seguido a ello se hace uso de la función csvRead, la cual
integra los TODOS datos a una variable llamada DATOS.
DATOS=csvRead("datosExcel_a_CVS.csv")
4. Como se mencionó anteriormente, TODOS los datos ya están
cargados a través de la instrucción anterior, sin embargo,
cuando Scilab proceda a operar todas las variables, intentara
aplicar operaciones a los ENCABEZADOS que son literales,
para ello se acorta la información indicando que se toman los
datos desde el segundo elemento y serán separados por su
número de columna respectiva a través de las instrucciones:
x=DATOS(2:$,1)
y=DATOS(2:$,2)
5. Las demás instrucciones se mantienen de manera original.
Los resultados son semejantes a los mostrados en la siguiente
figura inferior y por ende la ecuación resultante también.
Actividad 6. Graficación de datos importados (1 sesiones
de 50 min.) (S3b)
Para realizar el trazo gráfico de los datos a través de Scilab, se hace
uso de la función plot2d, en la cual se integrará en sus argumentos
los valores independientes (x) y dependientes (y), con el parámetro -
1, para indicar un tipo de carácter indicativo de los valores a lo largo
de su interpretación en el plano cartesiano.
DATOS=csvRead("datosExcel_
a_CVS.csv") x=DATOS(2:$,1)
y=DATOS(2:$,2) Sx=sum(x) Sx2=sum(x^2)
Sy=sum(y)
Sxy=sum(x.*y)
n=length(x)
X=mean(x)
Y=mean(y)
SSxy=Sxy/n-(X*Y)
SSx2=Sx2/n-(X)^2
b=SSxy/SSx2
a=Y-b*X clf()
plot2d(x,y,-1)
Anexa al fina la siguiente instrucción a la libreta de notas y ejecuta
con Ctrl+L
plot2d(x,b*x+a)
y su trazo será semejante al correspondiente a la figura inferior.