ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER...

41
PONTIFICIA UNIVERSIDAD CATÓLICA DE VALPARAÍSO FACULTAD DE INGENIERÍA ESCUELA DE INGENIERÍA INFORMÁTICA ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER EN CHILE JUAN CARLOS CASTILLO BRITO Profesor Guía: Rodrigo Alfaro Arancibia Profesor Co-referente: Héctor Allende-Cid INFORME FINAL DE PROYECTO PARA OPTAR AL TÍTULO PROFESIONAL DE INGENIERO CIVIL EN INFORMÁTICA Junio 2017

Transcript of ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER...

Page 1: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

PONTIFICIA UNIVERSIDAD CATÓLICA DE VALPARAÍSOFACULTAD DE INGENIERÍA

ESCUELA DE INGENIERÍA INFORMÁTICA

ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DETWITTER EN CHILE

JUAN CARLOS CASTILLO BRITO

Profesor Guía: Rodrigo Alfaro ArancibiaProfesor Co-referente: Héctor Allende-Cid

INFORME FINAL DE PROYECTOPARA OPTAR AL TÍTULO PROFESIONAL DE

INGENIERO CIVIL EN INFORMÁTICA

Junio 2017

Page 2: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Dedicatoria.En primer lugar, agradezco a todos quienes creyeron en mi durante toda esta etapa ,

especialmente a mi madre que nunca dudó en que algún día me convertiría en profesional .

A mi pareja Karen Guzmán la cual siempre tuvo la voluntad de ayudarme en todo , sobre todoen los momentos difíciles.

A mis incondicionales amigos que a pesar de la distancia siempre estuvieron presentesbrindándome el apoyo necesario para seguir adelante .

Finalmente dedico estos agradecimientos a mi madrina con quien me hubiese gustado compartireste logro : Gabriela Olivares (Q.E.P.D) donde quieras que estés ,gracias por acompañarme en

todo momento .

2

Page 3: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Resumen

El volumen de datos generado por las redes sociales parece no tener fin, cada día se publicanmillones de actualizaciones de los cientos de millones de los miembros de las redes sociales máspopulares como Facebook, Twitter, Google +, Pinterest entre otras , además estas redes socialesproporcionan toda clase de detalle sobre los usuarios , lo que las convierte en minas de datos delas que se debe extraer la información de mayor interés para ayudar en la toma de decisiones.

Es por lo tanto es de vital importancia comprender su importancia y saber cómo aprovechartal información, es en este punto donde la minería de datos con sus fundamentos estadísticos ycientíficos en el área de la computación entra en juego para extraer información de un conjuntode datos y transformarla en una estructura comprensible para su uso.

En el presente trabajo de investigacion se abordarán conceptos fundamentales de Twitter unared social que en pocos años se ha convertido en una de las redes sociales más influyentes en laactualidad junto a un estudio descriptivo de los usuarios de Chile que utilizan esta red y tambiénse estudia un conjunto de Tweets creados bajo el hashtag #NOMASAFP

Palabras Clave: Minería de datos, Twitter, red social, análisis de datos, Big-data,AFP.

Abstract

The volume of data generated by social networks seems to have no end, every day is publis-hed millions of updates of the hundreds of millions of members of popular social networks likeFacebook, Twitter, Google +, Pinterest among others, also these networks, social organizations,the kind of detail about users, which makes them into mines of data from which to extract theinformation of mayor to help in decision making.

It is therefore of vital importance to understand its importance and know how to take ad-vantage of the information, it is at this point where data mining with its statistical and scientificfoundations in the area of computing comes into play for extra information of a set of data andtransform it into an understandable structure for its use.

In this research work will be tackled fundamental concepts of Twitter a social network that ina few years has become one of the most influential social networks at the present time togetherwith a descriptive study of users in Chile who use this network and also studies a set of Tweetscreated under the hashtag #NOMASAFP

Keywords: Data mining, Twitter, social network, data analysis, Big-data, AFP.

i

Page 4: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Índice

1. Introducción 1

2. Marco general del Proyecto 22.1. Orientación del proyecto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22.2. Definición de Objetivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.2.1. Objetivo general. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22.2.2. Objetivos específicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

3. Marco Teórico 33.1. Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

3.1.1. Características del Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . 33.2. Minería de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

3.2.1. Modelos de Minería de Datos . . . . . . . . . . . . . . . . . . . . . . . . 53.3. Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53.4. API Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

4. Análisis Descriptivo 74.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74.2. Conjunto de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74.3. Marco de Aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84.4. Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

5. Búsqueda de Patrones en Perfiles de Usuarios 115.1. Metodología . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115.2. Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

6. Búsqueda de Patrones en Conjunto de Tweets. 146.1. Contexto de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146.2. Conjunto de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146.3. Pre procesamiento de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

6.3.1. Limpieza de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156.3.2. Transformación de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 156.3.3. Metodología . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

6.4. Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156.5. Usuarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206.6. Comparación e interpretación de palabras más utilizadas. . . . . . . . . . . . . . 26

6.6.1. Marcha 21 de Agosto de 2016 . . . . . . . . . . . . . . . . . . . . . . . . . 276.6.2. Marcha 24 de Julio de 2016 . . . . . . . . . . . . . . . . . . . . . . . . . . 296.6.3. Marcha 4 de Noviembre de 2016 . . . . . . . . . . . . . . . . . . . . . . . 31

7. Conclusión. 34

ii

Page 5: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Lista de Figuras

1. Modelo KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42. Conjunto de datos en JSON. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73. Gráfico con cantidad de cuentas creadas por año . . . . . . . . . . . . . . . . . . 94. Gráfico de usuarios hombres y usuarias mujeres de Twitter en Chile . . . . . . . . 95. Gráfico Promedio de seguidores según sexo. . . . . . . . . . . . . . . . . . . . . . 106. Promedio de Tweets y re–Tweets. . . . . . . . . . . . . . . . . . . . . . . . . . . . 107. Método TF-IDF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118. Nube de palabras hombres y mujeres. . . . . . . . . . . . . . . . . . . . . . . . . . 129. Clúster jerárquico usuarios Hombres. . . . . . . . . . . . . . . . . . . . . . . . . . 1310. Clúster jerárquico usuarios Mujeres . . . . . . . . . . . . . . . . . . . . . . . . . . 1311. Estructura de un archivo CSV. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1412. Dendograma Marcha 24-7-2016. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1613. Dendograma Marcha 4-11-2016. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1714. Gráfico Comparativa entre asistencia a marchas y Tweets.. . . . . . . . . . . . . . 1815. Gráfico Porcentaje de nuevo contenido versus RE Tweets. . . . . . . . . . . . . . 1816. Gráfico Uso de distintos positivos. . . . . . . . . . . . . . . . . . . . . . . . . . . 1917. Gráfico Uso de distintos positivos durante las marchas. . . . . . . . . . . . . . . . 1918. Participación de los usuarios en Twitter segun convocatoria. . . . . . . . . . . . . 2119. Usuarios según convocatoria. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2120. Gráfico histograma KLOUT de los usuarios.. . . . . . . . . . . . . . . . . . . . . 2321. Histograma Followers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2422. Histograma Followings. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2523. Dendograma Tweets 20-8-2016. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2724. Dendograma Tweets 21-8-2016. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2725. Dendograma Tweets 22-8-2016. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2826. Nube de palabras marcha 22-8-2016 . . . . . . . . . . . . . . . . . . . . . . . . . . 2827. Dendograma Tweets 23-7-2016. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2928. Dendograma Tweets 24-7-2016. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2929. Dendograma Tweets 25-7-2016. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3030. Nube de palabras marcha 24-7-2016. . . . . . . . . . . . . . . . . . . . . . . . . . 3131. Dendograma Tweets 3-11-2016. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3132. Dendograma Tweets 4-11-2016. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3233. Dendograma Tweets 5-11-2016. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3234. Nube de palabras marcha 4-11-2017. . . . . . . . . . . . . . . . . . . . . . . . . . 33

iii

Page 6: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Lista de Tablas

1. Repetición de participación de usuarios en cada convocatoria . . . . . . . . . . . 222. Usuarios más activos usando el hashtag #NOMASAFP. . . . . . . . . . . . . . . 233. Tweets más compartidos usando el hashtag #NOMASAFP . . . . . . . . . . . . 25

iv

Page 7: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

1. Introducción

Big Data es un término que describe el gran volumen de datos, independiente de la estructuraque estos tengan, los cuales inundan las empresas cada día. Pero no es la cantidad de datos loque es importante. Lo que importa con el Big Data es lo que las organizaciones hacen con losdatos. La mayor utilidad del Big Data es proporcionar información útil en la toma de decisionesen base a los datos generados, siendo la fuente de estos muy variada como lo son las redes sociales,transacciones, IOT (Internet de las cosas), personas entre otras.

No obstante, este proceso de transformar los datos en información valiosa trae consigo unreto enorme al momento de querer ser estudiado debido al volumen de datos que hoy en día segeneran a diario y con la dificultad de distinguir lo que es en verdad información útil.

En este proyecto de investigación se estudiará el reconocimiento de patrones y la aplicación demétodos automáticos para la extracción de estos bajo dos conjuntos de datos distintos extraídosa partir de la red social Twitter la cual es una de las redes sociales actuales más influyentesactualmente con el fin de interpretar el comportamiento de las personas en base al contenidogenerado.

1

Page 8: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

2. Marco general del Proyecto

2.1. Orientación del proyecto.

Este proyecto consta de tres etapas identificables. La primera etapa consiste en comprenderel funcionamiento de Twitter y los atributos que su API posee usando un set de datos que abarcaun año de uso de Twitter solo de usuarios en Chile. La segunda etapa consiste en investigar y enesclarecer técnicas de análisis automático de textos con el fin de encontrar patrones en la formade cómo estos usuarios se describen en Twitter. Y, por último, la tercera etapa consiste en laimplementación de estas técnicas y su consolidación en un conjunto especifico de datos que sonusando el hashtag #NOMASAFP.

2.2. Definición de Objetivos.

2.2.1. Objetivo general.

El objetivo general del proyecto es, mediante la utilización de técnicas automáticas de mineríade textos encontrar patrones en los mensajes de los usuarios de Twitter sobre un set de datos histó-rico que recoge información del funcionamiento de los usuarios de Twitter de Chile por un periodode un año y otro conjunto de datos que representa tweets creados bajo el hashtag #NOMASAFP.

2.2.2. Objetivos específicos.

Comprender la estructura y el funcionamiento de Twitter.

Realizar análisis descriptivo sobre el conjunto de datos.

Investigar y analizar técnicas de análisis automático de texto con el fin de identificar ydeterminar cuál se implementará.

Implementación de la(s) técnica(s) seleccionada sobre los mensajes de los usuarios sobre elconjunto de datos.

Validar y consolidar resultados

2

Page 9: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

3. Marco Teórico

3.1. Big Data

No existe unanimidad sobre el concepto de Big Data, aunque si un cierto consenso en la fuerzadisruptiva que suponen grandes volúmenes de datos y la necesidad de su captura, almacenamien-to y análisis. En general, existen diferentes aspectos donde casi todas las definiciones están deacuerdo en que Biga Data es el crecimiento exponencial de la creación de grandes volúmenes dedatos, origen o fuentes de datos y la necesidad de su captura, almacenamiento y análisis paraconseguir el mayor beneficio para organizaciones y empresas junto con las oportunidades queofrecen y los riesgos de su no adopción.

3.1.1. Características del Big Data

Cada día creamos 2,5 quintillones de bytes de datos, de forma que el 90 % de los datos delmundo actual se han creado en los último dos años, en un minuto se generan 98.000 tuits , enFacebook ingresan 27.000 personas y se ven 1.3 millones de videos en YouTube. Por ende, lacomprensión de estas cifras llevo a que se crearan distintas perspectivas sobre Big Data en basea sus dimensiones. IBM plantea el "Modelo de las tres V": volumen, velocidad y variedad .[12]

VolumenLas organizaciones se enfrentan a volúmenes masivos de datos y de las cuales quienes no consi-guen como gestionar estos datos están abrumadas por ellas. IBM plantea que el volumen de datosdisponible en las organizaciones hoy en día está en ascenso mientras que el porcentaje de datosque se analiza esta en disminución.

VelocidadLa importancia de la velocidad de los datos y la frecuencia de actualizaciones de las grandes basesde datos son características muy importantes hoy en día donde se requiere que el procesamientoy análisis de información ha de hacerse en tiempo real para mejorar la toma de decisiones sobrela base de información generada.

VariedadEn los Big Data las fuentes de datos son diversas y no suelen ser estructuras relacionales típicas.Los datos de redes sociales, de imágenes pueden venir de una fuente de sensores y no suelen estarpreparados para su integración en una aplicación.

3.2. Minería de Datos

La disponibilidad de grandes volúmenes de información y el uso generalizado de herramien-tas informáticas ha transformado el análisis de datos orientándolo hacia determinadas técnicasespecializadas englobadas bajo el nombre de minería de datos o Data Mining [13].

La minería de datos es el proceso de extracción de información significativa de grandes basesde datos, información que revela inteligencia del negocio, a través de factores ocultos, tendenciasy correlaciones para permitir al usuario realizar predicciones que resuelven problemas del negocioproporcionado una ventaja competitiva.

3

Page 10: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

La minería de datos a su vez está incluida en un proceso mayor denominado Descubrimientode Conocimiento en Bases de Datos, Knowledge Discovery in Databases (KDD) que consiste enel proceso mediante el cual se extrae la información necesaria para que sea utilizada y se componede la siguiente forma.

1. Selección: Consiste en buscar el objetivo y herramientas del proceso de minería, identificandolos datos que serán extraídos, buscando los atributos apropiados de entrada y la informaciónde salida para representar la tarea.

2. Limpieza de datos: En este paso se limpian los datos sucios, incluyendo los datos incomple-tos, valores incorrectos o inesperados y datos inconsistentes.

3. Integración de datos: Combina datos de múltiples procedencias incluyendo múltiples basesde datos, que podrían tener diferentes contenidos y formatos.

4. Transformación de datos: Consiste en transformaciones sintácticas llevadas a cabo sobredatos sin que supongan un cambio para la técnica de minería aplicada con el fin de mejorarla comprensión de reglas descubiertas al transformar los datos de bajo nivel en datos dealto nivel y también reduce significativamente el tiempo de ejecución.

5. Reducción de datos: esta etapa consigue disminuir el tamaño de los datos, encontrandolas características más significativas dependiendo del objetivo del proceso. Existen variosmétodos de transformación para reducir el número efectivo de variables a ser consideradaso para encontrar otras representaciones de datos.

6. Minería de datos: Consiste en la búsqueda de patrones de interés que pueden expresarsecomo un modelo o simplemente que expresen dependencia de los datos.

7. Evaluación de patrones: Se identifican verdaderamente patrones interesantes que represen-ten conocimiento.

8. Interpretación de resultados: Consiste en entender los resultados del análisis y sus implica-ciones además puede hacer que proceso vuelva a alguna de sus etapas anteriores. [14].

Figura 1: Modelo KDD

4

Page 11: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

3.2.1. Modelos de Minería de Datos

Los modelos predictivos pretenden estimar valores futuros o desconocidos de variables deinterés o también denominadas variables objetivo, usando otras variables o campos de labase de datos, a las que nos referimos como variables independientes o predictivas. Algunastareas de la minería de datos que producen modelos predictivos son la clasificación y laregresión.

En cambios los modelos descriptivos identifican patrones que explican o resumen los datos,es decir sirven para explorar las propiedades de los datos examinados y no para predecirnuevos datos. Algunas tareas de la minería de datos que producen modelos predictivos sonel agrupamiento, las reglas se asociación y análisis correccional

3.3. Twitter

Twitter fue fundado en marzo de 2006 por los estudiantes de la Universidad de Cornell enNueva York, Jack Dorsey , Biz Stone, Evan Williams y Noah Glass quienes fundaron la compañíaObvious que luego pasó a ser Twitter Inc. La idea surgió cuando Dorsey vio por primera vez lamensajería instantánea en marcha y se preguntó si el rendimiento del software del usuario podríaser compartido entre amigos fácilmente.

Twitter es una aplicación web gratuita de microblogging que reúne las ventajas de un blog,redes sociales y la mensajería instantánea. Es una forma de comunicación que permite al usuarioestar en contacto en tiempo real con personas de su interés a través de mensajes breves de textosde no más de 140 caracteres los cuales se denominan tweets.

Su funcionamiento es similar a cualquier otra red social, en Twitter los usuarios envían yreciben tweets vía web, Smartphone, mensajería instantánea o través de correo electrónico eincluso desde aplicaciones de terceros.

3.4. API Twitter

Una API [8] es un conjunto de funciones y procedimientos que cumplen una o muchas funcio-nes con el fin de ser utilizadas por otro software. Las siglas API vienen de Aplication ProgrammingInterface que en español significa Interfaz de Programación de Aplicaciones. Su principal funciónes implementar las funciones que engloba nuestro proyecto sin la necesidad de programar de nuevo.

Twitter ofrece tres APIs: Streaming API, REST API y SEARCH API cada una aplicable adiferentes necesidades [4].

1. Streaming API proporciona subset de tweets en casi tiempo real estableciendo una conexiónpermanente por usuario con los servidores de Twitter y mediante una petición http se recibeun flujo continuo de tweets en formato json. Esta petición de tweets puede ser una muestraaleatoria o se pueden filtran por usuarios o palabras claves.

2. Search API: Suministra tweets con información más limitada a diferencia de las otras API ycon una profundidad en el tiempo de 7 días que se ajustan a la solicitud realizada. Tambiénes posible filtrar por, cliente, lenguaje y localización, no requiere autentificación y los datosse obtienen en formato json.

5

Page 12: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

3. Ofrece a los desarrolladores el acceso al core de los datos de Twitter. Todas las operacionesque se pueden hacer via web son posibles realizarlas desde la API. Dependiendo de laoperación será necesaria la autentificación

6

Page 13: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

4. Análisis Descriptivo

A continuación, se presentará un análisis descriptivo sobre el conjunto de datos otorgados porTwitter, específicamente sobre los usuarios de Chile durante un año.

4.1. Objetivos

El objetivo de este análisis descriptivo es generar una visión global, detectar tendencias ydescribir la distribución a lo largo del país de los usuarios chilenos utilizando Twitter. [5]

4.2. Conjunto de Datos

El conjunto de datos consta de información sobre perfiles y tweets de usuarios únicamentede Chile, tomando como referencia la zona horaria o la especificación geográfica que el usuarioentrega durante el transcurso de un año. Entre hombres y mujeres son 462.780 usuarios, 263.920(57 %) hombres y 198860 (43 %) mujeres.

El formato para representar la información de Twitter es JSON que significa JavaScript ObjectNotation, es un formato sencillo orientado para el intercambio de datos. Un de las ventajas deJSON como formato de intercambio de datos es su simplicidad para escribir un analizar sintáctico,más conocido como JSON.

Figura 2: Conjunto de datos en JSON.

Los datos están estructurados en dos bases de datos, en cada una guarda la información delos usuarios según sexo y a su vez cada base de datos contiene dos tablas : perfiles y tweets , sinembargo para el desarrollo de este análisis descriptivo solo se considerara la información entrega-da sobre los perfiles ya que la información de los tweets es materia de estudio para las siguientesentregas de avance de proyecto.

La tabla de perfiles contiene tres columnas que son:

id: Esta columna es numérica y corresponde a un identificador correlativo.

7

Page 14: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

id_autor : esta columna es numérica y e identifica al usuario.

jsondata : Esta columna corresponde a una cadena de texto que a su vez está en formatojson la cual entrega información sobre el usuario en cuestión considerando la estructura dela API de Twitter para representar cada atributo.

4.3. Marco de Aplicación

En este capítulo se presentará el proceso que se utilizó para conseguir las métricas descriptivasen base al conjunto de datos ya detallado.

Como se mencionó anteriormente en la estructura de los datos la columna jsondata de la ta-bla perfiles es la columna que contiene la información de los perfiles, pero dada su naturaleza decadena de texto requiere un proceso de Pre-Procesado de datos antes de extraer la información desus atributos. Para esto se exportó únicamente la columna jsondata que contiene la informaciónde los perfiles de usuarios en formato json a un archivo de texto el cual separa cada registro porun salto de línea.

Luego, cada registro fue parseado extrayendo la información de cada atributo, pero para efec-tos de este análisis descriptivo solo se consideran los siguientes.

id: Identificación única del usuario.

listed_count : número de listas las cuales pertenece el usuario.

followers_count : Número de seguidores que esta cuenta posee.

favourites_count: Numero de tweets que el usuario considera como favoritos.

geo_enabled : el usuario permite la geo localización de sus tweets.

location: Ubicación de la cuenta definida por el usuario.

protected: El usuario decide otorgar privacidad a sus tweets.

4.4. Métricas

A continuación, se presentará una visión global de los atributos ya mencionados que se con-sideraran tomando en cuenta la totalidad de cuentas de usuario de Twitter enfatizando en elcomportamiento entre hombres y mujeres. Para posteriormente analizar los mismos parámetrosa nivel regional a lo largo de Chile.

Primeramente, se analizará el número de cuentas creadas por año, comenzando por el año2006 hasta fines del año 2015. El siguiente gráfico considera tanto usuarios hombres como mujeres.

Claramente se observa una disminución de creación de cuentas de usuario a partir del año2010 con 152785 cuentas en total siendo el año con la máxima cantidad de nuevos usuarios lle-gando al año 2015 con 11158.

8

Page 15: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Figura 3: Gráfico con cantidad de cuentas creadas por año

En términos de géneros, cabe destacar que los hombres son quienes predominan en Twittercon un 57 % de la totalidad de las cuentas en comparación al 43 % de las mujeres. Numéricamentehablando de una totalidad de 462.780 usuarios 263.920 son hombres mientras 198.860 son mujeres.

Figura 4: Gráfico de usuarios hombres y usuarias mujeres de Twitter en Chile

Otro punto que considerar es la cantidad de seguidores (followers) según sexo que posee cadacuenta, este parámetro contabiliza cuantos usuarios siguen o le interesa cierta cuenta específica.Cabe destacar como muestra la Figura 5 que en este sentido también predomina el sexo masculinocon un promedio de 733 seguidores contra un promedio de 573 en el caso de las mujeres.

9

Page 16: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Figura 5: Gráfico Promedio de seguidores según sexo.

En cambio, si comparamos el atributo statutes_count entre hombres y mujeres como muestrala Figura 6 sucede lo contrario ya que las mujeres twitean o re–twitean en promedio 7580 vecesversus a un 4325 en comparación a los hombres.

Figura 6: Promedio de Tweets y re–Tweets.

10

Page 17: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

5. Búsqueda de Patrones en Perfiles de Usuarios

En esta esta sección se analizará el mismo conjunto de datos, pero específicamente el atributodescription, el cual corresponde al ingreso por parte del usuario de como él se describe en Twitterhacia las demás personas.

Sobre este atributo se puede decir que, si bien lo ingresa el usuario y no es un dato creado y/oderivado por el sistema, no es obligación completarlo para el usuario lo cual explica que solo un72 % de la totalidad del conjunto de datos (333877 usuarios) posean una descripción en su perfil.

A continuación, se analizará y comparara la forma en que se describen los usuarios de Twitteren Chile [14].

5.1. Metodología

Para este análisis se usará el método TF-IDF [7] el cual consiste en ponderar la importanciade un término dentro de una colección de documentos con el fin de saber cuan representativo eseste. Este método consta de dos partes para su calculo que son TF: Frecuencia de aparición deltermino en un documento e IDF: Frecuencia inversa del documento para un término.

Figura 7: Método TF-IDF.

TF-IDF representa el peso de un término (n) en un documento (d) y está compuesto por dospartes TF y IDF. TF significa la frecuencia de aparición de un término (n) en un documento(d) mientas que la otra parte IDF significa el factor IDF de un término (n) que se calcula comomuestra la Figura 7 donde DF: Document Frequency es el número de documentos en los queaparece el termino (n) a lo largo de toda la colección.

5.2. Métricas

La finalidad de este análisis es buscar patrones en la forma de como los usuarios de Twitteren Chile se describen y a la vez poder comparar el comportamiento entre hombres y mujeres almomento de describirse.

Gracias al método TF-IDF se puede obtener las palabras ordenadas respecto a su pondera-ción en términos globales considerando cada una de las descripciones como un documento distintoy una vez teniendo la ponderación de cada palabra se puede mostrar gráficamente el peso de cadapalabra como lo muestra la Figura 8, siendo las palabras más grandes las de mayor relevancia.

La nube de palabra [1] en la Figura 8 muestra gráficamente la tendencia de las palabras queposeen un mayor peso dentro de todas las descripciones del conjunto de datos anteriormente

11

Page 18: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

mencionado. Claramente existe una similitud entre hombres y mujeres ya que ambos tienen lapalabra estudiante como la de mayor peso con 4093 repeticiones en el caso de los hombres y5262 en el caso de las mujeres, siguiendo después las palabras ingeniero y amante el caso de loshombres con 3533 y 3111 repeticiones respectivamente y las palabras vida y madre con 4457 y3861 respectivamente.

Figura 8: Nube de palabras hombres y mujeres.

Al utilizar el método TF-IDF se genera una matriz [6] de relaciones con las ponderaciones depalabras que conjuntamente más se utilizaron pudiendo así generar distintos tipos de análisis yrepresentaciones de datos como se muestran en la Figura 9 y Figura 10 las cuales ilustran clústerJerárquicos [3] señalando la relaciones entre las palabras (cercanía horizontalmente) y el peso deestas (pesos desde abajo hacia arriba) , siendo las palabras más cercanas horizontalmente las quemás veces se usan conjuntamente en las descripciones y las palabras que se encuentran más abajoson las que poseen mayor peso asignado por el método TF-IDF.

12

Page 19: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Figura 9: Clúster jerárquico usuarios Hombres.

Figura 10: Clúster jerárquico usuarios Mujeres

13

Page 20: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

6. Búsqueda de Patrones en Conjunto de Tweets.

6.1. Contexto de los datos

En noviembre de 1980 entró en vigencia el nuevo sistema de pensiones para los chilenos: Elsistema de capitalización individual, el cual consiste en que cada trabajador posee una cuentade ahorro personal administrada por una Administradora de Fondos de Pensión (AFP), en lascuales los trabajadores dependientes están obligados a ahorrar un 10 % de sus rentas mensuales,esto es así dado que el sistema asume que las personas voluntariamente no ahorran lo suficientepara su vejez.

La problemática de este sistema es que ha generado un marketing a nivel mundial como unsistema éxitos, situación que discrepa de la realidad al ver los resultados de las pensiones obtenidaspor los trabajadores (as). En promedio la pensión de los trabajadores cotizantes activos alcanzaun 38 % de los ingresos que obtenían en su vida activa y en el caso de las mujeres el caso es aúnmás dramático ya que las pensiones solo alcanzan el 28 % de los ingresos que recibían en su vida.Todo lo anteriormente mencionado produce en la población chilena una desaprobación general encontra de este sistema de pensiones el cual se pretende analizar en el siguiente conjunto de datos.

6.2. Conjunto de Datos

El conjunto de datos fue otorgado por analiTIC [9], empresa dedicada al monitoreo de SocialMedia. El conjunto de datos consta de Tweets de usuarios que crearon o compartieron Tweetsbajo el hashtag #NOMASAFP [2] durante el año 2016, siendo este conjunto de datos un archivoCSV de 57.2 MB con 164.434 registros repartidos en 15 variables.

Estructura de los datosEl formato en el cual se encuentran los datos es un archivo CSV (COMMA SEPARATED

VALUES) con un total de 15 columnas y 164434 filas.

Figura 11: Estructura de un archivo CSV.

Entre los distintos atributos que entrega la API de Twitter solo se consideraron como objetode estudio los siguientes.

id_articulo : Es un número único que identifica a un Tweet.

cuerpo: Corresponde al contenido del Tweets, representa lo que el usuario publicó. Tieneun límite de 140 caracteres .

fecha_publicacion : Representa la fecha en que el Tweet fue creado..

14

Page 21: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

autor : Es el nombre del usuario quien crea el Tweet.

followers : Representa la cantidad de seguidores que tiene la cuenta de este usuario

followings: Representa la cantidad de cuentas (otros usuarios) que esta persona sigue enTwitter

tweets: Representa la cantidad de Tweets creados hasta la fecha (fecha_publicacion).

dispositivo: Indica el dispositivo por el cual se creó o compartió el Tweet

klout : Indica el número de influencia que representa la cuenta basándose en quienes comen-tan y comparten su contenido, el cual es muy utilizado por distintas marcas al momento decaptar usuarios “interesantes” para ellos. Este Medidor va desde 0 a 100 y considera sobre70 a una persona influyente

6.3. Pre procesamiento de Datos

6.3.1. Limpieza de Datos

Antes de procesar los datos y obtener métricas se debe hacer una limpieza de estos con elfin de eliminar posibles errores de estandarización, errores sintácticos, campos vacíos, ruido entreotros.

6.3.2. Transformación de Datos

Luego los datos se cargan en un gestor de base de datos para facilitar consultarlos y podercrear relaciones más fácilmente sin antes estandarizar los campos de fechas, tamaños de cadenas detexto, largo de atributos, eliminación de caracteres especiales entre otros parámetros que puedanafectar la integridad de los datos.

6.3.3. Metodología

La metodología utilizada en esta sección es la misma que se define en la sección 5 Metodologíaen Perfiles de Usuarios en la cual se utiliza el método TF-IDF para la ponderación de las palabrasen el conjunto de datos.

6.4. Métricas

Cabe destacar que esta tendencia al uso de las redes sociales como medio para hacer notar eldescontento general sobre el actual sistema previsional también se vio reflejado en las calles endistintas ocasiones con llamados a marchas a nivel nacional y/o regional las cuales hay registroque se produjeron en las siguientes fechas:

Domingo 24/7/2016: "150.000 personas solo en Santiago".

• 23/7/2016 5396 Tweets (3 %)

• 24/7/2016 49261 Tweets (30%)

• 25/7/2016 26921 Tweets (17 %)

15

Page 22: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Domingo 21/8/2016: "600.000 personas solo en Santiago".

• 20/8/2016 555 Tweets (0,03 %)

• 21/8/2016 1947 Tweets (0,1%)

• 22/8/2016 398 Tweets (0,2 %)

Viernes 4/11/2016: "20.000 personas en Valparaíso".

• 3/11/2016 217 Tweets (0,001 %)

• 4/11/2016 1669 Tweets (0,1%)

• 5/11/2016 142 Tweets (0,008 %))

A partir de las anteriores cifras se puede decir que:

Claramente el mismo día de la marcha existe un mayor movimiento en Twitter.

Donde hubo más gente no significo un mayor número contenido en Twitter.

Mayoritariamente el contenido de Twitter se encuentra entorno a la primera marcha 24/7/2016.

Existe un mayor movimiento en Twitter el día después de la marcha comparado al día antesde la marcha.

Las siguientes imágenes representan clúster jerárquico o dendograma en base al contenidocompartido durante las distintas instancias de convocatorias realizadas, cabe destacar que solose considera el contenido nuevo creado con el fin de omitir repeticiones de palabras.

Figura 12: Dendograma Marcha 24-7-2016.

16

Page 23: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Figura 13: Dendograma Marcha 4-11-2016.

En la Figura 12 se aprecian dos grupos claramente en los cuales las palabras se relacionan a lamisma altura, lo que quiere decir que ese conjunto de palabras estaba siendo usado conjuntamentela mayoría de las veces en las que los usuarios creaban contenido.

La Figura 13 representa el clúster jerárquico en base al contenido en Twitter creado en la últi-ma convocatoria de marcha a nivel nacional en contra de las AFPs, el cual es el más heterogéneode los tres anteriores, cabe destacar que la fecha de esta marcha ocurrió un día viernes y fue laque menos concurrencia tuvo en las calles.

La Figura 14 representa una comparativa entre el contenido creado bajo el hashtag #NOMA-SAFP en los días en que se convocó una marcha a nivel nacional en contra de las AFPs.

17

Page 24: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Figura 14: Gráfico Comparativa entre asistencia a marchas y Tweets..

Destacar que de un total de 164434 (100 %) de Tweets solo 34627(21 %) corresponden acontenido nuevo y 129.787 (79 %) son RE-Tweets.

Figura 15: Gráfico Porcentaje de nuevo contenido versus RE Tweets.

Como se puede observar solo una quinta parte de todos los Tweets corresponde nuevo con-tenido y todo el resto son Re-Tweets, lo que indica que si bien el contexto es muy discutidomayoritariamente en Twitter se comparten ideas sobre el tema.

Otro punto interesante es el medio por el cual se crea y/o compartió contenido durante el usodel hashtag #NOMASAFP siendo distintos los dispositivos usados.

18

Page 25: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Figura 16: Gráfico Uso de distintos positivos.

Claramente la mayoría del contenido creado y/o compartido es partir de dispositivos AN-DROID con un 51 %, luego lo siguen los dispositivos IPHONE con 28 % y en tercer lugar con19 %. Se destaca el uso de dispositivos móviles al momento de las personas al momento de generarcontenido siendo casi un 80 % de todos los Tweets generados por dispositivos móviles y solo unaquinta parte usando algún cliente web.

Específicamente en los días de marchas las estadísticas no cambiaron considerablemente en eluso de los distintos dispositivos que se usaron como medio para crear contenido en Twitter.

Figura 17: Gráfico Uso de distintos positivos durante las marchas.

19

Page 26: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

6.5. Usuarios

En esta sección el objeto de estudio serán los usuarios y su comportamiento en el conjunto dedatos respecto a las distintas convocatorias de marchas realizadas.

Primeramente se estudia la distribución de la participación de los usuarios en el día an-tes,después y en el día de la marcha.

Domingo 24/7/2016: "150.000 personas solo en Santiago [11]".

• 23/7/2016 515 Usuarios (5,3 %)

• 24/7/2016 5133 Usuarios (53,3%)

• 25/7/2016 2892 Tweets (30 %)

Domingo 21/8/2016: "600.000 personas solo en Santiago".

• 20/8/2016 70 Usuarios (0,7 %)

• 21/8/2016 426 Usuarios (4,4%)

• 22/8/2016 93 Usuarios (1 %)

Viernes 4/11/2016: "20.000 personas en Valparaíso".

• 3/11/2016 64 Usuarios (0,006 %)

• 4/11/2016 406 Usuarios (0,043%)

• 5/11/2016 37 Usuarios (0,004 %))

A partir de los datos anteriores y como se aprecia en la Figura 18 hubo una mayor cantidadde usuarios que participaron en Twitter usando el hashtag #NOMASAFP el día de la primeraconvocatoria a marcha , la cual tuvo fecha el 24 de Julio de 20016 siendo el dia de la marcha elque posee un mayor numero de usuarios con 53,3 % del total de usuarios existentes en el conjuntode datos. Cabe destacar que en la primera convocatoria existió una mayor cantidad de usuariosque crearon Tweets pero que a la vez en las tres marchas siempre existe mas participación enTwitter el dia después de la marcha comparado el antes de la marcha

20

Page 27: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Figura 18: Participación de los usuarios en Twitter segun convocatoria.

Existe una clara tendencia a la creación de nuevo contenido el mismo día en que se realiza lamarcha y de generar en si contenido el día en que se congrega más personas en las calles comolo fue la marcha del 24 de julio, de igual forma como se menciona anteriormente es el día en quemás contenido se crea y/o comparte.

La misma tendencia tiene globalmente la cantidad de usuarios que usaron el hashtag #NO-MASAFP, representada a continuación, aunque la cantidad de usuarios que crean contenido nuevoes una cuarta parte del total de usuarios.

Figura 19: Usuarios según convocatoria.

21

Page 28: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Para entender aún más el comportamiento de los usuarios se procede a analizar cuántos deestos tuvieron participación creando contenido nuevo en una convocatoria y en otra no , paraeste análisis solo se consideró solo los usuarios quienes crean contenido nuevo.

La siguiente tabla tabulada indica la cantidad de usuarios que creo contenido nuevo duranteuna convocatoria de marcha y si fue participe o no de otra , también se aprecia que por con-vocatoria existen tres filas los cuales representan el día antes, el día después y el día en que laconvocatoria a marcha se llevó a cabo (número en negrita), siendo los números la cantidad deusuarios en común que en ese dia participaron creando contenido.

Al analizar la tabla se aprecia que la mayor cantidad de usuarios en comunes es el mismodia de la marcha ya que aumentan las posibilidades que un usuario se repita porque como en lasección anterior se vio, el día que realiza la marcha es el día donde los usuarios son mas activosen comparación al día antes o al día después.

CONVOCATORIAS 21 AGOSTO 24 JULIO 4 NOVIEMBRE

21 AGOSTO- 36 26- 442 323- 107 64

24 JULIO36 - 34442 - 521107 - 85

4 NOVIEMBRE26 34 -323 512 -64 85 -

Tabla 1: Repetición de participación de usuarios en cada convocatoria

Otra variable a considerar bajo el estudio de este conjunto de datos fue el klout [10] la cualcorresponde al grado de influencia de un usuario en alguna red social, no se mide la cantidad decontenido creado, sino como sus seguidores comentan, comparten o retwuitean sus publicaciones,el nivel más bajo es 0 y el más alto es 100, siendo para este conjunto de datos el usuario @ca-nal13 con el mayor klout con 88 puntos, @noticiascaracol (canal noticiero colombiano) con 85Y @lacuarta con 82.

Entre los usuarios activos que usaron el hashtag #NOMASAFP se puede apreciar una ten-dencia normal de esta variable como lo demuestra la siguiente gráfica.

22

Page 29: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Figura 20: Gráfico histograma KLOUT de los usuarios..

Claramente según el gráfico anterior la mayoría de la puntuación klout se encuentra alrededorde los 40 puntos abarcando un total de 45 % del total de usuarios.

De los 32.459 usuarios existe un grupo de estos los cuales fueron quienes más contenido nuevocrearon en Twitter usando el hashtag #NOMASAFP. Recordar que solo una quinta parte corres-ponde a contenido nuevo y un 80 % a Re–Tweets por ende son estas personas de alguna formalas responsables de la totalidad de Tweets existentes en el conjunto de datos.

AUTOR CANTIDAD DE TWEETS KLOUT FOLLOWINGS TWEETSnomasafp 583 62 22756 4755latercera 363 72 1684174 477916chileokulto 330 66 54720 179383emol 307 78 1602210 371476tolocajino 292 40 104 2147elmostrador 289 73 1251783 125917lusimesina1 210 65 24189 24175fondoalert 196 51 7352 80083derogardl3500 176 55 7114 2342lafundacionsol 145 63 68007 17126

Tabla 2: Usuarios más activos usando el hashtag #NOMASAFP.

23

Page 30: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

De la anterior tabla la cual esta ordenada según la cantidad de Tweets creados se desprendelo siguiente:

El usuario con más Tweets creados no posee el mayor puntaje klout.

Los puntajes klout están sobre la media que son 43,5 puntos.

La mayoría de los usuarios mencionados están sobre la media de Tweets realizados 44055.5,lo que no quiere decir que los conjuntos de datos superaron este número.

No existe una relación a simple vista entre el número de contenido, klout y followings.

El número de contenido nuevo es muy menor en relación al total de Tweets

Sobre la distribución de la cantidad de followers y followings a diferencia de la distribuciónde los puntos klout no existe una distribución normal como lo muestran los siguientes gráficos,concentrándose el 90 % de los usuarios en el primer grupo por sobre los 30.000 followers y para elcaso de los followings también cerca del 90 % se encuentra en el primer grupo por sobre los 35000followings .

Figura 21: Histograma Followers.

24

Page 31: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Figura 22: Histograma Followings.

Como se dijo anteriormente la gran cantidad de Tweets es producto de que los usuarioscomparten y no lo crean Tweets, creando asi un grupo selecto de Tweets los cuales fueron los quemas se compartieron a continuacion en la Tabla 3 se representan los Tweets mas compartidosusando el hashtag #NOMASAFP :

CANTIDAD TWEET KLOUT1037 @Vitocastro6: Sin palabras ,solo difunda .#NOMASAFP 65598 @elterribledios: Hasta mi hijo jesus tiene que tarbajar despues de 2016

años por que la pension no le alcanzo .#NOMASAFP66

563 @JOrgeAlis: #NOMASAFP la conchadetumadre 64542 @RafaAraneda:Frio dia no apaciguo indignacion de miles de chilenos

contra frio sistema #JubilazoParaTodos65

531 @GiorgoJackson : Porque a las chilenas y chilenos les mintieron con unsistema individualista que entrega pensiones miserables #NOMASAFP

69

464 @MurdockOficial :SAlvemos Chile con la misma unidad que salimos afestegar por la @Roja y saquemos a estas ratas! #PENSIONSOCIALIS-TA

59

438 @MARCELORIOS75 :Que se terminen luego estas hueas #NOMASAFP 39432 @elwerne :Miren ,(escuchen) ; la gente habla un domingo ;) #NOMA-

SAFP60

385 @MarioHugo_31: Y dicen que yo soy el periodosta de mentira .Algunavez la prensa fue el 4to poder , no se dejaba usar . #NOMASAFP

53

Tabla 3: Tweets más compartidos usando el hashtag #NOMASAFP

25

Page 32: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

En la Tabla anterior se aprecian los Tweets mas compartidos en el conjunto de datos y ade-mas los Usuarios quienes lo crearon , notando que la mayoria de estos usuarios pertenecen a lafarandula o son famosos a nivel nacional como lo es @JorgeAlis , @RafaAraneda, @MARCE-LORIOS,@GiorgoJackson entre otros .De lo cual se puede concluir que en términos generaleslos usuarios del conjunto de datos tienden mucho más a compartir contenido que crear nuevocontenido, siendo este en su mayoría de personas que tienen directa relación con el tema de lasAFPs o personas de la farándula nacional los cuales poseen un mayor número de seguidores, portanto, el contenido que crean lo ven muchas más personas.

Como se mencionó anteriormente el conjunto de datos cuenta con 164.434 registros repartidosen 15 variables, de este total de registros solo el 21 % corresponde a contenido nuevo y el restoa re-tweets compartidos. Del total de registros solo el 37 % de los usuarios creo contenido nuevoy el 63 % solo compartió contenido lo que quiere vendría siendo una razón de 1:4 para contenidonuevo y re-tweets 2:4 aproximadamente en el caso de los usuarios que crean contenido y los quesolo lo comparten, cabe destacar que el alcance de los usuarios mencionados solo contempla a losusuarios en este conjunto de datos.

6.6. Comparación e interpretación de palabras más utilizadas.

Para finalizar este análisis se compara las relaciones creadas a partir de los dendogramasanteriormente usados pero esta vez se busca ver diferencias en el conjunto de palabras que másveces se utiliza siendo estas en el dendograma las palabras que más cercanas se encuentran hori-zontalmente y dentro de grupos distinguibles, de esta forma se podría generar una idea sobre elcontexto de lo que más se habla en Twitter a pesar de que para el análisis TF-IDF se pre-procesanlas información quitando las palabras que no generan contenido o información como lo son losstopwords: el, la ,es,un,siempre,fui, etc.

La estructura de este análisis consistirá en recoger las palabras mayormente utilizadas eldia antes, después y el día de la realización de la convocatoria con el fin de poder contextuali-zar una idea general sobre el contenido creado por los usuarios en cada una de las 3 convocatorias.

26

Page 33: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

6.6.1. Marcha 21 de Agosto de 2016

Sábado 20 de Agosto de 2016

Figura 23: Dendograma Tweets 20-8-2016.

Se destaca : "gran encuentro- azules blancos negros rojos-marcha

Domingo 21 de Agosto de 2016: "600.000 personas solo en Santiago"

Figura 24: Dendograma Tweets 21-8-2016.

Se destaca:"marcha nomasafp-multitudinaria alameda"

Lunes 22 de Agosto 2016

27

Page 34: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Figura 25: Dendograma Tweets 22-8-2016.

Se destaca:"marcha nomasafp-ana noche puede solucionar-ahora hoy"

Entre los tres dendogramas mas heterogeneos mostrados anteriormente los cuales resumenlo comentado en dicho dia se aprecia que los primeros dos son mas compactos que el tercero loque significa que hubo una gran correlación entre palabras utilizadas ya su vez fueron los diasdonde mas actividad en Tweet hubo en relacion a la marcha del 22 de Agosto la siguiente nubede palabras resume el contenido en estos tres dias.

Figura 26: Nube de palabras marcha 22-8-2016

28

Page 35: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

6.6.2. Marcha 24 de Julio de 2016

Sabado 23 de Julio

Figura 27: Dendograma Tweets 23-7-2016.

Se destaca:.afp domingoplaza Italia-nacional familiar"

Domingo 24 de Julio de 2016: "150.000 personas solo en Santiago"

Figura 28: Dendograma Tweets 24-7-2016.

Se destaca:"mihacienda profesores firma petición jubilados dignas"

29

Page 36: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Lunes 25 de Julio de 2016

Figura 29: Dendograma Tweets 25-7-2016.

Se destaca : afp marcha nomasafp chile siste,a hoy changeorglatino mihacienda profesoresdignas jubilados firma petición pensiones.

En los tres anteriores dendogramas los cuales resumen la actividad de Twitter los dias cercanosa la marcha del 24 de Julio de 2016 se aprecia una estructura y volumen similar. Recordar queen torno a esta marcha es donde está mayormente la cantidad de datos.La Figura 30 representael resumen del contenido usado en torno a la marcha del 24 de Julio de 2016 en la cual se apreciaun gran parecido con la nube de palabras donde repiten palabras tales como marcha-afp-chile.

30

Page 37: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Figura 30: Nube de palabras marcha 24-7-2016.

6.6.3. Marcha 4 de Noviembre de 2016

Jueves 3 de Noviembre

Figura 31: Dendograma Tweets 3-11-2016.

Se destaca :.ana sistema -nomasafp noviembre -llamado paronov-hrs marchas plazas".

Viernes 4 de NoviembreSe destaca :.ana sistema -nomasafp noviembre -llamado paronov-hrs marchas plazas".

31

Page 38: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Figura 32: Dendograma Tweets 4-11-2016.

Sábado 5 de Noviembre

Figura 33: Dendograma Tweets 5-11-2016.

Se destaca :"nomasafps est plaza-cambie cambios confianza organizado profundos vamos".

32

Page 39: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Las anteriores tres dendogramas representan el contenido realizado durante la convocatoria amarcha del 4 de noviembre de 2016, la cual se realizo un dia viernes a diferencia de las otras dosconvocatorias que acontecieron en dias domingos y ademas en esta ocasion el llamado es a paronacional en contra las AFPs, por lo cual la estructura de los dendogramas y su contenido variabastante. La siguiente Figura representa dicha diferencia en forma resumida.

Figura 34: Nube de palabras marcha 4-11-2017.

33

Page 40: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

7. Conclusión.

Las redes sociales rápidamente han pasado a formar parte de nuestro mundo y con ello laestructura social se ha transformado de manera radical transformando las comunidades virtualesy la manera en la cual se comunica la sociedad en general ha cambiado por completo, por lo quela virtualidad ha tomado un papel muy importante dentro de esta nueva forma de relacionarseentre las personas.

El fenómeno de las redes sociales ha ocasionado un profundo impacto en la sociedad actualprincipalmente en las nuevas generaciones, debido a que ha implantado un nuevo estilo de rela-cionarse entre las personas.

El presente trabajo se estudió las diferencias al momento de definir la descripción del perfilen usuarios entre las mujeres y hombres Chilenos durante el año 2016 usando métodos automá-ticos de análisis de datos como lo es el método TF-IDF, concluyendo que en términos generalesambos géneros se describen similarmente variando levemente las descripciones según la región delusuarioa. En una segunda instancia se estudió el reconocimiento de patrones de Tweets creadosbajo el hashtag #NOMASAFP donde se pudo corroborar la influencia de las redes sociales almomento de organizarse como lo es para una instancia a marcha nacional en contra del actualsistema de pensiones.

Es por esto que a partir del estudio del contenido generado y las tendencias generadas enel conjunto de datos estudiado es posible inferir comportamientos en la sociedad debido a lainfluencia de estas en las personas actualmente, siendo esta información de suma importanciapara distintas organizaciones de distintos ámbitos.

34

Page 41: ANÁLISIS AUTOMÁTICO DE MENSAJES Y USUARIOS DE TWITTER …opac.pucv.cl/pucv_txt/txt-4000/UCC4155_01.pdf · el funcionamiento de Twitter y los atributos que su API posee usando un

Referencias

[1] Package wordcloud. "https://cran.r-project.org/web/packages/wordcloud/

wordcloud.pdf". Visitado por última vez el 30 de Julio del 2017.

[2] Sitio oficial movimiento #nomasafp. "http://www.nomasafp.cl/inicio/". Visitado porúltima vez el 20 de Julio del 2017.

[3] Visualizing dendrograms in r. "https://rpubs.com/gaston/dendrograms". Visitado porúltima vez el 30 de Julio del 2017.

[4] Twitter developer documentation. "https://dev.twitter.com/docs". Visitado por últimavez el 29 de Julio del 2017.

[5] An introduction to text mining using twitter streaming api and python. "http://

adilmoujahid.com/posts/2014/07/twitter-analytics/". Visitado por última vez el 28de Abril del 2017.

[6] sklearn.feature_extraction.text.tfidfvectorizer. "http\protect\kern+.2222em\relax/

/scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.

TfidfVectorizer.html". Visitado por última vez el 10 de Junio del 2017.

[7] Term frequency and inverse document frequency (tf-idf) using tidy data principles. "http:

//adilmoujahid.com/posts/2014/07/twitter/-analytics/". Visitado por última vez el22 de Mayo del 2017.

[8] Twitter developer documentation. "https://dev.twitter.com/rest/public". Visitadopor última vez el 2 de Agosto del 2017.

[9] Empresa analitic. "https://www.analitic.cl/". Visitado por última vez el 5 de Agostodel 2017.

[10] Pagina oficial klout. "https://klout.com". Visitado por última vez el 23 de Julio del 2017.

[11] Marcha 24 de julio de 2016. "http://www.nomasafp.cl/inicio/?p=684". Visitado porúltima vez el 20 de Agosto del 2017.

[12] Montserrat GarcíaAlsina. Big Data. Gestión y explotación de grandes volúmenes de datos.Academic Monographs. Barcelona: UOC, 2017.

[13] Luis JOYANES. Big data - análisis de grandes volúmenes de datos en organizaciones. AlfaOmega. 2013.

[14] Foster provost & TOm Fawcett. Data Science for Business. Academic Monographs. O‘ ReillyMedia Inc,1005 Graventein Highway North,Sebastopol ,CA 95472, 2013.

35