WTF with Big Data?
-
Upload
jesus-ramos -
Category
Data & Analytics
-
view
154 -
download
0
Transcript of WTF with Big Data?
WTF with Big Data?Conceptos, use-cases, y advertencias para una buena práctica
Jesús RamosTW: @xuxoramosFB: /xuxoramosEmail: [email protected]
1
Quién soy?
1. ISC02 (ITESM).2. Financial Econometrics (UNottingham + UWashington)3. Graduado de la Data Science Specialization de Coursera + JHU.4. Consultado con 6 firmas para levantar capacidades analíticas (BMV, Indeval,
GBM, ConCrédito, Propiedades.com, Nestlé, etc).5. Cofundador de @TheDataPub, la comunidad de Ciencia de Datos más grande
de México.6. COO en Datank.ai.7. Anti-buzzwords, anti-hype: Data Gestapo.8. Gamer los sábados. Foodie los domingos.
2
Qué busco esta noche?
Que sepan la diferencia entre Big Data, Data Science, Business Intelligence, Machine Learning y AI.
Que puedan ver más allá de los sales pitches de los IT vendors.
Que sepan qué se puede hacer y qué han hecho otras industrias con ML.
Que conozcan los retos más grandes para traer DS y ML a las empresas.
Que reconozcan por qué es crítico para México especializarse en DS y ML.
3
Cómo trabajaremos?
Parte I: Definiciones (para el taller y para la vida) - 40 min.
Parte II: Use cases (malos y buenos) - 20 min.
Parte III: Por qué los proyectos de ML fallan? - 20 min.
Parte IV: Qué necesita México para ser referente de ML? - 20 min.
4
Parte IDefiniciones
"Data is the new oil?
Qué es Big Data?
Qué es Analytics?
Qué es BI?
Qué es Data Science?
Qué es Machine Learning?
Qué es Artificial Intelligence?
5
@xuxoramos
Qué tiene diferente la economía de datos?
6
@xuxoramos
Qué tiene diferente la economía de datos?
Escasez
7
@xuxoramos
Qué tiene diferente la economía de datos?
Escasez
Capital+
Mano de obra=
Bienes yServicios
8
@xuxoramos
Qué tiene diferente la economía de datos?
Escasez Abundancia
VSCapital
+Mano de obra
=
Bienes yServicios
9
@xuxoramos
Qué tiene diferente la economía de datos?
Escasez Abundancia
VSCapital
+Mano de obra
=
Bienes yServicios
Capital +Mano de Obra +
DATA=
Bienes yServicios
Inteligentes
10
@xuxoramos
Qué tiene diferente la economía de datos?
Escasez Abundancia
VSCapital
+Mano de obra
=
Bienes yServicios
Capital +Mano de Obra +
DATA=
Bienes yServicios
Inteligentes
11
@xuxoramos
Cuánto vale esto?
12
@xuxoramos
Cuánto vale esto?
$19mmdd
13
@xuxoramos
Cuánto vale esto?
$19mmdd $2.5mdd
14
@xuxoramos
Cuánto vale esto?
$19mmdd $2.5mdd $990mdd
15
@xuxoramos
Cuánto vale esto?
$19mmdd $2.5mdd $990mdd
Ca$h Flow?16
@xuxoramos
Cuánto vale esto?
$19mmdd $2.5mdd $990mdd
Ca$h Flow?17
@xuxoramos
Cuánto vale esto?
$19mmdd $2.5mdd $990mdd
DATA** https://techcrunch.com/2015/10/13/whats-the-value-of-your-data/
18
@xuxoramos
Cuánto vale esto?
19
@xuxoramos
Cuánto vale esto?
20
$80mmdd
En intangibles(i.e. DATA!)
12% del PIB Mexicano atribuible a servicios!
Entonces qué es "big data"?
21
@xuxoramos
Definición "Big Data"
22
Servers, pipelines, cloud infra, boxes para procesar y
mover datos
@xuxoramos
Definición "Big Data"
23
Servers, pipelines, cloud infra, boxes para procesar y
mover datos
@xuxoramos
Definición "Big Data"
24
Servers, pipelines, cloud infra, boxes para procesar y
mover datos
El conocimiento que sacamos de
estos datos.
@xuxoramos
Definición "Big Data"
25
Big Data Analytics
@xuxoramos
Definición "Big Data"
26
Una empresa que tiene:
- Tablas (+120 columnas, 1M renglones, 6TB)- Texto (2K páginas)- Social (5K seguidores, 10 TW/posts x seguidor)- Vídeo (20TB)- Y puede/espera monetizar todo.- Entonces si tiene Big Data.
"Big data needs Analytics. Analytics doesn't need big data"
- Carla Gentry
27
Qué es "Analytics"?
28
"Describir un conjunto de datos en sus cantidades, tiempos, factores, frecuencias, e inferir algo que afecte mi realidad."
29
@xuxoramos
Qué es "Analytics"?
30
@xuxoramos
Qué es "Analytics"?
31
Qué es "Data Science"?
32
Mates, vueltas "operacionales".
33
@xuxoramos
Qué distingue BI de Data Science?
34
@xuxoramos
Qué compone a Data Science?
35
Qué es "Machine Learning"?
36
@xuxoramos
Qué es ML?
"Descubrimiento de funciones que partan el espacio de datos, ajusten a una curva sin conocer su orígen, o detecten grupos emergentes."
- Dr. Fernando Esponda (ITAM)
37
@xuxoramos
Qué diferencia tiene con Desarrollo de SW?
38
Máquina
Programa
Datos
Contexto
Resultado de negocio
Proyectos de Software
Máquina
Resultado de negocio
Datos
Contexto
Programa
Proyectos de Machine Learning
@xuxoramos
Objetivo del Machine Learning
39
Identificar patrones equivocándose lo menor posible.
@xuxoramos
Cómo lo logra?
40
Balanceando componentes del error: sesgo + varianza.
@xuxoramos
Cómo balanceamos?
41
A mayor número de variables, mayor complejidad.
También mayor varianza.
Y menor sesgo.
@xuxoramos
Usos del Machine Learning
42
Clasificación
Partir el espacio de datos en N categorías con funciones.
@xuxoramos
Usos del Machine Learning
43
Regresión
Función que se ajuste al espacio de datos.
@xuxoramos
Usos del Machine Learning
44
Agrupamiento/Clustering
No supervisado!
Descubrimiento de grupos emergentes.
@xuxoramos
Usos del Machine Learning
45
Reducción de dimensionalidad
Proyectar el espacio de datos a una sola dimensión y evaluar pérdida de información.
Y qué es Artificial Intelligence?
46
@xuxoramos
Qué es AI?
47
Actuar racionalmente
Actuar como humano
Pensar como humano
Pensar racionalmente
@xuxoramos
Qué es AI?
48
Actuar racionalmente
Actuar como humano
Pensar como humano
Pensar racionalmente
Parte IIUse Cases (buenos y malos)
- Buenos- Banca- Telco- Logística- Remesas- Medios
- Malos- Fashion- Internet- Telco- Twitter- Salud
49
Los Buenos
50
Importante Financiera Mexicana
1. Conversión de cliente de nómina a TC en 29%.
2. $2.7mmdp en revenue al año desde 2010.
3. Cómo lo hizo?
4. Clasificación!
51
UPS
1. Ahorro de combustible haciendo que camiones
sólo den vuelta a la derecha.
2. Ahorro de $47mdd al año.
3. Cómo lo hicieron?
4. Diseño de experimentos!
52
Importante Telco Mexicana
1. Identificación de usrs consumiendo $7K MXN semanales de tiempo aire en prepago.
2. Creación de producto de crédito de tiempo aire de hasta $2K.
3. $4mmdp al año de revenue.4. Cómo lo hicieron?5. Clustering!
53
Western Union
1. Prevención de fraude en remesas en automático y personalizado.
2. $32mdd en ahorro operativo en 2012. $21mdd son de transacciones detenidas al momento.
3. Cómo le hicieron?4. Clasificación!5. Similar a algoritmos de spam/ham.
54
Importante Grupo Editorial
1. Bajar bounce rate y mantener al visitante en sitios
de las marcas del grupo.
2. Aumentar ad impressions.
3. Cómo lo están haciendo?
4. Recommender Systems!
55
Los Malos
56
Los Malos
Importante Telco Mexicana
Microsoft
Walmart
2008 Financial Crisis
Trump Victory57
Parte IIIPor qué fallan los proyectos de
ML y DS?
Una breve historia
Barreras a la adopción
58
Historia de un Proyecto de "Pig Data"
59
CTOs drink the "Big Data" kool-aid and call their "buddy" at an IT Vendor.
Vendor promises unprecedented return if firm buys their "fridges".
Board grants budget out of ignorance. CTO buys boxes.
CTO migrates DWH from RDBMS to Hadoop. For them, this is DS.
Next Q arrives. No ROI. Project canceled. Boxes returned.
CTO no longer able to innovate. SWEngs quit and call themselves DS.
Barreras a la adopción
Costo / Tiempo
Organizacionales
Culturales
60
Barrera de Costo / Tiempo
- Ecosistema de datos fragmentado- Levantarlo es costoso (2 años para una organización
mediana)- Solo sirve para fines normativos- Operación siempre va más rápido que IT
61
Barrera Organizacional: Dónde debe vivir DS?
62
Barrera Organizacional: Dónde vive realmente?
63
Barrera Cultural
64
Sin preguntas correctas
Sin mindset correcto
Sin leverage organizacional
Barrera Cultural
65
Parte IVEl caso de México
Deficiencias en Talent Pool
Escenario Macroeconómico
66
Cómo anda México en DS y ML?
67
113K Ingenieros de Software al año.
350 Matemáticos, actuarios, físicos y estadísticos.
No se conoce la diferencia entre Data Scientist (DS) y Data Engineer (DE).
Tenemos miles de Data Engineers chingones.
No tenemos casi Científicos de Datos.
Tenemos muchos DE queriendo ser DS cuando no saben ni proba.
Qué tenemos en nuestra contra?
68
La frontera norte se cierra a nuestros productos y servicios.
Poco petróleo, y a precio muy bajo.
Corrupción rampante.
Mercado interno débil.
Variables macroeconómicas malas.
La "mano de obra barata" no será relevante en la era de la automatización.
Cómo lo hacemos bien?
1. Estableciendo un Repositorio Central de Datosa. Reportería normativab. Operativa / BIc. Data Science / Machine Learning
2. Patrocinando estos proyectos desde el más alto nivela. Compromiso de recursos a largo plazob. No tratarlos como proyectos de SWc. Reporte directo de Analytics / Data Science al CEO
3. Contratando correctamentea. Business first, Math second, Technology Third.b. IT no es suficiente.
69
GraciasJesús RamosTW: @xuxoramosFB: /xuxoramosEmail: [email protected]
70