WTF with Big Data?

Post on 28-Jan-2018

154 views 0 download

Transcript of WTF with Big Data?

WTF with Big Data?Conceptos, use-cases, y advertencias para una buena práctica

Jesús RamosTW: @xuxoramosFB: /xuxoramosEmail: jesus@datank.ai

1

Quién soy?

1. ISC02 (ITESM).2. Financial Econometrics (UNottingham + UWashington)3. Graduado de la Data Science Specialization de Coursera + JHU.4. Consultado con 6 firmas para levantar capacidades analíticas (BMV, Indeval,

GBM, ConCrédito, Propiedades.com, Nestlé, etc).5. Cofundador de @TheDataPub, la comunidad de Ciencia de Datos más grande

de México.6. COO en Datank.ai.7. Anti-buzzwords, anti-hype: Data Gestapo.8. Gamer los sábados. Foodie los domingos.

2

Qué busco esta noche?

Que sepan la diferencia entre Big Data, Data Science, Business Intelligence, Machine Learning y AI.

Que puedan ver más allá de los sales pitches de los IT vendors.

Que sepan qué se puede hacer y qué han hecho otras industrias con ML.

Que conozcan los retos más grandes para traer DS y ML a las empresas.

Que reconozcan por qué es crítico para México especializarse en DS y ML.

3

Cómo trabajaremos?

Parte I: Definiciones (para el taller y para la vida) - 40 min.

Parte II: Use cases (malos y buenos) - 20 min.

Parte III: Por qué los proyectos de ML fallan? - 20 min.

Parte IV: Qué necesita México para ser referente de ML? - 20 min.

4

Parte IDefiniciones

"Data is the new oil?

Qué es Big Data?

Qué es Analytics?

Qué es BI?

Qué es Data Science?

Qué es Machine Learning?

Qué es Artificial Intelligence?

5

@xuxoramos

Qué tiene diferente la economía de datos?

6

@xuxoramos

Qué tiene diferente la economía de datos?

Escasez

7

@xuxoramos

Qué tiene diferente la economía de datos?

Escasez

Capital+

Mano de obra=

Bienes yServicios

8

@xuxoramos

Qué tiene diferente la economía de datos?

Escasez Abundancia

VSCapital

+Mano de obra

=

Bienes yServicios

9

@xuxoramos

Qué tiene diferente la economía de datos?

Escasez Abundancia

VSCapital

+Mano de obra

=

Bienes yServicios

Capital +Mano de Obra +

DATA=

Bienes yServicios

Inteligentes

10

@xuxoramos

Qué tiene diferente la economía de datos?

Escasez Abundancia

VSCapital

+Mano de obra

=

Bienes yServicios

Capital +Mano de Obra +

DATA=

Bienes yServicios

Inteligentes

11

@xuxoramos

Cuánto vale esto?

12

@xuxoramos

Cuánto vale esto?

$19mmdd

13

@xuxoramos

Cuánto vale esto?

$19mmdd $2.5mdd

14

@xuxoramos

Cuánto vale esto?

$19mmdd $2.5mdd $990mdd

15

@xuxoramos

Cuánto vale esto?

$19mmdd $2.5mdd $990mdd

Ca$h Flow?16

@xuxoramos

Cuánto vale esto?

$19mmdd $2.5mdd $990mdd

Ca$h Flow?17

@xuxoramos

Cuánto vale esto?

$19mmdd $2.5mdd $990mdd

DATA** https://techcrunch.com/2015/10/13/whats-the-value-of-your-data/

18

@xuxoramos

Cuánto vale esto?

19

@xuxoramos

Cuánto vale esto?

20

$80mmdd

En intangibles(i.e. DATA!)

12% del PIB Mexicano atribuible a servicios!

Entonces qué es "big data"?

21

@xuxoramos

Definición "Big Data"

22

Servers, pipelines, cloud infra, boxes para procesar y

mover datos

@xuxoramos

Definición "Big Data"

23

Servers, pipelines, cloud infra, boxes para procesar y

mover datos

@xuxoramos

Definición "Big Data"

24

Servers, pipelines, cloud infra, boxes para procesar y

mover datos

El conocimiento que sacamos de

estos datos.

@xuxoramos

Definición "Big Data"

25

Big Data Analytics

@xuxoramos

Definición "Big Data"

26

Una empresa que tiene:

- Tablas (+120 columnas, 1M renglones, 6TB)- Texto (2K páginas)- Social (5K seguidores, 10 TW/posts x seguidor)- Vídeo (20TB)- Y puede/espera monetizar todo.- Entonces si tiene Big Data.

"Big data needs Analytics. Analytics doesn't need big data"

- Carla Gentry

27

Qué es "Analytics"?

28

"Describir un conjunto de datos en sus cantidades, tiempos, factores, frecuencias, e inferir algo que afecte mi realidad."

29

@xuxoramos

Qué es "Analytics"?

30

@xuxoramos

Qué es "Analytics"?

31

Qué es "Data Science"?

32

Mates, vueltas "operacionales".

33

@xuxoramos

Qué distingue BI de Data Science?

34

@xuxoramos

Qué compone a Data Science?

35

Qué es "Machine Learning"?

36

@xuxoramos

Qué es ML?

"Descubrimiento de funciones que partan el espacio de datos, ajusten a una curva sin conocer su orígen, o detecten grupos emergentes."

- Dr. Fernando Esponda (ITAM)

37

@xuxoramos

Qué diferencia tiene con Desarrollo de SW?

38

Máquina

Programa

Datos

Contexto

Resultado de negocio

Proyectos de Software

Máquina

Resultado de negocio

Datos

Contexto

Programa

Proyectos de Machine Learning

@xuxoramos

Objetivo del Machine Learning

39

Identificar patrones equivocándose lo menor posible.

@xuxoramos

Cómo lo logra?

40

Balanceando componentes del error: sesgo + varianza.

@xuxoramos

Cómo balanceamos?

41

A mayor número de variables, mayor complejidad.

También mayor varianza.

Y menor sesgo.

@xuxoramos

Usos del Machine Learning

42

Clasificación

Partir el espacio de datos en N categorías con funciones.

@xuxoramos

Usos del Machine Learning

43

Regresión

Función que se ajuste al espacio de datos.

@xuxoramos

Usos del Machine Learning

44

Agrupamiento/Clustering

No supervisado!

Descubrimiento de grupos emergentes.

@xuxoramos

Usos del Machine Learning

45

Reducción de dimensionalidad

Proyectar el espacio de datos a una sola dimensión y evaluar pérdida de información.

Y qué es Artificial Intelligence?

46

@xuxoramos

Qué es AI?

47

Actuar racionalmente

Actuar como humano

Pensar como humano

Pensar racionalmente

@xuxoramos

Qué es AI?

48

Actuar racionalmente

Actuar como humano

Pensar como humano

Pensar racionalmente

Parte IIUse Cases (buenos y malos)

- Buenos- Banca- Telco- Logística- Remesas- Medios

- Malos- Fashion- Internet- Telco- Twitter- Salud

49

Los Buenos

50

Importante Financiera Mexicana

1. Conversión de cliente de nómina a TC en 29%.

2. $2.7mmdp en revenue al año desde 2010.

3. Cómo lo hizo?

4. Clasificación!

51

UPS

1. Ahorro de combustible haciendo que camiones

sólo den vuelta a la derecha.

2. Ahorro de $47mdd al año.

3. Cómo lo hicieron?

4. Diseño de experimentos!

52

Importante Telco Mexicana

1. Identificación de usrs consumiendo $7K MXN semanales de tiempo aire en prepago.

2. Creación de producto de crédito de tiempo aire de hasta $2K.

3. $4mmdp al año de revenue.4. Cómo lo hicieron?5. Clustering!

53

Western Union

1. Prevención de fraude en remesas en automático y personalizado.

2. $32mdd en ahorro operativo en 2012. $21mdd son de transacciones detenidas al momento.

3. Cómo le hicieron?4. Clasificación!5. Similar a algoritmos de spam/ham.

54

Importante Grupo Editorial

1. Bajar bounce rate y mantener al visitante en sitios

de las marcas del grupo.

2. Aumentar ad impressions.

3. Cómo lo están haciendo?

4. Recommender Systems!

55

Los Malos

56

Los Malos

Importante Telco Mexicana

Google

Microsoft

Google

Walmart

2008 Financial Crisis

Trump Victory57

Parte IIIPor qué fallan los proyectos de

ML y DS?

Una breve historia

Barreras a la adopción

58

Historia de un Proyecto de "Pig Data"

59

CTOs drink the "Big Data" kool-aid and call their "buddy" at an IT Vendor.

Vendor promises unprecedented return if firm buys their "fridges".

Board grants budget out of ignorance. CTO buys boxes.

CTO migrates DWH from RDBMS to Hadoop. For them, this is DS.

Next Q arrives. No ROI. Project canceled. Boxes returned.

CTO no longer able to innovate. SWEngs quit and call themselves DS.

Barreras a la adopción

Costo / Tiempo

Organizacionales

Culturales

60

Barrera de Costo / Tiempo

- Ecosistema de datos fragmentado- Levantarlo es costoso (2 años para una organización

mediana)- Solo sirve para fines normativos- Operación siempre va más rápido que IT

61

Barrera Organizacional: Dónde debe vivir DS?

62

Barrera Organizacional: Dónde vive realmente?

63

Barrera Cultural

64

Sin preguntas correctas

Sin mindset correcto

Sin leverage organizacional

Barrera Cultural

65

Parte IVEl caso de México

Deficiencias en Talent Pool

Escenario Macroeconómico

66

Cómo anda México en DS y ML?

67

113K Ingenieros de Software al año.

350 Matemáticos, actuarios, físicos y estadísticos.

No se conoce la diferencia entre Data Scientist (DS) y Data Engineer (DE).

Tenemos miles de Data Engineers chingones.

No tenemos casi Científicos de Datos.

Tenemos muchos DE queriendo ser DS cuando no saben ni proba.

Qué tenemos en nuestra contra?

68

La frontera norte se cierra a nuestros productos y servicios.

Poco petróleo, y a precio muy bajo.

Corrupción rampante.

Mercado interno débil.

Variables macroeconómicas malas.

La "mano de obra barata" no será relevante en la era de la automatización.

Cómo lo hacemos bien?

1. Estableciendo un Repositorio Central de Datosa. Reportería normativab. Operativa / BIc. Data Science / Machine Learning

2. Patrocinando estos proyectos desde el más alto nivela. Compromiso de recursos a largo plazob. No tratarlos como proyectos de SWc. Reporte directo de Analytics / Data Science al CEO

3. Contratando correctamentea. Business first, Math second, Technology Third.b. IT no es suficiente.

69

GraciasJesús RamosTW: @xuxoramosFB: /xuxoramosEmail: jesus@datank.ai

70