Software Distribuït - T10 - Sistemes distribuïts d'alta ...ub-gei-sd.github.io/Tema3/SPARK.pdf ·...

Software Distribuıt - T10 - Sistemes distribuıts d’altacapacitat

Eloi Puertas i Prats

Universitat de BarcelonaGrau en Enginyeria Informatica

30 de maig de 2018

1 / 15 Eloi Puertas i Prats Software Distribuıt - T10 - Sistemes distribuıts d’alta capacitat

SPARK: Motivacio

Dissenyar un model de programacio distribuıda que suporti unagamma mes amplia d’aplicacions que MapReduce, mantenint elseu sistema automatic de tolerancia a falles.

MapReduce es ineficient per a programes de multiples passadesque no requereixen de massa intercanvi de dades entre multplesoperacions paral·leles.Aquest tipus de programes son forca comuns en tasquesd’analisi de dades massives (BigDATA):

Algorismes Iteratius, incloent la majoria d’alogorismesd’Aprenentatge Automatic (Machine Learning) i algorismes degrafs.Mineria de Dades interactiva, on un usuari carrega dades enmemoria mitjancant un cluster i la consulta repetidament.Aplicacions d’Streaming que mantenen un estat agregat al llargdel temps.

Caracterıstiques

Mapreduce es basa en fer correr una serie de diferents tasqueson cada una d’elles llegeix d’un disc fısic i torna a escriure en ell.

El fet de llegir i escriure les dades de forma replicada a cada paste un cost significatiu.

Spark ofereix una abstraccio anomenada Resilent DistributedDatasets (RDD).

RDD es guarda en memoria entre les diferents peticions sensenecessitar de replicacio.En cas de fallada el que fa es reconstruir les dades perdudes fentservir tracabilitat.Cada RDD recorda com va ser construıt a partir dels altresdatasets (a partir de maps, join, groupby) per tal de reconstruir-se.

Esta implementat usant SCALA. A mes a mes, de base, te APIsper python i Java

SPARK VS Hadoop

SPARK: Driver i Workers

Un codi Spark fa correr dos tipus de programes diferents:Un driver i varis workers.

El driver s’executa en un node passarela.

Els workers s’executen en nodes del cluster o en threds locals

RDDs es distribueixen al llarg dels workers

SPARK: Context

Un programa Spark abans de res crea un objecte SparkContext:Li diu a Spark com i a on accedir al cluster de nodes.

S’usa la variable sc (SparkContext) per a crar els RDDs.

El parametre master del SparkContext determina quin tipus imida de cluster s’esta usant.

Resilient Distributed Datasets (RDD) (I)

Es la principal abstraccio en SparkEs immutable un cop construıda.Traca tota l’activitat que se’n fa per tal de recomputar eficientmentla possible perdua de dades.Permet operacions en paral·lel en col·leccions d’elements.

Les RDDs es poden construir a partir de:Paral·lelitzar una col·leccio que ja existeixi.Transformant una RDD que ja existeixi.A partir de fitxers en un sistems distribuıt com HDFS o qualsevolaltre.

Resilient Distributed Datasets (RDD) (II)

El programador especifica el nombre de particions que pot teniruna RDD.

En general: Mes particions = Mes paral·lelisme (Cal tenir encompte pero el nombre de nodes vs threads disponibles)

Es permeten dos tipus d’operacions: Transformacions i Accions

Resilient Distributed Datasets (RDD): Transformacions

Crear nous datasets a partir d’un altre que ja existeixi.Fa servir avaluacio mandrosa: els resultats no es computen deseguida, sino que es guarda el conjunt de transformacions ques’han d’aplicar al dataset per tal de:

Optimitzar els calculs necessaris.Recuperar-se de caigudes i de workers lents.

Penseu en les Transformacions com a receptes per a obtenir unresultat.

Resilient Distributed Datasets (RDD): Accions

Fa que Spark executi tot el conjunt de transformacions a unconjunt de dades.

Es la forma per tal d’enviar resultats fora de l’Spartk.

Resilient Distributed Datasets (RDD): Caching

Es pot fer que un RDD sigui persistent usant els metodespersist() o cache() sobre ell.

La cache es tolerant a falles. Si qualsevol particio d’una RDD esperd, automaticament es recalculada usant la cadena detransformacions que la va crear originalment.

Mes informacio sobre RDD

Cicle de vida d’un programa Spark

1 Crear RDDs a partir de dades externes o paral·lelitzar unacol·leccio en el programa driver.

2 Fer transformacions mandroses sobre les dades produint nousRDDs.

3 Marcar els RDDs com a cache per a reutilitzar les dades.4 Realitzar accions que executaran computacions en paral·el i

acabaran per a produir els resultats finals.

Variables Compartides

Spark crea automaticament tancaments (closures) (Funcionsamb els seus propis entorns de variables) quan son :

Funcions que corren en RDDs en els workers (ex. funcions map)Qualsevol variable global utilitzada per aquests workersNo es requereix comunicacio entre workers.

Problemes:Els canvis en variables globals als workers no s’envien alsworkers.Per exemple, si vols comptar certs elements en els workers iobtenir el nombre total dels elements a tots els workers.

Variables Compartides

Solucio:Variables de Redifusio (Broadcasting)

Serveixen per enviar eficientment grans quantitats de dades denomes lectura des del driver a tots els workers.Es guarda en els workers per usar-se en una o mes operacions.

Variables Acumuladores (tipus: integers, double, long, float)Poden agregar valors des dels workers i enviar-se al driver.Nomes el driver te acces al valor de l’acumulador.Es a dir, pels workers, l’acumulador nomes es d’escriptura.Els acumuladors poden ser usats tant en accions com entransformacions, pero recordeu que nomes les accions garanteixenla seva execucio.

Comptar paraules

Exemple 1: WordCount.pyExemple 2: findWords.py

Software Distribuït - T10 - Sistemes distribuïts d'alta ...ub-gei-sd.github.io/Tema3/SPARK.pdf ·...

Documents

Transcript of Software Distribuït - T10 - Sistemes distribuïts d'alta ...ub-gei-sd.github.io/Tema3/SPARK.pdf ·...

Software Distribuït - T4 - Client/Servidorub-gei-sd.github.io/Tema1/CS.pdf · Molts dels serveis d’Internet son aplicacions client-servidor. Aquests´ serveis es coneixen sovint

Software Distribuït - T7 - WEBub-gei-sd.github.io/Tema3/WEB.pdfIntroduccio´ Protocol HTTP Aplicacions WEB Evolucio de la WWW´ 3/36 Eloi Puertas i Prats Software Distribu¨ıt -

Motor de chevrolet spark.pdf

INF550 - Computac¸ao em Nuvem I˜ Apache Sparkislene/2018-inf550/aula-spark.pdf · DARPA Intrusion Detection Evaluation Start Start Src Dest Src Dest Attack Date Time Duration Serv

Jesús%FernándezBes% MLG%–3JUN2013%%miguel/MLG/adjuntos/Spark.pdf · We present Resilient Distributed Datasets (RDDs), a dis-tributed memory abstraction that lets programmers per-form

HADOOP Sistemes distribu¨ıts d’alta capacitatub-gei-sd.github.io/Tema3/HADOOP.pdf · HADOOP Sistemes distribu¨ıts d’alta capacitat: Dissenyat per a Google, per a poder donar

Balanced Graph Partitioning with Apache Sparkhpc.isti.cnr.it/.../exe/fetch.php?media=pdf:bgp-spark.pdf · 2015. 2. 28. · Balanced Graph Partitioning with Apache Spark Emanuele Carlini

S Enginyeria tèrmica i medi ambient - e-BUC · condensadors, acumuladors de calor … • Generació de potència mecànica i tèrmica: motors i màquines tèrmiques, centrals termo-elèctriques

Presentación de PowerPoint - Marcaestaticos.marca.com/promociones/tarjetaspark/spark.pdf · Promoción Marca. Contacto . Title: Presentación de PowerPoint Author: Sara Rey Created

Tema 7. Java Servlets - Ub-gei-sd.github.io by UB-GEI-SDub-gei-sd.github.io/Tema3/Servlets.pdf · · 2018-04-11• Un contenedor de servlets es una parte de un servidor web o de

FEATURE Spark Receiver Software The Wonderful World of Sparktele-audiovision.com/TELE-satellite-1207/deu/spark.pdf · Der Bilderdienst Flickr hat es ebenfalls mit einer eigenen App

INF550 - Computaçao em Nuvem I˜ Apache Sparkislene/2017-inf550/aula-spark.pdf · INF550 - Computaçao em Nuvem I˜ Apache Spark Islene Calciolari Garcia Instituto de Computaçao

Lectores FireCR Spark Medical - Intecmedics CR Spark.pdf · 3DISC Americas, Inc. 22560 Glenn Drive, Suite 116 Sterling, VA 20164, Estados Unidos Tel: +1 800 570 0363 3DISC Europe

BASES DEL CONCURS LES PILES, A L’APILO DE …3.3.Cada escola podrà optar a un sol premi. D’aquesta manera, l’escola que obtingui el premi per haver recollit més piles i acumuladors

Software Distribuït - T8 - WEB-Servicesub-gei-sd.github.io/Tema3/WebServices.pdf · RESTful web-services Limitacions HTTP Mètodes REST Stateless EndPoints RESTful Web Services REST(Representational

CHEVROLET SPARK 2020 - SUAUTOsuauto.com.mx/doctos/fichas/spark.pdf · 2020-02-10 · localizarlo y aplicar el Bloqueo de Encendido del ... de combustible y de emisiones de CO 2 ...

Мифы о Спаркеpublic.jugru.org/jpoint/2016/msk/day_1/track_3/spark.pdf · •Для Spark-а нельзясложно писать unit тесты •Технические

JSP's - Ub-gei-sd.github.io by UB-GEI-SDub-gei-sd.github.io/Tema3/JSP.pdfque son evaluadas y retornan un String que se inserta en esa posición en la página. – Scriptlets

cobertes cataleg ACUMULADORS - caldisa.es · Aislamiento térmico de poliestireno (EPS) para reducir las pérdidas de calor. Envolvente y pared posterior de polipropileno (PP) antichoque.

Software Distribuït - T3 - Antecedents: Sistemes …ub-gei-sd.github.io/Tema1/SO.pdfAntecedents: Sistemes Operatius Comunicacio Intra-processos´ Sincronitzaci´o d’esdeveniments