MongoDB + Spark

MongoDB + Spark@blimpyacht

Level Setting

TROUGH OF DISILLUSIONMENT

Interactive ShellEasy (-er)Caching

Distributed Data

HDFSYARN

Domain Specific Languages

MapReduce

Spark Stand Alone

Distributed Resources

SparkMesos

Spark Stand Alone

Hadoop

Distributed Processing

SparkMesos

Hadoop

Spark Stand Alone

Domain Specific Languages

SparkMesos

SparkSQL

Spark Shell

SparkStreaming

Spark Stand Alone

Hadoop

SparkMesos

SparkSQL

Spark Shell

SparkStreaming

Spark Stand Alone

Hadoop

SparkMesos

SparkSQL

Spark Shell

SparkStreaming

Spark Stand Alone

Hadoop

SparkMesos

SparkSQL

Spark Shell

SparkStreaming

Spark Stand Alone

Hadoop

Stand AloneYARN

SparkMesos

SparkSQL

SparkShell

SparkStreaming

MapReduce

Stand AloneYARN

SparkMesos

SparkSQL

SparkShell

SparkStreaming

Stand AloneYARN

SparkMesos

SparkSQL

SparkShell

SparkStreaming

executor

Worker Node

executor

Worker Node Master

Java Driver

Hadoop Connector

Driver Application

Parallelization

Parellelize = x

Transformations

Parellelize = x t(x) = x’ t(x’) = x’’

Transformationsfilter( func )union( func )intersection( set )distinct( n )map( function )

Action

f(x’’) = yParellelize = x t(x) = x’ t(x’) = x’’

Actionscollect()count()first()take( n )reduce( function )

Lineage

f(x’’) = yParellelize = x t(x) = x’ t(x’) = x’’

Transform Transform ActionParallelize

Lineage

Transform Transform ActionParallelize Transform Transform ActionParallelize Transform Transform ActionParallelize Transform Transform ActionParallelize Transform Transform ActionParallelize

Lineage

Lineagehttp://www.blimpyacht.com/2016/02/03/a-visual-guide-to-the-spark-hadoop-ecosystem/

https://github.com/mongodb/mongo-hadoop

Spark ConfigurationConfiguration conf = new Configuration();conf.set(

"mongo.job.input.format", "com.mongodb.hadoop.MongoInputFormat”);conf.set(

"mongo.input.uri", "mongodb://localhost:27017/db.collection”);

Spark ContextJavaPairRDD<Object, BSONObject> documents = context.newAPIHadoopRDD( conf,

MongoInputFormat.class,Object.class,BSONObject.class

Spark Submit

/usr/local/spark-1.5.1/bin/spark-submit \ --class com.mongodb.spark.examples.DataframeExample \ --master local Examples-1.0-SNAPSHOT.jar

Stand AloneYAR

SparkMesos

SparkSQL

SparkShell

SparkStreaming

JavaRDD<Message> messages = documents.map (

new Function<Tuple2<Object, BSONObject>, Message>() {

public Message call(Tuple2<Object, BSONObject> tuple) { BSONObject header = (BSONObject)tuple._2.get("headers");

Message m = new Message(); m.setTo( (String) header.get("To") ); m.setX_From( (String) header.get("From") ); m.setMessage_ID( (String) header.get( "Message-ID" ) ); m.setBody( (String) tuple._2.get( "body" ) );

return m; } });

THE FUTUREAND

BEYOND THE INFINITE

Spark Connector

Aggregation Filters$match | $project | $group

Data Locality mongos

THANKS!@blimpyacht

MongoDB + Spark

Data & Analytics

Transcript of MongoDB + Spark

What is SPARK? - UHgabriel/courses/cosc6339_s17/BDA_11_Spark.pdf · What is SPARK? •In-Memory Cluster ... –Hadoop, –Mesos, •Spark ... Spark Essentials •Spark program has

NEW MongoDB 管理與開發 · 6. MongoDB索引介紹 7. MongoDB綱要設計 8. MongoDB彙集 9. MongoDB複製集設定 10. MongoDB資料分片技術說明 11. MongoDB安全性說明

Mongodb introduction

Nosql & MongoDB

MongoDB + PHP

大数据时代的变革 - doc.fens.medoc.fens.me/hbun-collage-bigdata.pdf · Hadoop HDFS，Hbase, Google GFS, DynamoDB, MongoDB, Cassandra 计算： Hadoop MapReduce, Spark, Mahout,

MongoDB - Replicação

MongoDB Expo

Защо MongoDB?

Introduccion mongodb

The MongoDB Strikes Back / MongoDB 의 역습

MongoDB GDG

NoSQL Concepts MongoDB Concepts MongoDB Demos Agenda.

Palestra mongoDB

Big Data - mariuszrafalo.plmariuszrafalo.pl/sgh/bd/BD 03 - Technologie.pdf · •MongoDB Spark Connector –integracja z Apache Spark •MongoDB Atlas –database as a service 12.

NGK SPARK pÚü6s RESISTOR TYPE SPARK PLUGS SPARK PLUGS ... · ngk spark pÚü6s resistor type spark plugs spark plugs bougies bujias

Attacking MongoDB

ToursJUG mongoDB

MongoDB & Spark

Presentation title (on one or two lines)2008/11/01 · MapR、Cloudera、Spark RDB DWH Oracle Exa、 Netezza、RedShift RDB OLTP Oracle、SQLServer、 PostgreSQL KVS Cassandra、Mongodb、