BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA Cloud.pdf · Cloud Public IP VM[1] HDFS DATA –TEXT...

BIG DATA ÉS GÉPI TANULÁS

KÖRNYEZET AZ MTA

CLOUD-ON

KACSUK PÉTER, NAGY ENIKŐ, PINTYE ISTVÁN,

HAJNAL ÁKOS, LOVAS RÓBERT

TARTALOM

❖MTA Cloud

❖ Big Data és gépi tanulást támogató szoftver eszközök

❖Apache Spark keretrendszer

❖Occopus felhő menedzser és orkesztrátor

❖ Rstudio, R, SparklyR, Spark klaszter, HDFS környezet

létrehozása

❖ Jupyter, Python, Spark ml, Spark klaszter, HDFS környezet

létrehozása

❖ Továbbfejlesztési irányok

MTA CLOUD

Két telephely:Wigner Adatközpont és MTA SZTAKI

OpenStack és Docker konténer alapú IaaS felhő infrastruktúra

Ingyenes használat MTA kutatói számára

Jelenleg 95 aktív projekt, 2016 óta több, mint 20 különböző MTA

intézetből pld.:

Nyelvtudományi Intézet, Konkoly Thege Miklós Csillagászati

Intézet, Szociológiai Intézet, Rényi Alfréd Matematikai

Kutatóintézet

4000 vCPU, 5,25 TB memória, 762 TB tároló kapacitás

2017-es bővítéssel GPGPU kártyák: Wigner 4 db nVidia V100,

SZTAKI oldalon 8 darab Tesla K80 GPU

MUNKÁNK CÉLJA

➢ Gépi tanulás egyre fontosabb

➢ DE: nagy számítási erőforrás igény

➢ MTA Cloud az MTA kutatóknak

➢ Apache Spark keretrendszer elterjedt

➢ DE: kiépítése nem triviális, az MTA Cloud

felhasználók döntő többsége nem informatikus

➢ CÉLUNK: megkönnyíteni az MTA Cloud

felhasználók számára a Big Data és gépi tanulást

támogató környezetek felépítését

➢ telepítési mechanizmus elkészítése, a megoldás

használata Occopus orkesztrációs eszközzel 4

APACHE SPARK ÖKO SZISZTÉMA

BIG DATA ÉS GÉPI TANULÁST TÁMOGATÓ

ESZKÖZÖK

ELŐRE DOBOZOLT MEGOLDÁSOK

• Google Cloud - Cloud Dataproc• Google Cloud Platform

• Amazon Elastic MapReduce (EMR)

• CloudBreak from Hortonworks• Hortonworks platforms

Problémák: • Kereskedelmi felhők • Beszállítói függőség (vendor lock-in)• Az MTA Cloud-on nem állnak

rendelkezésre

MTA KUTATÓK TÁMOGATÁSA

➢ MTA TK Politikatudományi Intézet

➢ Feladat: nyomtatott és online médiában megjelenő

újságcikkek osztályozása

➢ textanalitika, neurális háló használata, R nyelvben

➢ Spark klaszter használata

➢ MTA CSFK Csillagászati és Földtudományi

Kutatóközpont

➢ Feladat: fényerősség intenzitásának változása alapján

van-e bolygója egy csillagnak?

➢ klasszifikációs feladat, konvolúciós neurális hálóval,

Python, Keras, TensorFlow, GPU használat

MTA TK POLITIKATUDOMÁNYI INTÉZET

FELADATÁHOZ SZÜKSÉGES KÖRNYEZET

OCCOPUS

❖Nyílt forráskódú hibrid orkesztrációs eszköz

❖MTA SZTAKI által fejlesztett

❖ Felhőfüggetlen megoldás

❖Hordozható leírók

❖ Skálázási lehetőség

❖Kontextualizáció cloud-init segítségével

A MEGOLDÁS ARCHITEKTÚRÁJA

Spark leírók

OCCOPUS

OCCOPUS LEÍRÓK

Infradescription

• Csomópontok

• Változók

• Skálázás

• Függőségek

Node definition

• Erőforrás definiálás

• Kontextualizáció

• Egészség-ellenőrzés

• Konfigurációs menedzsment

Cloud-init

• Felhasználó kezelés

• Fájlok telepítése

• Parancsok

• Binárisok telepítése

• Konfigurációs fájlok telepítése

(testreszabhatóság)

• Spark konfiguráció

• Spark démonok elindítása

A MEGOLDÁS HASZNÁLATA

1. Occopus telepítése: Occopus weboldal „Get started/Install manual”

2. Leírók letöltése: Occopus weboldal

„Tutorials/Tutorials on Big Data and AI applications/Apache Spark

cluster”

3. Leírók személyre szabása: Occopus weboldal „Collecting-resource-

attributes”

4. Occopus aktiválása: aktiváljuk az Occopus virtuális környezetét

5. Leírók importálása: importáljuk a node definíciós fájlt

6. Klaszter kiépítése: Indítsuk el a telepítési folyamatot

FELHASZNÁLÁSI LEHETŐSÉGEK

Leírók közzététele MTA Cloud honlapján

Integráció Jupyter Notebookkal (nyílt

forráskódú webes alkalmazás, kódok, egyenletek és

narratív szövegeket tartalmazó dokumentumok

létrehozása, megosztása)

Integráció RStudio-val (nyílt forráskódú integrált

fejlesztői környezet (IDE) az R programozási

nyelvhez)

MTA Cloud

Public IP

DATA – TEXT

VM[10]

WORKER

VM[10]

WORKER

MASTER

R interpreter

Python interpreter

RSudio Web Server

Jupyter Notebook

User PC

A létrejött MI

architekturák

ELÉRÉS AZ MTA CLOUD-ON

TOVÁBBFEJLESZTÉSI IRÁNYOK

Különböző alkalmazás osztályokhoz szükséges szoftver környezetek

felépítése Occopusszal és ezek publikálása az MTA Cloud web lapján

Pl. Az MTA CSFK Csillagászati és Földtudományi Kutatóközpont

alkalmazásához szükséges környezet:

ÖSSZEFOGLALÁS

Cél, hogy a magyar kutatók minél gyorsabban kezdhessék el az MI-hez kapcsolódó kutató munkát az MTA Cloud-on

Ehhez olyan szoftver környezet kell, ami az ehhez szükséges szoftver eszközöket azonnal, egymással együttműködve és működőképesen tartalmazza.

Célunk, hogy ilyen jól működő és felhasználható MI környezeteket hozzunk létre az MTA Cloud-on

Az eddig összeállított környezetek (Hadoop, Spark, Jupyter, Rstudio) tutorial formájában elérhetők és kipróbálhatók az MTA Cloud-on

Várjuk további MI igények bejelentését

A felhalmozott tudás segítségével konzultációs segítséget is vállalunk

KÖSZÖNÖM A FIGYELMET!

Kérdések?

BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA Cloud.pdf · Cloud Public IP VM[1] HDFS DATA –TEXT...

Documents

Transcript of BIG DATA ÉS GÉPI TANULÁS KÖRNYEZET AZ MTA Cloud.pdf · Cloud Public IP VM[1] HDFS DATA –TEXT...

Cisco Spark Room Kit シリーズ 概要（At-a-Glance） Spark Room Kit シリーズ • Cisco Spark Room Kit • Cisco Spark Room Kit Plus Cisco Spark Room Kit シリーズ 概要

SPARK SPARK VRT

Google File System, HDFS, BigTable, Hbase

What is SPARK? - UHgabriel/courses/cosc6339_s17/BDA_11_Spark.pdf · What is SPARK? •In-Memory Cluster ... –Hadoop, –Mesos, •Spark ... Spark Essentials •Spark program has

What's new in Hadoop Common and HDFS

Real Time Analytics via Spark & Scala | Spark & Scala Fundamentals | Spark & Scala Architecture

NGK SPARK pÚü6s RESISTOR TYPE SPARK PLUGS SPARK PLUGS ... · ngk spark pÚü6s resistor type spark plugs spark plugs bougies bujias

Pengantar Hadoop - malifauzi.lecture.ub.ac.idmalifauzi.lecture.ub.ac.id/files/2019/02/Pengantar-Hadoop.pdf · HDFS dan Unix File System • Dalam beberapa hal, HDFS mirip dengan UNIX

Zh tw introduction_to_hadoop and hdfs

제대로배워보자 - 공개SW 포털 · 2018-12-04 · 2. 기능요약 • 기존데이터분석툴과비교 특징 Apache Spark Apache Hive Mysql 분산데이터저장 가능(HDFS,

퓨어1 VM 분석 (PURE1 VM ANALYTICS) · 2020-06-02 · 퓨어1 vm 분석(pure1 vm analytics) 을활용하여다음과같은혜택을얻을수있습니다. • vm, 볼륨, 어레이,

HUG Nov 2010: HDFS Raid - Facebook

ビジネス継続性と 仮想化セキュリティを 高めるインフラへ …クラウド モバイル vm vm vm vm vm vm vm vm vm vm vm vm vm vm vm ... およびwanアクセラレーションを組み合わせたシングルクライアント

Hadoop 2.x HDFS Cluster Installation (VirtualBox)

Budapest Spark Meetup - Basics of Spark coding

HDFS HA セミナー #hadoop

Стек технологий Apache Hadoop . Распределённая файловая система HDFS

HDFS (fsimage and edits) in CDH3,CDH4

A >R4K>Ö+ /Ñ Û Cœº动车缉查布控大数据平台介绍.pdf · ORACLE X86 500 EJ 1000 Kafka Spark Streaming HBase/HDFS Map/ Reduce OracleäE

ALEXEY SVYATKOVSKIY PRINCETON UNIVERSITY - … · alexey svyatkovskiy princeton university. ... anatomy of a spark app: runing on a cluster (i) ... akka, flume, kafka, hdfs

Cisco Spark Room Kit シリーズ概要（At-a-Glance） Spark Room Kit シリーズ • Cisco Spark Room Kit • Cisco Spark Room Kit Plus Cisco Spark Room Kit シリーズ概要

ビジネス継続性と仮想化セキュリティを高めるインフラへ …クラウドモバイル vm vm vm vm vm vm vm vm vm vm vm vm vm vm vm ... およびwanアクセラレーションを組み合わせたシングルクライアント