Hadoop for big Data

10
REVIEW PAPER TOPIK KHUSUS TETI Implementasi Teknologi HADOOP pada BIG DATA (Lecturer : Adhistya Erna Permanasari, , S.T., M.T., Ph.D) Andris Faesal 14/370660/PTK/9626 Gadjah Mada University, Yogyakarta. April, 2015 Astract Konsep Big Data bukan hanya sekedar mengelola data yang besar saja, melainkan tentang mengelola data yang kompleks dan tidak terstruktur namun memiliki nilai pada data tersebut. Big Data merupakan data yang mempunya volume yang besar sehingga tidak dapat diproses menggunakan alat biasa dan harus menggunakan cara dan alat baru untuk mendapatkan nilai dari data ini. Dengan munculnya teknologi Hadoop yang dapat menganalis dan memanejemen data dalam jumlah besar tersebut, hadoop ini menggunakan algoritma MapReduce dan sistem file kerja Google sehingga dapat melakukan proses secara terukur dan di distribusikan ke hardware komoditas. Pada review paper ini akan dibahas tentang teknologi Hadoop dalam penggunaannya pada Big Data serta membandingkan dari contoh-contoh pada paper-paper lain yang terkait dengan topik ini. I. Background Aplikasi terbaru seperti pencarian indeks web, social networking, transaksi perbankan, mesin rekomendasi, mesin berbasis pengetahuan dalam kehidupan sehari - hari menghasilkan sejumlah besar data dalam bentuk log, blog, email, dan lainnya baik terstruktur dan tidak terstruktur aliran informasi. Data ini harus disimpan, diproses dan terkait untuk mendapatkan pandangan bisnis proses saat ini. Kebutuhan untuk memelihara data terstruktur dan data tidak terstruktur untuk memenuhi peraturan pemerintah di sektor industri tertentu memerlukan penyimpanan, pengolahan dan analisis data dalam jumlah besar. Sementara itu diskusi terkait Big Data sering dibahas. Istilah "Big Data" biasanya dianggap sebagai kumpulan data yang memiliki data begitu besar itu tidak dapat terjangkau atau secara efektif dikelola menggunakan alat manajemen data konvensional seperti tradisional sistem manajemen database relasional (RDBMS) atau mesin pencari konvensional, berdasarkan tugas di tangan. Istilah berdengung lain "Big Data Analytics" adalah dimana teknik analisis canggih yang dibuat untuk beroperasi pada dataset yang besar. Dengan demikian, Data analisis besar adalah benar-benar tentang dua hal yaitu, analisis data yang besar dan bagaimana keduanya telah bersatu untuk membuat satu tren dalam inteligent bisnis (BI). Ada beberapa cara untuk menyimpan, mengolah dan menganalisa volume besar data dalam skala besar-besaran paralel. Hadoop dianggap sebagai contoh terbaik untuk penyimpanan paralel secara besar- besaran dalam sistem pengolahan dan diterapkan dalam kasus beberapa perusahaan.

description

review

Transcript of Hadoop for big Data

  • REVIEW PAPER TOPIK KHUSUS TETIImplementasi Teknologi HADOOP pada BIG DATA

    (Lecturer : Adhistya Erna Permanasari, , S.T., M.T., Ph.D)

    Andris Faesal14/370660/PTK/9626

    Gadjah Mada University, Yogyakarta. April, 2015

    AstractKonsep Big Data bukan hanya sekedar mengelola data yang besar saja, melainkan tentang

    mengelola data yang kompleks dan tidak terstruktur namun memiliki nilai pada data tersebut. BigData merupakan data yang mempunya volume yang besar sehingga tidak dapat diprosesmenggunakan alat biasa dan harus menggunakan cara dan alat baru untuk mendapatkan nilai daridata ini. Dengan munculnya teknologi Hadoop yang dapat menganalis dan memanejemen datadalam jumlah besar tersebut, hadoop ini menggunakan algoritma MapReduce dan sistem file kerjaGoogle sehingga dapat melakukan proses secara terukur dan di distribusikan ke hardwarekomoditas. Pada review paper ini akan dibahas tentang teknologi Hadoop dalam penggunaannyapada Big Data serta membandingkan dari contoh-contoh pada paper-paper lain yang terkaitdengan topik ini.

    I. BackgroundAplikasi terbaru seperti pencarian indeks web, social networking, transaksi perbankan,

    mesin rekomendasi, mesin berbasis pengetahuan dalam kehidupan sehari - hari menghasilkansejumlah besar data dalam bentuk log, blog, email, dan lainnya baik terstruktur dan tidakterstruktur aliran informasi. Data ini harus disimpan, diproses dan terkait untuk mendapatkanpandangan bisnis proses saat ini. Kebutuhan untuk memelihara data terstruktur dan data tidakterstruktur untuk memenuhi peraturan pemerintah di sektor industri tertentu memerlukanpenyimpanan, pengolahan dan analisis data dalam jumlah besar.

    Sementara itu diskusi terkait Big Data sering dibahas. Istilah "Big Data" biasanya dianggapsebagai kumpulan data yang memiliki data begitu besar itu tidak dapat terjangkau atau secaraefektif dikelola menggunakan alat manajemen data konvensional seperti tradisional sistemmanajemen database relasional (RDBMS) atau mesin pencari konvensional, berdasarkan tugas ditangan. Istilah berdengung lain "Big Data Analytics" adalah dimana teknik analisis canggih yangdibuat untuk beroperasi pada dataset yang besar. Dengan demikian, Data analisis besar adalahbenar-benar tentang dua hal yaitu, analisis data yang besar dan bagaimana keduanya telahbersatu untuk membuat satu tren dalam inteligent bisnis (BI). Ada beberapa cara untukmenyimpan, mengolah dan menganalisa volume besar data dalam skala besar-besaranparalel. Hadoop dianggap sebagai contoh terbaik untuk penyimpanan paralel secara besar-besaran dalam sistem pengolahan dan diterapkan dalam kasus beberapa perusahaan.

  • Hadoop adalah sebuah framework software berbasis Java dan opensource yang berfungsiuntuk mengolah data yang sangat besar secara terdistribusi dan berjalan di atas cluster yangterdiri dari beberapa komputer yang saling terhubung. Hadoop dapat mengolah data dalamjumlah yang sangat besar hingga petabyte dan dijalankan di atas ribuan komputer [1]. Denganmenggunakan algoritma MapReduce dan sistem file kerja Google untuk menerapkan algoritmaMapReduce secara terukur dan didistribusikan pada perangkat keras komoditas, Hadoopmemungkinkan pengguna untuk menyimpan dan memproses volume data yang besar danmenganalisis dengan cara yang sebelumnya tidak mungkin dengan pendekatan berbasis SQLatau solusi yang kurang terukur. Peningkatan luar biasa dalam sumber daya konvensionalmenghitung dan penyimpanan membantu membuat cluster Hadoop layak untuk kebanyakanorganisasi. Makalah ini dimulai dengan pembahasan evolusi Big Data dan masa depan Big Databerdasarkan Gartner Hype Cycle. Kami telah menjelaskan bagaimana Hadoop Distributed FileSystem (HDFS) bekerja dan arsitektur dengan ilustrasi yang sesuai. Hadoop MapReduceparadigma penyebaran tugas di beberapa node dalam Hadoop dibahas dengan set data sampel.Kerja dari MapReduce dan HDFS ketika mereka menempatkan semua bersama-sama dibahas.Akhirnya kertas berakhir dengan diskusi tentang Big Data Hadoop kasus penggunaan sampelyang menunjukkan bagaimana perusahaan dapat memperoleh manfaat kompetitif denganmenjadi pengadopsi awal dari analisis data yang besar [2].

    Gambar 1. Arsitektur Big Data and Deep Analysis[2]

    Pada paper yang berjudul Evaluation and Analysis of GreenHDFS: A Self-Adaptive, Energy-Conserving Variant of the Hadoop Distributed File System, dijelaskkan bahwa Hadoopmenggunakan algoritma Map Reduce Google dan Distributed File System (HDFS) / berkas sistemkerja. Dimana untuk mengimplementasikan algoritma MapReduce dalam mode scalable dandidistribusikan pada komoditas hardware. Selain itu Hadoop memungkinkan pengguna untukmenyimpan dan memproses volume data dalam jumlah yang besar [3]. Sedangkan pada paperlain juga diterangkan implementasi untuk Hadoop cluster bisa digunakan untuk kebanyakanorganisasi. Sedangkan Hadoop Distributed File System (HDFS) bekerja dan memiliki arsitektur,MapReduce Hadoop bekerja dengan mendistribusikan tugas di beberapa node, dalam Hadoopdibahas dengan data set sampel.MapReduce dan HDFS bekerja ketika mereka menempatkanseluruhnya secara bersama sama [4].

    Hadoop adalah sebuah framework software berbasis Java dan opensource yang berfungsiuntuk mengolah data yang sangat besar secara terdistribusi dan berjalan di atas cluster yangterdiri dari beberapa komputer yang saling terhubung. Hadoop dapat mengolah data dalamjumlah yang sangat besar hingga petabyte dan dijalankan di atas ribuan komputer [1]. Denganmenggunakan algoritma MapReduce dan sistem file kerja Google untuk menerapkan algoritmaMapReduce secara terukur dan didistribusikan pada perangkat keras komoditas, Hadoopmemungkinkan pengguna untuk menyimpan dan memproses volume data yang besar danmenganalisis dengan cara yang sebelumnya tidak mungkin dengan pendekatan berbasis SQLatau solusi yang kurang terukur. Peningkatan luar biasa dalam sumber daya konvensionalmenghitung dan penyimpanan membantu membuat cluster Hadoop layak untuk kebanyakanorganisasi. Makalah ini dimulai dengan pembahasan evolusi Big Data dan masa depan Big Databerdasarkan Gartner Hype Cycle. Kami telah menjelaskan bagaimana Hadoop Distributed FileSystem (HDFS) bekerja dan arsitektur dengan ilustrasi yang sesuai. Hadoop MapReduceparadigma penyebaran tugas di beberapa node dalam Hadoop dibahas dengan set data sampel.Kerja dari MapReduce dan HDFS ketika mereka menempatkan semua bersama-sama dibahas.Akhirnya kertas berakhir dengan diskusi tentang Big Data Hadoop kasus penggunaan sampelyang menunjukkan bagaimana perusahaan dapat memperoleh manfaat kompetitif denganmenjadi pengadopsi awal dari analisis data yang besar [2].

    Gambar 1. Arsitektur Big Data and Deep Analysis[2]

    Pada paper yang berjudul Evaluation and Analysis of GreenHDFS: A Self-Adaptive, Energy-Conserving Variant of the Hadoop Distributed File System, dijelaskkan bahwa Hadoopmenggunakan algoritma Map Reduce Google dan Distributed File System (HDFS) / berkas sistemkerja. Dimana untuk mengimplementasikan algoritma MapReduce dalam mode scalable dandidistribusikan pada komoditas hardware. Selain itu Hadoop memungkinkan pengguna untukmenyimpan dan memproses volume data dalam jumlah yang besar [3]. Sedangkan pada paperlain juga diterangkan implementasi untuk Hadoop cluster bisa digunakan untuk kebanyakanorganisasi. Sedangkan Hadoop Distributed File System (HDFS) bekerja dan memiliki arsitektur,MapReduce Hadoop bekerja dengan mendistribusikan tugas di beberapa node, dalam Hadoopdibahas dengan data set sampel.MapReduce dan HDFS bekerja ketika mereka menempatkanseluruhnya secara bersama sama [4].

    Hadoop adalah sebuah framework software berbasis Java dan opensource yang berfungsiuntuk mengolah data yang sangat besar secara terdistribusi dan berjalan di atas cluster yangterdiri dari beberapa komputer yang saling terhubung. Hadoop dapat mengolah data dalamjumlah yang sangat besar hingga petabyte dan dijalankan di atas ribuan komputer [1]. Denganmenggunakan algoritma MapReduce dan sistem file kerja Google untuk menerapkan algoritmaMapReduce secara terukur dan didistribusikan pada perangkat keras komoditas, Hadoopmemungkinkan pengguna untuk menyimpan dan memproses volume data yang besar danmenganalisis dengan cara yang sebelumnya tidak mungkin dengan pendekatan berbasis SQLatau solusi yang kurang terukur. Peningkatan luar biasa dalam sumber daya konvensionalmenghitung dan penyimpanan membantu membuat cluster Hadoop layak untuk kebanyakanorganisasi. Makalah ini dimulai dengan pembahasan evolusi Big Data dan masa depan Big Databerdasarkan Gartner Hype Cycle. Kami telah menjelaskan bagaimana Hadoop Distributed FileSystem (HDFS) bekerja dan arsitektur dengan ilustrasi yang sesuai. Hadoop MapReduceparadigma penyebaran tugas di beberapa node dalam Hadoop dibahas dengan set data sampel.Kerja dari MapReduce dan HDFS ketika mereka menempatkan semua bersama-sama dibahas.Akhirnya kertas berakhir dengan diskusi tentang Big Data Hadoop kasus penggunaan sampelyang menunjukkan bagaimana perusahaan dapat memperoleh manfaat kompetitif denganmenjadi pengadopsi awal dari analisis data yang besar [2].

    Gambar 1. Arsitektur Big Data and Deep Analysis[2]

    Pada paper yang berjudul Evaluation and Analysis of GreenHDFS: A Self-Adaptive, Energy-Conserving Variant of the Hadoop Distributed File System, dijelaskkan bahwa Hadoopmenggunakan algoritma Map Reduce Google dan Distributed File System (HDFS) / berkas sistemkerja. Dimana untuk mengimplementasikan algoritma MapReduce dalam mode scalable dandidistribusikan pada komoditas hardware. Selain itu Hadoop memungkinkan pengguna untukmenyimpan dan memproses volume data dalam jumlah yang besar [3]. Sedangkan pada paperlain juga diterangkan implementasi untuk Hadoop cluster bisa digunakan untuk kebanyakanorganisasi. Sedangkan Hadoop Distributed File System (HDFS) bekerja dan memiliki arsitektur,MapReduce Hadoop bekerja dengan mendistribusikan tugas di beberapa node, dalam Hadoopdibahas dengan data set sampel.MapReduce dan HDFS bekerja ketika mereka menempatkanseluruhnya secara bersama sama [4].

  • Hadoop adalah open source kerangka kerja perangkat lunak Apache yang mengevaluasigigabyte atau petabyte terstruktur atau tidak terstruktur data dan mengubahnya menjadibentuk yang lebih mudah dikelola untuk aplikasi. Hadoop dapat memproses data yang diberikandengan cepat, dan itu dianggap sebagai keuntungan atau kunci untuk skalabilitas. Hadoopmuncul sebagai platform perangkat lunak yang didistribusikan untuk mengubah dan mengelolasejumlah besar data, dan telah berkembang menjadi salah satu alat yang paling popular. Hadoopterinspirasi dari whitepaper Google yang membahas tentang MapReduce dan Google FileSystem yang dibuat oleh Doug Cutting dan nama hadoop ini berasal dari boneka gajah milikanaknya. Asal muasalnya hadoop ini adalah sub project dari Nutch yang digunakan untuk SearchEngine. Hadoop bersifat open source dan berada dibawah bendera Apache SoftwareFoundation. Inti dari hadoop adalah terdiri dari [1]:

    a) HDFS (Hadoop Distributed File System) - Data yang terdistribusib) MapReduce - Framework dari aplikasi yang terdistribusiDari paper yang lain juga di sebutkan komponen yang terdapat pada Hadoop yaitu terdiri

    dari dua komponen dasar, antara lain:a) Sistem berkas terdistribusi (distributed le system) - Google File System.

    Ini memberikan toleransi kesalahan sementara berjalan pada perangkat keraskomoditas murah, dan memberikan performa agregat tinggi untuk sejumlah besarklien. [5].

    b) Kerangka komputasi (computing framework) - Google MapReduce.Hadoops data-intensive computing framework yang intensif dibangun pada skalabesar, sangat tangguh penyimpanan cluster berbasis obyek dikelola oleh HadoopDistributed File System (HDFS) [3].

    Dalam komponen pertama dari dua di atas, data disimpan dalam Hadoop Distributed FileSystem (HDFS). Hadoop Distributed File System (HDFS) menggunakan write-sekali, baca-banyakmodel yang istirahat data ke blok yang menyebar di banyak node untuk toleransi kesalahan dankinerja tinggi. Hadoop dan HDFS menggunakan arsitektur master-slave.

    Teknologi hadoop sendiri tidak hanya digunakan pada Big Data, ada beberapaimplementasi yang lainnya, pada beberapa paper yang membahas teknologi hadoopmenjelaskan bahwa Hadoop merupakan sumber awan platform komputasi terbuka YayasanApache yang menyediakan kerangka kerja pemrograman perangkat lunak yang merupakan satuset tool berbasis Linux yang menggunakan perangkat keras komoditas, yang relatif murah, untukmenangani, menganalisis dan mengubah jumlah besar data [6].

    Dalam inplementasinya pada beberapa perusahaan, biasanya menggunakan suatuperangkat komputer dengan spesifikasi tinggi yang akan akan memproses data dalam jumlahbesar. Tetapi tidak selamanya yang di proses adalah data besar dan scalable, sedangkan Hadoopmengikuti suatu pendekatan sangat berbeda dibandingkan dengan perusahaan yang tradisional.Pada proses Big Data ini yang pertama kali diterobos yaitu melakukan pemecahan data menjadikecil sehingga data yang dalam jumlah besar tadi dapat ditangani secara efisien dan secaraefektif. Bersama dengan pemecahan data tersebut, Hadoop juga melakukan pemecahanperhitungan sesuai data yang dipecah tadi, dan ketika semua proses perhitungan telah selesebaru dikombinasikan / digabung kembali semua data tersebut baru dikirim sesuai yang

  • dibutuhkan aplikasi / user. Seperti yang diterapkan pada paper yang membuat Web log fileuntuk keperluan Data mining dengan skema seperti gambar berikut.

    Gambar 2. Big Data Characteristics [7]

    II. MethodDalam implentasinya, banyak method yang bisa digunakan pada Big Data, berikut beberapa

    method yang bisa dijadikan acuan antara lain :a. The Rise Of Big Data And Hype Cycle

    The Hype Cycle memberikan pernyataan tentang Emerging Technologies pada HypeCycle tahunan terpanjang, memberikan pendapat sudut pandang silang pada sebuah industripada teknologi dan tren yang senior yang eksekutif, strategi, inovator, CIO, pengembangbisnis dan perencana teknologi harus menganggap sebagai dalam mengembangkan munculportofolio teknologi.

    Hype Cycle Gartner menawarkan strategi dan perencanaan dengan evaluasikematangan, manfaat bisnis dan masa depan, kearah lebih dari 2.000 teknologi,dikelompokkan menjadi 98 daerah. Siklus Hype guesstimates menentukan berapa lamateknologi dan tren akan mendapatkan kematangan dan membantu organisasi membuatkeputusan kapan harus melaksanakan. Informasi ini menggambarkan tahap teknologi adopsibaru dan dimulai dengan Teknologi Pemicu: penemuan baru atau inovasi. Dalam 2012 dan2008 (sesuai tahun paper) versi Hype Siklus untuk Emerging Technologies, Gartnermemperkirakan bahwa akan mengambil 2-5 tahun sebelum data besar akan mencapaiproduktivitas tertinggi [8][9].

    Pada tahun ini, sesuai perkiraan Gartner bahwa prediksinya untuk Tren terhubung eratdari Internet of Things yang semulanya antara 5 sampai 10 tahun ternyata pada tahun 2014kemarin mengatakan masih memerlukan lebih dari 10 tahun lagi untuk dapat mencapaiproduktivitas tertinggi, seperti diprediksi tahun lalu.

    Berikut Gambaran Gartner hype cycle untuk emerging Technologies yang dibuat padatahun 2013 kemarin.

  • Gambar 3. Gartner hype cycle for emerging Technologies 2013 [2][9]

    b. MapReduce FrameworkMapReduce adalah replika pemrograman dan terkait pelaksanaan pengolahan dan

    menghasilkan dataset yang besar [10]. Program MapReduce pada dasarnya paralel dansangat cocok untuk lingkungan terdistribusi. Sedangkan Hadoop mengambil cluster nodeuntuk menjalankan program MapReduce besar-besaran secara paralel.

    Program MapReduce terdiri dari dua langkah utama, yaitu peta langkah proses inputdata dan langkah berikutnya mengurangi merakit untuk menjadi hasil akhir. Keduapenggunaan pasangan kunci-nilai yang ditetapkan oleh pengguna sebagai input danoutput. Ini memungkinkan output dari satu pekerjaan untuk memberikan secara langsungsebagai masukan untuk yang lain. Program MapReduce berjalan pada sistem file lokal danCPU lokal untuk setiap node cluster. Data yang rusak menjadi data blok (biasanya dalamukuran blok 64MB), disimpan di seluruh

    Pengolahan data yang dilakukan dapat mencakup berbagai operasi tergantungkebutuhan seperti pemusnahan (culling), penandaan (tagging), menyoroti (highlighting),pengindeksan (indexing), pencarian (searching), pendekteksian (faceting), operasi(operations) dll. Hal ini tidak mungkin dikerjakan oleh mesin tunggal atau lebih untukmenyimpan atau memproses sejumlah besar data ini dalam jangka waktu yang terbatas. [11]

  • Gambar 4. MapReduce data flow with a single reduce task [10]

    c. HDFS & Map Reduce Put TogetherKetika kita mempunyai berbagai macam data, dimana data - data tersebut dapat

    disimpan dan diproses ke dalam DBMS dengan sistem cluster terdistribusi seperti HadoopDistributed File System (HDFS). HDFS adalah sistem penyimpanan jangka panjang untuk logweb misalnya. Log web ini berubah menjadi perilaku browsing dengan menjalankan programMapReduce di cluster dan menghasilkan hasil yang dikumpulkan di dalam cluster yang sama.Hasil ini dikumpulkan kemudian dimuat ke dalam sistem DBMS relasional [12].

    Secara arsitektur, komponen kritikal yang memecah bagian tersebut adalah layerintegrasi yang ada di tengah. Layer integrasi ini perlu untuk diperluas ke seluruh tipe datadan domain, dan menjadi jembatan antara data penerimaan yang baru dan tradisional, danpengolahan kerangka. Kapabilitas integrasi data perlu untuk menutupi keseluruhanspektrum dari kecepatan dan frekuensi. Hal tersebut diperlukan untuk menanganikebutuhan ekstrim dan volume yang terus bertambah banyak. Oleh karena itu diperlukanteknologi yang memungkinkan untuk mengintegrasikan HDFS dan MapReduce dengan datawarehouse.

    Kerangka menghitung Hadoop didistribusikan disebut MapReduce, memanfaatkanarsitektur penyimpanan yang didistribusikan sistem file Hadoop HDFS untuk memberikanscalable, jasa pemrosesan paralel dapat diandalkan untuk algoritma sewenang-wenang [13].Pola acak MapReduce dan beberapa Sistem Hadoop Distributed File (HDFS) operasi yangmenjangkau link terkendala sangat sensitif terhadap kinerja jaringan. Fitur Hadoop itutopologi kesadaran dapat mengurangi hukuman ini untuk tingkat sederhana dalam skenariobandwidth yang hybrid. Pengamatan tambahan menunjukkan bahwa pertentangan antaraco-terletak mesin virtual merupakan sumber kinerja teratur untuk aplikasi Hadoop padavirtual cloud infrastructure [12].

    Dalam paper lain, penggunaan MapReduce dapat di kombinasikan dengan algoritmaReducing the Search Space untuk data mining dimana data yang diakses adalah data yangbesar untuk pola yang sering digunakan. Dengan memanfaatkan sifat kendala, algoritma inisangat mengurangi ruang pencarian untuk Big data mining [14].

  • Berikut adalah atribut yang dimiliki HDFS dan MapReduce :a) The Hadoop Distributed File System (HDFS)

    1. Tingginya ketersediaan : Menyediakan alur kerja mission-critical dan aplikasi.2. Kesalahan Toleransi : otomatis dan tanpa cacat pulih dari kegagalan3. Scale-Out Architecture : Dapat menambahkan server untuk meningkatkan daya

    tampung4. Akses Fleksibel : banyak dan kerangka terbuka untuk seralisasi dan jumlah file

    system5. Load Balancing : Posisi data yang cerdas untuk efisiensi maksimum dan

    pemanfaatan6. Tunable Replication : Beberapa salinan dari setiap file memberikan

    perlindungan data dan kinerja komputasi

    b) MapReduce1. Resource Manager: Mempekerjakan Data lokalitas dan server sumber daya

    untuk menentukan operasi komputasi optimal2. Optimized Scheduling: diselesaikan pekerjaan sesuai dengan prioritas3. Flexibility : Prosedur dapat ditulis di hampir semua bahasa pemrograman4. Resiliency (ketahanan) & High Availability: Beberapa pekerjaan dan pelacak

    tugas memastikan bahwa pekerjaan gagal secara independen dan me-restartsecara otomatis

    5. Scale-out Architecture: Dapat menambahkan server untuk meningkatkankekuatan pemrosesan.

    Gambar 5. Mapreduce word count Example

    III. Produk yang dihasilkanSalah satu implementasi yang terapkan pada teknologi Hadoop adalah menunjukkan kasus dari

    end to end penggunaan Hadoop. Berikut adalah hasil dari kumpulan kasus dengan menggunakanHadoop yang diambil dari beberapa paper.

  • a. Kesehatan (Menyimpan dan PengolahanMedical Records) Masalah

    Sebuah perusahaan kesehatan IT menerapkan kebijakan menyimpan 7 tahun klaim historisnamun dalam in-house sistem database mengalami kesulitan memenuhi data persyaratansaat memproses jutaan klaim setiap hari.

    SolusiSebuah sistem Hadoop memungkinkan pengarsipan tujuh tahun klaim dan pengiriman data,yang mana membutuhkan kompleks pengolahan untuk mendapatkan ke dalam formatnormal, logging terabyte data yang dihasilkan dari sistem transaksional harian, danpenyimpanan mereka di CDH untuk tujuan analisis

    Hadoop vendor : Cloudera Cluster / ukuran data : rata- rata 1TB data / hariKasus penggunaan real-time ini didasarkan pada penyimpanan dan pengolahan rekam medis dariyang diperiksa [15].

    b. Nokia Masalah

    - Berurusan dengan 100TB data terstruktur dan 500TB + data semi-terstruktur- 10s PB di Nokia, 1TB / hari

    SolusiHDFS data warehouse memungkinkan menyimpan semua data terstruktur / multi-strukturdata dan menawarkan pengolahan data di skala petabyte.

    Hadoop Vendor: Cloudera Ukuran Cluster / Data :

    - 500TB data- 10s PB di Nokia, 1TB / hari

    Nokia mengumpulkan dan menganalisis sejumlah besar data dari ponsel telepon. Use case inididasarkan pada studi kasus di mana Nokia diperlukan untuk menemukan solusi teknologi yangakan mendukung pengumpulan, penyimpanan dan analisis data yang hampir tak terbatas jenisdan volume [16].

    c. Telecoms Masalah

    Menyimpan miliaran catatan panggilan mobile dan menyediakan akses real time ke catatanpanggilan dan penagihan informasi kepada pelanggan. Penyimpanan tradisional tidak bisauntuk membuka dan menyediakan solusi biaya yang efektif.

    SolusiHBase digunakan untuk menyimpan miliaran baris rincian data panggilan telecoms. 30TBdata ditambahkan tiap bulannya.

    Hadoop Vendro: Intel Ukuran Hadoop cluster yang 100 + nodeSolusi Intel hardware dan software membantu China Mobile Guangdong membangun kinerjatinggi yang baru, dapat diandalkan dan rincian biaya tagihan penyelidikan yang efektif karenauntuk pertumbuhan pelanggan yang berkelanjutan. Use case ini didasarkan pada laporan studiIntel [17].

  • d. Penyimpanan Data Net - App Masalah

    NetApp mengumpulkan data melebihi 600.000 transaksi mingguan, yang terdiri dari logterstruktur dan sistem informasi diagnostik. Penyimpanan data tradisional sistem terbuktitidak memadai untuk melakukan capture dan memproses data ini.

    SolusiSebuah sistem Cloudera Hadoop menangkap data dan memungkinkan pemrosesan paraleldata.

    Hadoop Vendor: Cloudera Cluster / ukuran data: 30 + node; 7TB data / bulanCloudera menawarkan organisasi solusi yang sangat terukur dengan fitur penyimpananenterprise yang meningkatkan keandalan dan kinerja dan mengurangi biaya [18].

    e. Jasa Keuangan (Dodd-Frank Kepatuhan di bank) Masalah

    Solusi sebelumnya menggunakan Teradata dan IBM Netezza adalah memakan waktu dankompleks, dan pendekatan data market tidak memberikan kelengkapan data yangdibutuhkan untuk menentukan kualitas data secara keseluruhan.

    SolusiSebuah platform Cloudera + Datameer memungkinkan menganalisis triliunan catatan yangsaat ini mengakibatkan sekitar satu terabyte per bulan laporan. Hasil dilaporkan melaluidashboard kualitas data.

    Hadoop Vendor: Cloudera + Datameer Cluster / ukuran data : 20 + node; 1TB data / bulanSebuah bank ritel terkemuka menggunakan Cloudera dan Datameer untuk memvalidasikeakuratan data dan kualitas untuk mematuhi peraturan seperti Dodd-Frank [19]

    IV. KesimpulanKita berada di era Big Data, dimana setiap hari menghasilkan miliaran bahkan triliunan byte

    data yang menunjukkan bahwa data di dunia sangat banyak dan bayangkan jika dalam bentukhard berapa banyak data tersebut jika dikumpulkan, lapangan bola mugkin masih kurang. Darireview paper ini telah disoroti terkait evolusi dan kenaikan data besar menggunakan teknologiHadoop, selain itu ada HDFS yang menghasilkan beberapa replika data blok danmendistribusikan mereka pada node komputasi di seluruh cluster, dan perhitungan serta prosesyang sangat cepat, selain itu ada konsep MapReduce yang telah diimplementasikan juga untukbesar seperti mesin cluster yang terdiri dari ribuan mesin.

    Dari Teknologi-teknologi diatas, kita dapat menyimpulkan bahwa dengan data yang begitubesar tadi jika tidak di kelola dengan baik maka akan menjadi data biasa saja, yang mungkin akandihapus karena dianggap tidak terlalu penting, tetapi dengan adanya teknologi-teknologitersebut data yang tadinya menumpuk dapat di kelola dengan baik sesuai algoritma yangdigunakan sehingga menghasilkan informasi yang baru dan bermanfaat bagi yang mempunyaikepentingan untuk data tersebut, seperti Data mining, Pengambilan Keputusan, Sistem yangberbasis kepakaran dan lain sebagainya.

  • V. Referensi[1] W. Is, A. Hadoop, D. Hadoop, W. U. Hadoop, M. Guardian, I. Awards, and Z. Graduates,

    Welcome to ApacheTM HadoopTM!, Innovation, no. November 2008, pp. 20092012, 2012.[2] E. Sivaraman and R. Manickachezian, High Performance and Fault Tolerant Distributed File

    System for Big Data Storage and Processing Using Hadoop, 2014 Int. Conf. Intell. Comput.Appl., pp. 3236, 2014.

    [3] R. T. Kaushik, M. Bhandarkar, and K. Nahrstedt, Evaluation and analysis of GreenHDFS: Aself-adaptive, energy-conserving variant of the hadoop distributed file system, Proc. - 2ndIEEE Int. Conf. Cloud Comput. Technol. Sci. CloudCom 2010, pp. 274287, 2010.

    [4] J. Dean and S. Ghemawat, MapReduce: simplified data processing on large clusters, Cacm,vol. 51, no. 1, pp. 107113, 2012.

    [5] S. Ghemawat, H. Gobioff, and S.-T. Leung, The Google file system, ACM SIGOPS Oper. Syst.Rev., vol. 37, no. 5, p. 29, 2003.

    [6] K. Singh and R. Kaur, Hadoop: Addressing challenges of Big Data, Souvenir 2014 IEEE Int.Adv. Comput. Conf. IACC 2014, pp. 686689, 2014.

    [7] B. Kotiyal, A. Kumar, B. Pant, R. H. Goudar, and B. Road, Big Data: Mining of Log File throughHadoop.

    [8] B. Liu,Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. 2011.[9] H. Jrvenp and S. J. Mkinen, Empirically detecting the Hype Cycle with the life cycle

    indicators: An exploratory analysis of three technologies, 2008 IEEE Int. Conf. Ind. Eng. Eng.Manag. IEEM 2008, pp. 1216, 2008.

    [10] N. Technologies, A. Pal, P. Agrawal, and K. Jain, 2014 Fourth International Conference onCommunication Systems and Network Technologies A Performance Analysis of MapReduceTask with Large Number of Files Dataset in Big Data Using Hadoop, 2014.

    [11] A. B. Patel, M. Birla, and U. Nair, Addressing Big Data Problem Using Hadoop and MapReduce, pp. 68, 2012.

    [12] A. Mandal, Y. Xin, I. Baldine, P. Ruth, and C. Heerman, Provisioning and Evaluating Multi-domain Networked Clouds for Hadoop-based Applications, vol. di.

    [13] S. Narayan and S. Bailey, Hadoop Acceleration in an OpenFlow-based cluster, pp. 535538,2013.

    [14] C. K. Leung, Reducing the Search Space for Big Data Mining for Interesting Patterns fromUncertain Data, 2014.

    [15] S. Cloudera Customer Case, Streamlining Healthcare Connectivity with Big Data, 2012.[16] S. Cloudera Customer Case, Nokia: Using Big Data to Bridge the Virtual & Physical Worlds,

    2012.[17] P. Madiraju and Y.-Q. Zhang, Web usage data mining agent, in Proceedings of SPIE - The

    International Society for Optical Engineering, 2002, vol. 4730, pp. 224228.[18] S. Cloudera Customer Case, NetApp Improves Customer Support by Deploying Cloudera

    Enterprise, 2012.[19] S. Cloudera Customer Case, Joint Success Story: Major Retail Bank, 2012.