Dengan pengunjung yang sangat banyak per harinya, bagaimana Anda berfikir Facebook dapat menangani begitu banyak data dan hiruk pikuk dengan baik? Apache Hadoop bersama dengan banyak teknologi, antara lain Pig, Hive, HBase dan sebagainya adalah solusi untuk permasalahan tersebut yang dapat diterapkan pada komputer-komputer komoditas di tempat Anda.
Mengolah Big Data
HBase dan Hive dapat digunakan secara bersama di dalam kluster Hadoop yang sama untuk memaksimalkan keunggulan masing-masing produk. Dengan demikian, pengolahan big data dapat dilakukan secara realtime dengan lebih mudah.
— Pig, Hive dan Hbase: Mengolah Big Data
Pig
Apache Pig is a platform for analyzing large data sets that consists of a high-level language for expressing data analysis programs, coupled with infrastructure for evaluating these programs. The salient property of Pig programs is that their structure is amenable to substantial parallelization, which in turns enables them to handle very large data sets.
https://pig.apache.org/
- Perangkat lunak yang meng-abstraksi map reduce
- Bahasa scripting pig latin
- Memiliki sejumlah perintah untuk trasformasi data
- Dapat dijalankan secara interaktif maupun batch
- Dapat dikembangkan dengan membut fungsi berbasis pemrograman Java
- Pemrograman berbasis aliran data
Hive
The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.
https://hive.apache.org/
- Framework data warehousing yang berjalan di atas Hadoop
- Dibuat oleh tim facebook
- Dibuat untuk analisis yang terbiasa dengan SQL tetapi tidak terbiasa dengan pemrograman Java
- Saat ini menjadi aplikasi yang digunakan oleh banyak industri sebagai platform pemrosesan berskala besar
- Schema on Read, berbeda dengan RDBMS yang menggunakan Schema on Write
- Tidak ada update, transaction dan index
HBase
Apache HBase™ is the Hadoop database, a distributed, scalable, big data store. Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project’s goal is the hosting of very large tables — billions of rows X millions of columns — atop clusters of commodity hardware. Apache HBase is an open-source, distributed, versioned, non-relational database modeled after Google’s Bigtable: A Distributed Storage System for Structured Data by Chang et al. Just as Bigtable leverages the distributed data storage provided by the Google File System, Apache HBase provides Bigtable-like capabilities on top of Hadoop and HDFS.
https://hbase.apache.org/
- Database terdistribusi berorientasi kolom yang disimpan di HDFS, berbeda dengan RDBMS yang biasanya berbasis baris
- Digunakan pada proses baca tulis random dan realtime berskala besar
- Bukan relasional
- Tidak mendukung SQL
- Banyak digunakan untuk tabel web
- Konsep:
- Data disimpan dalam bentuk tabel
- Kolom kunci berupa byte array sehingga bisa menyimpan tipe apapun
- Kolom dikelompokkan menjadi family. Setiap anggota family dipisahkan dengan tanda titik dua (:)
- Setiap kolom berkumpul di sistem file
- Tabel dipartisi horisontal secara otomatis ke banyak server
- Setiap sel memiliki timestamp
- Locking per sel
- Karakteristik:
- Tidak ada index
- Partisi terjadi secara otomatis
- Skalabilitas horisontal, linear dan otomatis
- Perangkat keras komoditas
- Fault tolerance
- Pemrosesan batch
Kerja Bareng Hive-HBase?
Berdasarkan informasi yang dilansir dari mindmajix.com, bahwa Hive dan Hbase dapat digunakan secara bersama-sama untuk memaksimalkan kelebihan masing-masing.
- Dikatakan bahwa merupakan pilihan yang baik ketika menggunakan Hive sebagai perangkat ETL untuk memasukkan data secara batch dan kemudian menjalankan query yang merupakan data gabungan yang ada di tabel HBase dan yang ada di sistem HDFS
- Memungkinkan untuk menuliskan query berbasis HiveQL pada tabel HBase
- Apache Hive memiliki library khusus untuk berinteraksi dengan HBase sebagai mediator antara Hive dan HBase
Pelatihan hari keempat Big Data Administration with Hadoop (5/8/2021) sebagai bagian dari penggunaan dana hibah PKKM tahun anggaran 2021 dengan mentor Nuzul Fauzan M. [bst]
Sumber:
2 replies on “Pig, Hive dan Hbase: Mengolah Big Data”
[…] Dalam rangka pengembangan Data Science / Big Data, maka Universitas ‘Aisyiyah (UNISA) Yogyakarta membentuk Tim Task Force Pengembangan Data Science Universitas ‘Aisyiyah Yogyakarta pada tanggal 27 Desember 2021. Alhamdulillah-nya, BPTSI telah melaksanakan pelatihan pada https://pdsi.unisayogya.ac.id/administrasi-big-data-studi-kasus-hadoop/, https://pdsi.unisayogya.ac.id/flume-sqoop-dan-kafka-mengumpulkan-dan-memasukkan-big-data/ dan https://pdsi.unisayogya.ac.id/pig-hive-dan-hbase-mengolah-big-data/. […]
[…] Dalam rangka pengembangan Data Science / Big Data, maka Universitas ‘Aisyiyah (UNISA) Yogyakarta membentuk Tim Task Force Pengembangan Data Science Universitas ‘Aisyiyah Yogyakarta pada tanggal 27 Desember 2021. Alhamdulillah-nya, BPTSI telah melaksanakan pelatihan pada https://pdsi.unisayogya.ac.id/administrasi-big-data-studi-kasus-hadoop/, https://pdsi.unisayogya.ac.id/flume-sqoop-dan-kafka-mengumpulkan-dan-memasukkan-big-data/ dan https://pdsi.unisayogya.ac.id/pig-hive-dan-hbase-mengolah-big-data/. […]