Big Data adalah sebuah sistem teknologi yang diperkenalkan untuk menanggulangi 'ledakan informasi' seiring dengan semakin bertumbuhnya ekosistem pengguna perangkat mobile dan data internet.
Karakteristik big data ada tiga yaitu:
- Volume, ini berkaitan dengan ukuran media penyimpanan data yang sangat besar atau mungkin tak terbatas.
- Velocity, Big data memiliki aliran data yang yang cepat dan real time. Velocity dapat diartikan sebagai kecepatan proses.
- Variety, Big data memiliki bentuk format data yang beragam baik terstruktur ataupun tidak terstruktur dan bergantung pada banyaknya sumber data.
Klasifikasi Data Teknologi
Big Data memiliki kemampuan untuk menangani berbagai variasi data. Secara umum ada 2 kelompok data yang harus dikelola, yaitu :
- Data terstruktur, Kelompok data yang memiliki tipe data, format, dan struktur yang telah terdefinisi. Sumber datanya dapat berupa data transaksional, OLAP data, tradisional RDBMS, file CSV, spreadsheets
- Data tidak terstruktur, Kelompok data tekstual dengan format tidak menentu atau tidak memiliki struktur melekat, sehingga untuk menjadikannya data terstruktur membutuhkan usaha, tools, dan waktu yang lebih. Data ini dihasilkan oleh aplikasi-aplikasi internet, seperti data URL log, media sosial, e-mail, blog, video, dan audio.
Tahapan Pengelolaan Big Data
Berikut ini adalah 4 tahap pengelolaan Big Data serta perangkat bantu (tools) yang dapat dimanfaatkan untuk mendukung pemrosesan pada tiap tahap:
- Acquired, Berhubungan dengan sumber dan cara mendapatkan data.
- Accessed, Berhubungan dengan daya akses data; data yang sudah dikumpulkan memerlukan tata kelola, integrasi, storage dan computing agar dapat dikelola untuk tahap berikutnya. Perangkat untuk pemrosesan (processing tools) menggunakan Hadoop, Nvidia CUDA, Twitter Storm, dan GraphLab. Sedangkan untuk manajemen penyimpanan data (storage tools) menggunakan Neo4J, Titan, dan HDFS.
- Analytic, Berhubungan dengan informasi yang akan didapatkan, hasil pengelolaan data yang telah diproses. Analitik yang dilakukan dapat berupa descriptive (penggambaran data), diagnostic (mencari sebab akibat berdasar data), predictive (memprediksi kejadian dimasa depan) maupun prescriptive analytics (merekomendasikan pilihan dan implikasi dari setiap opsi). Tools untuk tahap analitik menggunakan MLPACK dan Mahout.
- Application, Terkait visualisasi dan reporting hasil dari analitik. Tools untuk tahap ini menggunakan RStudio.
Pemanfaatan Big Data di berbagai sektor :
- Sektor Bisnis, Perusahaan-perusahaan yang bergerak dalam sektor bisnis memiliki orientasi utama pada pencapaian margin laba setinggi mungkin (profit oriented).
- Sektor Layanan Publik, Perusahaan atau institusi yang yang berada pada sektor layanan publik lazimnya memiliki orientasi utama pada pencapaian kepuasan klien/ pelanggan
- Platform, Seperti data pergudangan, toko web atau platform TI, infrastruktur untuk data yang besar memiliki kebutuhan yang unik.
Aplikasi Big Data
Beberapa contoh framework big data yaitu:
- Apache Hadoop, Hadoop adalah proyek dengan kode sumber terbuka yang dikelola oleh Apache Software Foundation. Hadoop digunakan untuk perhitungan yang andal, dapat diukur, didistribusikan, tetapi juga dapat dieksploitasi sebagai penyimpanan file dengan tujuan umum yang dapat menyimpan petabyte data.
- Apache Spark, Ini adalah kerangka kerja open-source yang dibuat sebagai solusi yang lebih maju dibandingkan dengan Apache Hadoop - kerangka awal yang dibangun khusus untuk bekerja dengan Big Data. Perbedaan utama antara kedua solusi ini adalah model pengambilan data.
- Apache Hive, dibuat oleh Facebook untuk menggabungkan skalabilitas salah satu alat big data yang paling populer dan banyak diminati, MapReduce dan aksesibilitas SQL.
- MapReduce, adalah algoritme untuk pemrosesan paralel volume data mentah besar yang diperkenalkan oleh Google pada tahun 2004. MapReduce melihat data sebagai jenis entri yang dapat diproses dalam tiga tahap: Peta (pra-pemrosesan dan penyaringan data), Shuffle (node pekerja mengurutkan data - setiap node pekerja sesuai dengan satu kunci output yang dihasilkan dari fungsi peta), dan Reduce (fungsi pengurangan diatur oleh pengguna dan mendefinisikan hasil akhir untuk kelompok yang terpisah dari data output.
- Apache Storm, adalah solusi terkemuka yang berfokus pada bekerja dengan aliran data besar secara real time. Fitur utama Storm adalah skalabilitas (tugas pemrosesan didistribusikan oleh node cluster dan mengalir di setiap node) dan kemampuan memulihkan segera setelah downtime (dengan demikian, tugas sedang dialihkan ke node pekerja lain jika salah satu node sedang down).
0 comments: