Skip to main content

Command Palette

Search for a command to run...

Big Data Solution with Google Cloud Platform - Google Cloud Jakarta 2021

Published
5 min read
Big Data Solution with Google Cloud Platform - Google Cloud Jakarta 2021

Perkembangan jaman yang begitu pesat menuntut praktisi IT untuk bergerak cepat mengikuti derasnya kemajuan Teknologi yang dapat mempermudah kehidupan dan bisnis manusia, dimana era sekarang ini Data Driven merupakan salah satu kunci sukses sebuah company atau startup untuk menentukan keputusan secara cepat dan akurat. yang menjadi pertanyaan adalah apa saja yang di perlu diperhatikan di tahap awal untuk membangun sebuah culture data driven yang baik?

  1. Dapat kepercayaan dari TOP Management terkait Data
  2. Process Method
  3. Technology Method
  4. Enable People to make decision with data
  5. Lakukan dari Hal yang kecil dulu saja, untuk solved the problems

nah ke lima poin di atas merupakan kunci dimana untuk menciptakan data driven yang baik di lakukan di tahap awal.

Big Data Tech Overview

Big Data Technology biasanya mengacu pada file besar pada folder yang diproses menggunakan pemrosesan terdistribusi seperti Hadoop, Spark, dll. File dapat berupa teks (chat), gambar, atau data tidak terstruktur lainnya.

Data Warehouse biasanya mengacu pada sistem manajemen basis data yang menyimpan data terstruktur (tabel) atau semi-terstruktur (i.n. JSON) untuk tujuan analitis

Kebanyakan orang-orang bermigrasi ke Big Data. Jika tidak. Kita mungkin kehilangan keunggulan kompetitif. Big Data tampaknya menyelesaikan kebutuhan data modern...

Big Data Tech memang menyelesaikan masalah, tapi.. Sebagian besar kebutuhan kita (>90%) sebenarnya adalah data terstruktur! Kebutuhan seperti business intelligence dashboard and reporting, sales prediction, customer segmentation, dan lainnya

Karena sebagian besar data dan kebutuhan sebenarnya untuk data terstruktur.. Menyimpan data dalam teknologi data warehouse, sebenarnya jauh lebih masuk akal dibandingkan dengan menyimpan data sebagai file.

Karna terms big data itu huge maka scaling storage juga harus besar Di situlah modern cloud data warehouse muncul sebagai solusi

bigquery.png

Modern CLoud Data Warehouse , e.g Google BigQuery

  • Ukuran penyimpanan tidak terbatas = (struktur data) Big Data
  • Kekuatan pemrosesan tak terbatas tergantung skala ekonomi
  • Dapat diakses sebagai data lake, menggunakan API throughput tinggi, misal. melalui Spark
  • Mendukung data semi terstruktur. Nested dan array OK. Bahkan string JSON tidak masalah.
  • Gunakan SQL ANSI, sangat umum untuk sebagian besar orang data, bahkan non-engineers
  • Tidak ada Infrastruktur untuk dipelihara, tidak ada server untuk ditingkatkan, misal. tidak ada database ke VACUUM

Big Data Tech usually needs

Skills untuk menggunakannya secara efisien. Jika kita tidak tahu cara mengoptimalkannya, maka kita akan menghabiskan banyak uang

Skills melakukan pengolahan dengan benar. Melakukan tugas sederhana pada teknologi big data itu sulit dan membutuhkan tingkat keterampilan tertentu, misal. untuk menghindari hotspot saat joins.

Padu padankan teknologi dengan kemungkinan dari kegagalan yang tinggi. Di sana Banyak teknologi data besar diletakkan di sana, dan masalah kompatibilitas selama integrasi

Meski di Big Query itu mudah tinggal masukin data aja utk di analyst, tanpa peduli configurable node, setup spek server etc. Yang perlu di perhatikan adalah SQL itu skill common. Jadi query harus bener optimal dan efisien

The key to successful implementation

Investasi tersebut membuat mendapatkan ROI / Return on investment yang baik sulit. Kita berinvestasi besar, kita harus menghasilkan besar. Seberapa besar Kita mendapatkan pengembalian dari data insights dan products? apakah sebesar itu? atau kita menghabiskan lebih dari yang kita dapatkan?

Kuncinya adalah tetap sederhana. yang paling berpengalaman, dapat memberikan teknologi sesederhana mungkin untuk memecahkan masalah. Modern cloud data warehouse memudahkan kita.

Tech Stack techstack.JPG

Data Pipeline techstack2.JPG

Data Pipeline Details techstack3.JPG

Data Problem Classification techstack4.JPG

Data Quality Monitoring techstack5.JPG

Implementation Method method.JPG

Centralizing Bussiness Logic with Gitlab & Looker techstack6.JPG

7 Data Quality Best Practices

  1. Top management buy-in
  2. Define data quality KPI
  3. Construct issue register for data (googlesheet) / Data issue register to monitor the unobserved quality
  4. no manual data upload to the system
  5. data dictionary creation as part of product development
  6. data quality as part of data governance activity
  7. occupy data owners from business & engineering side

Efisien : usecase + best practice technology

Jika data quality itu penting, sebaiknya berapa banyak porsi data cleansing di pipeline? Data cleansing harus di buat minimalisir / 0 / tidak ada Jangan di biarin lama lama di production data sampahnya

Simple tech stack means:

  • Lebih sedikit (tetapi lebih dalam!) teknologi untuk dipelajari = saving time
  • Lebih sedikit teknologi untuk di optimize = saving cost
  • Lebih mudah untuk di maintain = saving skill resources

Lebih mudah untuk mencapai ROI yang baik

Dengan catatan improvement solusi stack tidak meng cancel bisnis proses valuenya Ketika memilih teknologi yang pas harus maping analisa dulu antara use case dan teknologi yang cocok (di klopin) dan kembali ke kebutuhan

Manfaatkan integrasi, misalnya Google Big Query

  • Dapat dengan mudah menggabungkan kueri dengan Google Sheet. Sangat bermanfaat untuk data pemasaran & keuangan
  • Integrasi dengan Google Data Catalog. Semua tabel Anda dapat dicari dan mudah ditemukan (dimana data cataloging itu untuk memudahkan untuk di cari, oleh data scientis dan data analyst
  • Dapat dengan mudah ingest / copy data dari tempat lain melalui UI seperti MySQL, GCS, S3. bahkan memiliki marketplace!
  • Mendukung data semi terstruktur. Nested dan array. Is OK. Bahkan string JSON tidak masalah. Visualisasi di Data Studio itu mudah (dan Free)

Gimana Utilisasi Big Query dengan optimal, bayar murah, hasil maksimal

Know how the pricing (pay per used) dengan tahu use case apa spesificaly, teknologi yg tepat. bisa dikontrol untuk costnya.

on demand pricingnya bigquery itu bukan tergantung machine, bukan slot. Tapi 2 hal : data yg disimpan dan data yg di query. kalau store data 100GB itu -+ $2/month 1000 query each 2gb data : -+ $10/month

ketika data di store : ketika data tdk disentuh, di archive doang. 90days.. bayar 50% long term pricing (automaticly)

data di query : use date paritioning, menggunakan recend data yg di query baca tgl terkahir meski data 10th di simpan. query only coloumn you need.. less column. columnar. maerialize data. jika sering query. maka buat summary dr kompleks data.

Cost Optimization lainnya

Freebies:

  • Storage dibawah 10GB/month is free
  • Query 1TB/month is free/ misal 500query masing2 2GB

Control what you pay using cost control

  • Project level quota / user level query quota, set max cost per user or per project
  • Set cost restriction per query, set max cost per query
  • Use flat rate for fixed number of processing power per one given time

Source : GDG Indonesia

Cost Optimization for BigQuery