<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[DevOps Blog]]></title><description><![CDATA[Focuses on engineering challenges in scaling organizations.]]></description><link>https://blog.herwin.my.id</link><image><url>https://cdn.hashnode.com/uploads/logos/60f8fe313e181324dac74375/a130087c-fd43-4c52-b7a2-9556b5aeae9e.jpg</url><title>DevOps Blog</title><link>https://blog.herwin.my.id</link></image><generator>RSS for Node</generator><lastBuildDate>Tue, 14 Apr 2026 03:06:38 GMT</lastBuildDate><atom:link href="https://blog.herwin.my.id/rss.xml" rel="self" type="application/rss+xml"/><language><![CDATA[en]]></language><ttl>60</ttl><item><title><![CDATA[Big Data Solution with Google Cloud Platform - Google Cloud Jakarta 2021]]></title><description><![CDATA[Perkembangan jaman yang begitu pesat menuntut praktisi IT untuk bergerak cepat mengikuti derasnya kemajuan Teknologi yang dapat mempermudah kehidupan dan bisnis manusia, dimana era sekarang ini Data Driven merupakan salah satu kunci sukses sebuah com...]]></description><link>https://blog.herwin.my.id/big-data-solution-with-google-cloud-platform</link><guid isPermaLink="true">https://blog.herwin.my.id/big-data-solution-with-google-cloud-platform</guid><category><![CDATA[google cloud]]></category><category><![CDATA[GCP]]></category><category><![CDATA[big data]]></category><category><![CDATA[Google]]></category><dc:creator><![CDATA[Herwindra Berlian]]></dc:creator><pubDate>Sat, 24 Jul 2021 05:45:45 GMT</pubDate><enclosure url="https://cdn.hashnode.com/res/hashnode/image/upload/v1627104755844/Zg__qb0AI.png" length="0" type="image/jpeg"/><content:encoded><![CDATA[<p><strong>Perkembangan</strong> jaman yang begitu pesat menuntut praktisi IT untuk bergerak cepat mengikuti derasnya kemajuan Teknologi yang dapat mempermudah kehidupan dan bisnis manusia, dimana era sekarang ini Data Driven merupakan salah satu kunci sukses sebuah company atau startup untuk menentukan keputusan secara cepat dan akurat. yang menjadi pertanyaan adalah apa saja yang di perlu diperhatikan di tahap awal untuk membangun sebuah culture data driven yang baik?</p>
<ol>
<li>Dapat kepercayaan dari TOP Management terkait Data</li>
<li>Process Method</li>
<li>Technology Method</li>
<li>Enable People to make decision with data</li>
<li>Lakukan dari Hal yang kecil dulu saja, untuk solved the problems</li>
</ol>
<blockquote>
<p>nah ke lima poin di atas merupakan kunci dimana untuk menciptakan data driven yang baik di lakukan di tahap awal.</p>
</blockquote>
<p><strong><em>Big Data Tech Overview</em></strong></p>
<p>Big Data Technology biasanya mengacu pada file besar pada folder yang diproses menggunakan pemrosesan terdistribusi seperti Hadoop, Spark, dll. File dapat berupa teks (chat), gambar, atau data tidak terstruktur lainnya.</p>
<p>Data Warehouse biasanya mengacu pada sistem manajemen basis data yang menyimpan data terstruktur (tabel) atau semi-terstruktur (i.n. JSON) untuk tujuan analitis</p>
<blockquote>
<p>Kebanyakan orang-orang bermigrasi ke Big Data. Jika tidak. Kita mungkin kehilangan keunggulan kompetitif. Big Data tampaknya menyelesaikan kebutuhan data modern...</p>
</blockquote>
<p>Big Data Tech memang menyelesaikan masalah, tapi.. Sebagian besar kebutuhan kita (&gt;90%) sebenarnya adalah data terstruktur!
Kebutuhan seperti business intelligence dashboard and reporting, sales prediction, customer segmentation, dan lainnya</p>
<p>Karena sebagian besar data dan kebutuhan sebenarnya untuk data terstruktur.. Menyimpan data dalam teknologi data warehouse, sebenarnya jauh lebih masuk akal dibandingkan dengan menyimpan data sebagai file.</p>
<p>Karna terms big data itu huge maka scaling storage juga harus besar
Di situlah modern cloud data warehouse muncul sebagai solusi</p>
<p><img src="https://cdn.hashnode.com/res/hashnode/image/upload/v1627103637136/CwPOc9lTw.png" alt="bigquery.png" /></p>
<blockquote>
<p><strong>Modern CLoud Data Warehouse , e.g Google BigQuery</strong></p>
</blockquote>
<ul>
<li>Ukuran penyimpanan tidak terbatas = (struktur data) Big Data</li>
<li>Kekuatan pemrosesan tak terbatas tergantung skala ekonomi</li>
<li>Dapat diakses sebagai data lake, menggunakan API throughput tinggi, misal. melalui Spark</li>
<li>Mendukung data semi terstruktur. Nested dan array OK. Bahkan string JSON tidak masalah.</li>
<li>Gunakan SQL ANSI, sangat umum untuk sebagian besar orang data, bahkan non-engineers</li>
<li>Tidak ada Infrastruktur untuk dipelihara, tidak ada server untuk ditingkatkan, misal. tidak ada database ke VACUUM</li>
</ul>
<blockquote>
<p>Big Data Tech usually needs</p>
</blockquote>
<p>Skills untuk menggunakannya secara efisien. Jika kita tidak tahu cara mengoptimalkannya, maka kita akan menghabiskan banyak uang</p>
<p>Skills melakukan pengolahan dengan benar. Melakukan tugas sederhana pada teknologi big data itu sulit dan membutuhkan tingkat keterampilan tertentu, misal. untuk menghindari hotspot saat joins.</p>
<p>Padu padankan teknologi dengan kemungkinan dari kegagalan yang tinggi. Di sana Banyak teknologi data besar diletakkan di sana, dan masalah kompatibilitas selama integrasi</p>
<blockquote>
<p>Meski di Big Query itu mudah tinggal masukin data aja utk di analyst, tanpa peduli configurable node, setup spek server etc.
Yang perlu di perhatikan adalah SQL itu skill common. Jadi query harus bener optimal dan efisien</p>
</blockquote>
<p><strong>The key to successful implementation</strong></p>
<p>Investasi tersebut membuat mendapatkan ROI / Return on investment  yang baik sulit. Kita berinvestasi besar, kita harus menghasilkan besar. 
Seberapa besar Kita mendapatkan pengembalian dari data insights dan products? apakah sebesar itu? atau kita menghabiskan lebih dari yang kita dapatkan?</p>
<p>Kuncinya adalah tetap sederhana. yang paling berpengalaman, dapat memberikan teknologi sesederhana mungkin untuk memecahkan masalah.
Modern cloud data warehouse memudahkan kita. </p>
<p><strong>Tech Stack</strong>
<img src="https://cdn.hashnode.com/res/hashnode/image/upload/v1627103846803/6Lw44zHD8.jpeg" alt="techstack.JPG" /></p>
<p><strong>Data Pipeline</strong>
<img src="https://cdn.hashnode.com/res/hashnode/image/upload/v1627103961580/DVuthTNeb.jpeg" alt="techstack2.JPG" /></p>
<p><strong>Data Pipeline Details</strong>
<img src="https://cdn.hashnode.com/res/hashnode/image/upload/v1627103969849/-h9IjEe6o.jpeg" alt="techstack3.JPG" /></p>
<p><strong>Data Problem Classification</strong>
<img src="https://cdn.hashnode.com/res/hashnode/image/upload/v1627103979105/CL6VSGGXL.jpeg" alt="techstack4.JPG" /></p>
<p><strong>Data Quality Monitoring</strong>
<img src="https://cdn.hashnode.com/res/hashnode/image/upload/v1627104223433/5SFYAmvAU.jpeg" alt="techstack5.JPG" /></p>
<p><strong>Implementation Method</strong>
<img src="https://cdn.hashnode.com/res/hashnode/image/upload/v1627104419960/LAfFl5N7O.jpeg" alt="method.JPG" /></p>
<p><strong>Centralizing  Bussiness Logic with Gitlab &amp; Looker</strong>
<img src="https://cdn.hashnode.com/res/hashnode/image/upload/v1627104234101/kBDgHbeaP.jpeg" alt="techstack6.JPG" /></p>
<blockquote>
<p>7 Data Quality Best Practices</p>
</blockquote>
<ol>
<li>Top management buy-in</li>
<li>Define data quality KPI</li>
<li>Construct issue register for data (googlesheet) / Data issue register to monitor the unobserved quality</li>
<li>no manual data upload to the system</li>
<li>data dictionary creation as part of product development</li>
<li>data quality as part of data governance activity</li>
<li>occupy data owners from business &amp; engineering side</li>
</ol>
<p><em>Efisien : usecase + best practice technology</em></p>
<p>Jika data quality itu penting, sebaiknya berapa banyak porsi data cleansing di pipeline?
Data cleansing harus di buat minimalisir / 0 / tidak ada
Jangan di biarin lama lama di production data sampahnya</p>
<blockquote>
<p>Simple tech stack means: </p>
</blockquote>
<ul>
<li>Lebih sedikit (tetapi lebih dalam!) teknologi untuk dipelajari = saving time</li>
<li>Lebih sedikit teknologi untuk di optimize = saving cost</li>
<li>Lebih mudah untuk di maintain = saving skill resources</li>
</ul>
<p>Lebih mudah untuk mencapai ROI yang baik</p>
<p>Dengan catatan improvement solusi stack tidak meng cancel bisnis proses valuenya
Ketika memilih teknologi yang pas harus maping analisa dulu antara use case dan teknologi yang cocok (di klopin) dan kembali ke kebutuhan</p>
<blockquote>
<p>Manfaatkan integrasi, misalnya Google Big Query</p>
</blockquote>
<ul>
<li>Dapat dengan mudah menggabungkan kueri dengan Google Sheet. Sangat bermanfaat untuk data pemasaran &amp; keuangan</li>
<li>Integrasi dengan Google Data Catalog. Semua tabel Anda dapat dicari dan mudah ditemukan (dimana data cataloging itu untuk memudahkan untuk di cari, oleh data scientis dan data analyst</li>
<li>Dapat dengan mudah ingest / copy data dari tempat lain melalui UI seperti MySQL, GCS, S3. bahkan memiliki marketplace!</li>
<li>Mendukung data semi terstruktur. Nested dan array. Is OK. Bahkan string JSON tidak masalah. Visualisasi di Data Studio itu mudah (dan Free)</li>
</ul>
<blockquote>
<p>Gimana Utilisasi Big Query dengan optimal, bayar murah, hasil maksimal</p>
</blockquote>
<p>Know how the pricing (pay per used)
dengan tahu use case apa spesificaly, teknologi yg tepat. bisa dikontrol untuk costnya.</p>
<p>on demand pricingnya bigquery itu bukan tergantung machine, bukan slot. Tapi 2 hal : data yg disimpan dan data yg di query.
kalau store data 100GB itu -+ $2/month
1000 query each 2gb data : -+ $10/month</p>
<p>ketika data di store :
ketika data tdk disentuh, di archive doang. 90days.. bayar 50% long term pricing (automaticly)</p>
<p>data di query :
use date paritioning, menggunakan recend data yg di query baca tgl terkahir meski data 10th di simpan.
query only coloumn you need.. less column. columnar.
maerialize data. jika sering query. maka buat summary dr kompleks data.</p>
<blockquote>
<p>Cost Optimization lainnya</p>
</blockquote>
<p><em>Freebies:</em></p>
<ul>
<li>Storage dibawah 10GB/month is free</li>
<li>Query 1TB/month is free/ misal 500query masing2 2GB</li>
</ul>
<p><em>Control what you pay using cost control</em></p>
<ul>
<li>Project level quota / user level query quota, set max cost per user or per project</li>
<li>Set cost restriction per query, set max cost per query</li>
<li>Use flat rate for fixed number of processing power per one given time</li>
</ul>
<h3 id="source-gdg-indonesia">Source : GDG Indonesia</h3>
<p> <a target="_blank" href="https://cloud.google.com/blog/products/data-analytics/cost-optimization-best-practices-for-bigquery">Cost Optimization for BigQuery</a> </p>
]]></content:encoded></item></channel></rss>