Google Cloud Mengalami Gangguan Besar Selama 3 Jam Akibat Bug Null Pointer dan Penanganan Error yang Buruk

Tim Editorial BigGo
Google Cloud Mengalami Gangguan Besar Selama 3 Jam Akibat Bug Null Pointer dan Penanganan Error yang Buruk

Google Cloud mengalami salah satu gangguan paling signifikan dalam ingatan terakhir pada 12 Juni 2025, berlangsung sekitar 3 jam dan mempengaruhi berbagai produk Google Cloud dan Workspace . Insiden ini dimulai pada pukul 10:49 waktu Pasifik dan disebabkan oleh kombinasi kesalahan pemrograman dasar dan praktik deployment yang buruk yang dianggap mengejutkan amatir oleh banyak komunitas teknologi untuk perusahaan sekaliber Google .

Kronologi Insiden:

  • Waktu Mulai: 12 Juni 2025, 10:49 AM Pacific Time
  • Durasi: Total 3 jam
  • Akar Masalah Teridentifikasi: Dalam 10 menit
  • Penerapan Red Button: 25 menit dari awal insiden
  • Rollout Red Button Selesai: 42 menit dari awal insiden
  • Pemulihan Penuh ( us-central-1 ): 2 jam 40 menit

Akar Penyebab: Serangkaian Kesalahan yang Dapat Dicegah

Gangguan ini berasal dari tiga masalah mendasar yang berkembang menjadi gangguan layanan global. Pertama, Google men-deploy fitur baru ke sistem Service Control mereka tanpa perlindungan feature flag yang tepat, artinya fitur tersebut langsung aktif secara global dalam hitungan detik alih-alih diluncurkan secara bertahap. Kedua, ketika data kebijakan yang berisi field kosong dimasukkan ke dalam database Spanner mereka, kode gagal menangani nilai null dengan benar, menyebabkan null pointer dereference yang membuat crash pada service binaries. Akhirnya, ketika sistem mencoba pulih, hal ini menciptakan efek thundering herd yang membebani infrastruktur dasar karena kurangnya mekanisme retry yang tepat dan exponential backoff.

Komunitas teknologi sangat mengkritik kesalahan-kesalahan ini, mencatat bahwa hal tersebut merepresentasikan kegagalan engineering dasar alih-alih masalah sistem terdistribusi yang kompleks. Banyak developer menunjukkan bahwa null pointer exception, penanganan error yang tidak memadai, dan kebijakan retry yang hilang adalah masalah buku teks yang seharusnya dapat ditangkap melalui proses testing dan code review yang tepat.

Standar Engineering Google Mendapat Sorotan

Insiden ini telah memicu perdebatan sengit tentang apakah standar engineering Google telah menurun dari waktu ke waktu. Para kritikus mencatat ironi bahwa Google secara harfiah menulis buku tentang Site Reliability Engineering ( SRE ), namun gagal mengikuti banyak praktik yang diuraikan dalam publikasi mereka sendiri. Gangguan ini melanggar beberapa prinsip fundamental termasuk gradual rollout, penanganan error yang tepat, testing komprehensif, dan mekanisme fail-safe.

Ini benar-benar hal tingkat amatir: NPE, tidak ada penanganan error, tidak ada exponential backoff, tidak ada test coverage, tidak ada testing di staging, tidak ada gradual rollout, fail deadly. Saya membaca buku SRE mereka, semua hal ini ada di sana.

Beberapa pengamat industri menyarankan bahwa PHK baru-baru ini dan perubahan budaya di Google mungkin telah berkontribusi pada terburu-burunya fitur ke produksi tanpa perlindungan yang memadai. Yang lain berargumen bahwa insiden ini mengungkapkan bahwa bahkan perusahaan teknologi tingkat atas tidak kebal terhadap kesalahan pemrograman dasar, menantang persepsi bahwa perusahaan FAANG mewakili puncak keunggulan engineering.

The Billion-Dollar Mistake Menyerang Lagi

Null pointer dereference yang menjadi inti gangguan ini merepresentasikan apa yang oleh ilmuwan komputer Tony Hoare terkenal disebut sebagai kesalahan miliaran dolar miliknya - penemuan null reference. Bahasa pemrograman modern seperti Rust telah dirancang untuk mencegah kesalahan semacam itu melalui sistem tipe mereka, yang mengarah pada diskusi baru tentang apakah infrastruktur kritis harus ditulis ulang dalam bahasa yang memory-safe.

Namun, komunitas sebagian besar setuju bahwa pilihan bahasa pemrograman bukanlah masalah utama di sini. Masalah sebenarnya adalah proses deployment yang memungkinkan jalur kode yang tidak diuji untuk langsung aktif secara global tanpa validasi yang tepat. Bahkan jika masalah null pointer telah ditangani dengan baik, replikasi global instan dari perubahan konfigurasi menciptakan situasi berbahaya di mana bug apa pun dapat segera mempengaruhi semua pengguna di seluruh dunia.

Produk Google Cloud yang Terdampak: Identity and Access Management, Cloud Build, Cloud Key Management Service, Google Cloud Storage, Cloud Monitoring, Google Cloud Dataproc, Cloud Security Command Center, Artifact Registry, Resource Manager API, Dataproc Metastore, VMware Engine, Dataplex, Migrate to Virtual Machines, Google BigQuery, Google Cloud Deploy, Filestore, Media CDN, Cloud Asset Inventory, Disks/Local SSD, Google Cloud NetApp Volumes, Looker (Google Cloud Core), Secret Manager, Cloud Functions, Traffic Director

Pelajaran yang Dipetik dan Jalan ke Depan

Respons Google mencakup daftar komprehensif perbaikan yang mereka rencanakan untuk diimplementasikan, termasuk memodularisasi arsitektur Service Control mereka untuk fail open alih-alih crash sepenuhnya, menegakkan perlindungan feature flag untuk semua perubahan kritis, dan meningkatkan praktik testing mereka untuk menangkap edge case seperti penanganan data null. Mereka juga berkomitmen untuk memperlambat replikasi data global untuk memberikan waktu bagi validasi dan deteksi masalah.

Insiden ini berfungsi sebagai pengingat bahwa bahkan perusahaan teknologi paling canggih dapat menjadi korban kesalahan engineering fundamental. Meskipun post-mortem detail Google dan komitmen untuk perbaikan patut dipuji, gangguan ini tidak diragukan lagi telah merusak kepercayaan pelanggan dan kemungkinan melanggar banyak Service Level Agreement, berpotensi merugikan baik Google maupun pelanggan mereka jutaan dolar Amerika Serikat dalam kehilangan pendapatan dan penalti.

Referensi: Service Health