Key Takeaways
- Masalah teknis Facebook sangat disayangkan, tetapi masalahnya mungkin akan diselesaikan lebih cepat jika tidak bergantung pada begitu banyak sistem yang saling berhubungan.
- Tidak ada cara untuk mencegah kegagalan sistem sepenuhnya, tetapi ada cara untuk menguranginya.
- Memiliki rencana cadangan ketika (bukan jika, ketika) sistem gagal dapat membuat perbedaan antara 'mengganggu' dan 'bencana.'
Bencana Facebook baru-baru ini menunjukkan bagaimana sistem yang saling berhubungan pasti akan gagal dan mengapa kita tidak boleh menggunakannya untuk semuanya.
Kehilangan Facebook, WhatsApp, dan Instagram selama beberapa jam pada hari Senin tidak nyaman, merusak bisnis, dan dalam beberapa kasus, hampir menjadi bencana. Menurut Facebook, itu semua karena perubahan konfigurasi pada router koordinator jaringannya.
Ini adalah penjelasan yang masuk akal, tetapi fakta bahwa satu kesalahan seperti itu tidak hanya dapat membuat Facebook tetapi sistem milik Facebook lainnya berhenti bekerja agak mengkhawatirkan.
Satu perubahan konfigurasi router yang salah menyebabkan beberapa layanan, dan bahkan headset VR, berhenti bekerja sepenuhnya. Selain itu, menurut pengakuan Facebook sendiri, hal itu juga memiliki efek cascading pada bagaimana pusat data perusahaan berkomunikasi, membuat semua layanan mereka terhenti.
"Ketergantungan pada sistem yang saling berhubungan memang membawa serta risiko yang melekat pada sistem atau bahkan kegagalan layanan, " kata Francesco Altomare, insinyur penjualan teknis senior di GlobalDots, dalam wawancara email dengan Lifewire, "Untuk mengatasi risiko yang menakutkan ini, perusahaan menggunakan prinsip SRE (System Reliability Engineering), serta alat lainnya, yang semuanya menangani berbagai tingkat redundansi yang terpasang di setiap lapisan infrastruktur sistem."
Apa yang Bisa Salah
Perlu dicatat bahwa ketika sistem seperti itu gagal, biasanya membutuhkan badai yang sempurna dari hal-hal yang salah. Ini tidak seperti rumah kartu yang menunggu untuk jatuh dan lebih seperti lubang pembuangan termal yang terbuka di stasiun luar angkasa seukuran bulan kecil.
Kebanyakan perusahaan mengambil langkah-langkah untuk mencoba dan memastikan bahwa satu hal yang dapat membuat segalanya menjadi kacau tidak pernah terjadi-tetapi terlepas dari itu, itu bisa terjadi.
"Kegagalan yang tidak terduga adalah bagian dari bisnis dan dapat muncul sebagai akibat dari kelalaian pekerja, kesalahan pada jaringan penyedia layanan internet, atau bahkan layanan penyimpanan cloud yang mengalami masalah," kata Sally Stevens, salah satu pendiri FastPeopleSearch, dalam wawancara email.
"…Selama langkah-langkah yang diperlukan untuk melindungi sistem-seperti backup, router di tempat, dan akses berjenjang-dilakukan, kegagalan ini sangat kecil kemungkinannya." Meskipun dengan pasukan brankas, masih mungkin bagi lynchpin untuk gagal.
Jika sistem yang mengontrol hal-hal seperti kontak utama, peralatan, pintu, dll., gagal, hasilnya bisa signifikan. Dari ketidaknyamanan ringan hingga bencana besar, tergantung pada seberapa banyak individu dan perusahaan bergantung pada semuanya.
"Ada juga risiko peretas masuk ke sistem dari perangkat yang paling tidak terlindungi, seperti lemari es dan pemanggang roti, " tambah Stevens, "yang dapat menyebabkan pencurian data dan ransomware."
Bagaimana Kita Dapat Mempersiapkan
Tidak ada cara untuk menjamin bahwa suatu sistem tidak akan pernah gagal, tetapi ada langkah-langkah yang dapat diambil untuk mengurangi kemungkinan terjadinya kegagalan atau mengatasi kegagalan dengan lebih lancar. Kombinasi dari dua pendekatan yang menggabungkan fail-safe dan penanggulangan dengan rencana kontingensi dan sistem cadangan akan ideal.
"Untuk menghilangkan bahaya yang diciptakan oleh produk dan layanan pihak ketiga yang ditangani secara efektif, peran dan tugas terkait Manajemen Risiko Pihak Ketiga harus digariskan secara ketat," kata Daniela Sawyer, pendiri dan kepala teknologi FindPeopleFast, dalam wawancara email, "Untuk berkembang di lingkungan baru ini, manajer risiko harus memahami bagian penting dari ekosistem yang sedemikian canggih."
Apa yang terjadi dengan Facebook, WhatsApp, dan Instagram sangat disayangkan, tetapi juga semoga membuka mata. Orang-orang yang mengandalkan sistem yang saling berhubungan harus memahami bahwa hal yang benar yang salah dapat mengganggu segalanya. Dan langkah-langkah harus dilakukan (atau diteliti dan disempurnakan) untuk membuat gangguan tersebut lebih kecil kemungkinannya dan kurang berdampak.
Dalam kasus Facebook, masalahnya bukanlah masalah router, melainkan hampir seluruh ekosistemnya terhubung ke yang lainnya. Jadi, dengan turunnya Facebook (layanan), Facebook (perusahaan) harus menghabiskan lebih banyak waktu dan energi hanya untuk mengatur dan menangani masalah tersebut. Jika tidak menggunakan sistem yang saling berhubungan dan berakar dalam atau memiliki rencana cadangan untuk menangani pemadaman seperti itu, kemungkinan akan membutuhkan waktu yang jauh lebih sedikit untuk memperbaikinya.