Nano Teknoloji HaberleriTeknoloji

Facebook’ta Çalışan Türk Mühendis Çöküş Gecesini Anlattı

ÖZEL HABER – Dünyanın en güçlü şirketlerinden Facebook, tarihin en büyük internet krizini yaşadığında milyarlarca insan iletişimden yoksun kaldı. Yaklaşık 8 saat süren kesinti sebebi ile şirket 60 milyon dolar zarar etti. Bu rakam gözünüze büyük görünebilir elbette, ancak okyanusun dibine kendi internet hattını döşeyen, yılda 30 milyar dolara yakın para kazanan bir şirket için devede kulak kalıyor.

Peki o gece ne oldu, ne oldu da bir anda Facebook internetin altyapısından silindi, nasıl oldu da mühendisleri -adeta bir mağara adamı gibi- kendi şirketlerinin koruma kalkanlarını kesmek zorunda kaldı? Bundan 7 ay önce Uber’den Facebook’a Kıdemli Yazılım Mühendisi olarak transfer olan Eren Algan çöküş gecesi yaşananları Webtekno’ya anlattı.

Facebook, Instagram, WhatsApp ve Oculus neden çöktü? Başlamadan önce bilmeniz gereken iki kavram var: BGP ve DNS

  • BGP (Border Gateway Protocol): Kısaca ‘internetin posta servisi’ diyebiliriz. WhatsApp’tan bir mesaj göndermek istediğinizde bu bilgiyi en hızlı/verimli şekilde karşıdaki kişiye göndermek için çalışır.
  • DNS (Domain Name System): Kısaca ‘internetin telefon rehberi’ diyebiliriz. Tarayıcıya “facebook.com” yazdığınızda bu adresin hangi IP’ye (bir nevi kimlik numarasına) sahip olduğunu söyleyen sistemdir.

Eren Algan, “Herhangi bir internet adresine ulaşabilmeniz için bu iki sistem de gereklidir. DNS, size yazdığınız karakterlerin hangi IP’ye ait olduğunu söylerken, sizin bulunduğunuz ağdan gitmek istediğiniz ağa en hızlı biçimde nasıl gideceğinizi söyleyen sistem ise BGP’dir.” diyor. Basit bir örnekle anlatalım: WhatsApp’a girdiniz arama kutusuna bir kişinin adını yazdınız; sonuçlar karşınıza geldi ve kişi adı telefon numarası/profili ile eşleşti (DNS). Kişiyi aradınız, komut bilgisi önce size en yakın baz istasyonuna, ardından en yakın uydu ve karşıdaki kişiye en yakın baz istasyonuna son olarak telefonuna ulaştı (BGP).

Sonun başlangıcı: Sadece bir mühendis ve bir hatalı komut!

Şirketi Facebook hakkında “Kendi bilgi işlem merkezleri (data center’ları) olan, devasa bir ağ yapısına sahip bir kurum” diyen Eren Algan “Hatta ve hatta Pasifik Okyanusu’nun altindan kendi fiber optik kablolarini geçiren muazzam boyutta bir şirketten söz ediyoruz. Bütün bu kablolu ağlar ise Facebook’un ‘backbone network’ adını verdiği bir kablolama sistemi üzerinden geçiyor.” diyor.

Yani çoğunlukla kablosuz olarak bağlantı kurduğumuz Facebook, aslında internetin doğası gereği tüm sistemlerini kablolara borçlu. Dolayısı ile şirket, bu kablolu altyapıya düzenli olarak bakım yapması gerekiyor, sadece bu işle ilgilenen mühendislik ekipleri düzenli olarak testler gerçekleştiriyor.

“4 Ekim’de rutin bir ‘backbone’ bakım işlemi sırasında bir mühendis, bu ağın ne kadar kapasitesinin olduğunu anlamak için bir komut çalıştırdı. Sonun başlangıcı olan bu komut, istenmeyen bir biçimde ‘backbone’ ağının bütün bağlantılarını alaşağı etti; Facebook’u bütün bilgi işlem merkezlerini çevrimdışı hale getirdi.

Talihsizlikler serüveni devam ediyor: Eren, Facebook’un internetten -gerçek anlamda- yok olduğu o anı şöyle anlattı

Facebook sistemlerinin normalde bu tarz hataları engellemek üzerine kurulu olduğunu söyleyen Eren Algan; “Ancak talihsizlik olacak ki bu hataları anlamak için geliştirilen yazılımda da bir hata meydana geldi, bu nedenle mühendisin girdiği hatalı komut durdurulamadı. Sonucunda Facebook’un bilgi işlem merkezleri ile internet arasındaki bağ koptu.” diyor:

“Facebook’un DNS sunucuları; eğer kendi bilgi işlem merkezlerine ulaşamazsa, kendilerini ‘ulaşılamaz/hatalı’ olarak işaretliyor, durumu posta servisine (BGP’ye) bildiriyor. Çöküş gecesi ise DNS sunucuları ‘Biz evde yokuz, hatta ev bile yok’ anlamına gelen hata verdi.”

Facebook’un bir anda çağlar öncesine dönüşü: Spiral testereyle sunucu kapılarını kesip, bir hırsız gibi kendi şirketine girmek…

Facebook ve bağlı tüm uygulamalarında bir sorun olduğunu anlayan hemen mühendislerin işe koyulduğunu söyleyen Eren Algan “Hiç de hoş olmayan diğer bir sürprizle karşılaştılar. Bütün bilgi işlem merkezleri çevrimdışı olduğu için hiç kimsenin internet üzerinden müdahale etme ihtimali yoktu.” diyor. Yani dünyanın en büyük internet şirketlerinden Facebook’un çalışanları, yeryüzünde internet varken “internetsiz” kalıyor.

“Tek yapılabilecek şey, fiziki olarak bilgi işlem merkezlerine gidip, DNS sunucularını ayağa kaldırmak olacaktı. Tabii ki de bu o kadar basit değildi. Facebook, hacker’lar bilgi işlem merkezlerine girmesinler diye ekstra güvenlik önlemleri almıştı. Mühendisler bu bilgisayarlara ulaşmak için spiral testere makinesi alip adeta bir hırsız gibi kendi şirketlerinin fiziki güvenlik engellerini kesmek zorunda kaldılar.”

Her şey normale dönse de sorunlar bitmedi:

Mühendislerin kendi şirketlerine hırsız gibi girip hatalı komutu düzelttikten sonra sistemi ayağa kaldırdıklarını söyleyen Eren Algan “Tabii ki sorunlar bununla bitmedi. Bütün sistemleri bir anda açmak, bu boyuttaki şirketler için hiçbir zaman doğru çözüm olamaz. Sistemler ayağa kaldırıldığında bilgisayarlarda çok fazla yük olacağı için, bu sistemlerin belli siralarla ve belli kapasitelerle ayağa kaldırılması gerekir.” diyor ve WhatsApp’ın neden sadece bir adet ampul gibi açma-kapama anahtarına sahip olmadığını anlıyoruz.

“Facebook, bu gibi olası problemleri önceden öngördüğü için ‘storm drills’ denilen ve olası bir felaket durumunda sistemlerin nasıl davranacağını test ettikleri bir protokole sahiptir. Bu durumda da sistemler belli bir sırayla ve kapasiteyle ayağa kaldırmayı başardılar. Yaklaşık 5 saati geçen hummali çalışmanın sonunda Facebook, Instagram, WhatsApp, Oculus uygulamalarına erişim sağlandı :)”

“Ben 4 Ekim’de ofise gittiğimde içeride kullanılan ağa ulaşım sağlanamıyordu. Hatta ve hatta yazıcılar bile çalışmıyordu. İçerideki haberleşme sistemleri çalışmayınca, olaylardan haberimizin olması bile çok sonradan oldu.”

Şimdi herkesin aklındaki soruyu cevaplamaya geldi sıra… O hatalı komutu yazan, Facebook’a 67 milyon dolar kaybettiren o mühendise n’oldu?

“Hiç bir şey olmadı, olmaz da. Facebook gibi şirketler böyle hatalara öğrenme fırsatı olarak bakarlar ve sistemlerini geliştirmek için post-mortem (otopsi) yaparlar. Genelde böyle hatalar yüzünden insanlar kovulmazlar. O insanlar için kariyerlerinde unutulmaz bir hikaye, Facebook için ise çok pahalıya mal olmuş bir hata olur.”

İçeriğe verdiği destek için Eren Algan’a teşekkür ederiz, kendisinin LinkedIn hesabına buradan, Instagram hesabına da buradan ulaşabilirsiniz.

Facebook’un çöküş gecesinde yaşananları aşağıdaki videomuzdan da öğrenebilirsiniz:

O gece yaşananlara ilişkin diğer haberlerimiz:

Etiketler

İlgili Makaleler

Bir cevap yazın

Başa dön tuşu
Kapalı
Kapalı