Fehlerhaftes Update sorgt für Ausfall von Dropbox

Der Speicherdienst Dropbox hatte am Wochenende mit Ausfällen zu kämpfen. Ursache war nicht etwa ein Hackerangriff, sondern ein fehlerhaftes Update. Ein Bug in einem Upgrade-Script führte dazu, dass eine Reihe Server, über die Datenverkehr für Fotosharing, Kamera-Uploads und einige APIs lief, versehentlich neu installiert wurde, wie das Unternehmen am Sonntag mitteilte.

„Am Freitag um 17.30 Uhr pazifischer Zeit führten wir eine geplante Wartung durch, um das Betriebssystem auf einigen Maschinen zu aktualisieren. Während dieses Prozesses läuft das Upgrade-Script, um sicherzustellen, dass keine aktiven Daten auf der Maschine sind, bevor es das neue OS installiert“, schreibt Akhil Gupta, Head of Infrastructure bei Dropbox. „Ein subtiler Fehler in dem Script führte zu dem Befehl, eine geringe Zahl aktiver Maschinen neu zu installieren. Unglücklicherweise waren davon einige Master-Slave-Paare betroffen, was im Ausfall der Site resultierte.“

Dropbox betont, dass die Daten seiner Nutzer „während des Ausfalls zu keinem Zeitpunkt gefährdet waren“. Laut Gupta konnten mittels Backups die „meisten Funktionen“ innerhalb von drei Stunden wiederhergestellt werden. Aufgrund der Größe der verwendeten MySQL-Datenbanken stünden einige Funktionen aber nach wie vor nicht zur Verfügung. Der Foto-Tab ist aktuell noch abgeschaltet. Hochgeladen Bilder lassen sich aber alternativ über den Reiter „Dateien“ einsehen.

Offenbar war Dropbox überrascht vom langen Zeitraum, den die Wiederherstellung von MySQL-Backups mit Standardwerkzeugen benötigte. Aus diesem Grund habe man ein Tool entwickelt, das die Wiederherstellung durch Parallelisierung des Wiederaufspielens der Binärprotokolle beschleunigt. Das Unternehmen will dieses Tool als Open Source anbieten.

Um zu verhindern, dass ein Update-Script aktive Maschinen in Dropbox‘ Datenbankinfrastruktur neu installiert, ignorieren aktive Maschinen solche Befehle künftig. „In den vergangenen Jahren ist unsere Infrastruktur rapide gewachsen, um Hunderte Millionen Nutzer zu unterstützen. Wir rüsten unsere Maschinen regelmäßig auf und nutzen sie zu anderen Zwecken. Wenn wir das tun, führen wir Scripts aus, die ferngesteuert den Status jeder einzelnen Maschine überprüfen“, erläutert Gupta. „Seit dem jüngsten Vorfall haben wir eine zusätzliche Prüfebene eingefügt, sodass Maschinen ihren Status lokal verifizieren, bevor sie eingehende Befehle ausführen. Das ermöglicht Maschinen, auf denen nach eigener Analyse kritische Prozesse laufen, möglicherweise zerstörerische Operationen abzulehnen.“

Der Foto-Tab ist aktuell noch abgeschaltet. Hochgeladen Bilder lassen sich über den Reiter „Dateien“ einsehen (Screenshot: ZDNet.de).

[mit Matrial von Chris Duckett, ZDNet.com]

ZDNet.de Redaktion

Recent Posts

Studie: 91 Prozent der Ransomware-Opfer zahlen Lösegeld

Die durchschnittliche Lösegeldzahlung liegt bei 2,5 Millionen Dollar. Acht Prozent der Befragten zählten 2023 mehr…

7 Stunden ago

DMA: EU stuft auch Apples iPadOS als Gatekeeper ein

Eine neue Analyse der EU-Kommission sieht vor allem eine hohe Verbreitung von iPadOS bei Business-Nutzern.…

8 Stunden ago

Chips bescheren Samsung deutlichen Gewinnzuwachs

Das operative Ergebnis wächst um fast 6 Billionen Won auf 6,64 Billionen Won. Die Gewinne…

16 Stunden ago

Chrome: Google verschiebt das Aus für Drittanbietercookies

Ab Werk blockiert Chrome Cookies von Dritten nun frühestens ab Anfang 2025. Unter anderem gibt…

1 Tag ago

BAUMLINK: Wir sind Partner und Aussteller bei der Frankfurt Tech Show 2024

Die Vorfreude steigt, denn BAUMLINK wird als Partner und Aussteller bei der Tech Show 2024…

1 Tag ago

Business GPT: Generative KI für den Unternehmenseinsatz

Nutzung einer unternehmenseigenen GPT-Umgebung für sicheren und datenschutzkonformen Zugriff.

2 Tagen ago