Von der IT überfordert
Alle reden sie von KI und dass uns die Computer alles abnehmen. Und dann geht es an den Grundlagen schief:
Reddit: Stundenlanger Ausfall, weil niemand mehr den Code kennt
Das Entwicklungsteam der Social-Media-Plattform Reddit hat eine ausführliche Analyse zu einem stundenlangen Ausfall des Dienstes am 14. März dieses Jahres veröffentlicht. Interessant daran ist vor allem, dass der mehrstündige Ausfall nicht nur technische Gründe hatte, sondern dass das Beheben erheblich durch fehlendes Wissen über die eigenen Dienste verzögert wurde.
[…]
Dazu heißt es in dem Blogpost: “Die Route Reflectors wurden vor einigen Jahren vom Vorgänger des heutigen Compute-Teams eingerichtet. Die Zeit verging, und mit der Fluktuation und dem Wachstum wechselten alle, die von deren Existenz wussten, in andere Funktionen oder andere Unternehmen. Nur unsere größten und ältesten Cluster verwenden sie noch. Es gab also niemanden, der über das Wissen verfügte, mit der Route-Reflector-Konfiguration zu interagieren, um überhaupt zu erkennen, dass etwas nicht in Ordnung sein könnte, oder der in der Lage war, sich zu melden und das Problem zu untersuchen.”
Das ist typisch für unsere Zeit: Teams, die etwas nur noch benutzen, es aber nicht mehr verstehen und durchschauen. Hatte ich ja schon bei dem unüberschaubaren Gestrüpp von Softwarebibliotheken beschrieben, wo auch niemand mehr weiß, was eigentlich in seinem Programm noch alles läuft.
Nun ist es zwar ärgerlich, aber nicht problematisch, wenn Reddit mal ein paar Stunden weg ist. Was glaubt Ihr aber, wieviele kritische Systeme bei uns laufen, und wieviele davon in einem Betriebszustand sind, den die Betriebsmannschaft nicht mehr durchschaut?