Auswirkung
Dienst war während des Ausfallzeitfensters vollständig nicht verfügbar.
Ursache
Die Datenbankreplikation war unbemerkt gestoppt. In der Nacht ist die Festplatte des verbleibenden DB-Knotens mit WAL-Transaktionslogs vollgelaufen.
Lösung
Speicherplatz wurde erhöht und Replikation wiederhergestellt. Verbessertes Monitoring wird implementiert.
Folgeaktionen
WAL-Größenüberwachung und Alarmierung implementieren
Replikations-Dashboard hinzufügen
Incident-Response-Verfahren dokumentieren
Weitere Details
Am 09.05.2025 war gitlab.git.nrw in der Zeit von ca. 01:30 bis 07:15 Uhr nicht erreichbar.
Als Folgeschaden des Vorfalls vom Mittwoch (07.05.2025) war die Datenbank‑Replikation unbemerkt gestoppt. In der Nacht ist daraufhin die Festplatte des verbliebenen Datenbank‑Knotens durch WAL‑Transaction‑Logs vollgelaufen, wodurch der Dienst ausfiel.
Der Plattenplatz wurde vergrößert und die Replikation wiederhergestellt; seit 07:15 Uhr ist der Dienst wieder vollständig verfügbar. Wir härten die Plattform im Rahmen der Pilotphase weiter und verbessern das Monitoring.