Störungsmeldung

Ausfall-Info: gitlab.git.nrw

Christian Schild
Status: Behoben major

Störungsdetails

gitlab.git.nrw pilot

Beginn

09.05.2025 01:30

Behoben

09.05.2025 07:15

Dauer

5h 45m

Betroffene Komponenten

database gitlab
incident outage pilot

Auswirkung

Dienst war während des Ausfallzeitfensters vollständig nicht verfügbar.

Ursache

Die Datenbankreplikation war unbemerkt gestoppt. In der Nacht ist die Festplatte des verbleibenden DB-Knotens mit WAL-Transaktionslogs vollgelaufen.

Lösung

Speicherplatz wurde erhöht und Replikation wiederhergestellt. Verbessertes Monitoring wird implementiert.

Folgeaktionen

WAL-Größenüberwachung und Alarmierung implementieren

Replikations-Dashboard hinzufügen

Incident-Response-Verfahren dokumentieren

Weitere Details

Am 09.05.2025 war gitlab.git.nrw in der Zeit von ca. 01:30 bis 07:15 Uhr nicht erreichbar.

Als Folgeschaden des Vorfalls vom Mittwoch (07.05.2025) war die Datenbank‑Replikation unbemerkt gestoppt. In der Nacht ist daraufhin die Festplatte des verbliebenen Datenbank‑Knotens durch WAL‑Transaction‑Logs vollgelaufen, wodurch der Dienst ausfiel.

Der Plattenplatz wurde vergrößert und die Replikation wiederhergestellt; seit 07:15 Uhr ist der Dienst wieder vollständig verfügbar. Wir härten die Plattform im Rahmen der Pilotphase weiter und verbessern das Monitoring.

Verwandte Meldungen