Wartungsarbeiten, Zeitraffer und Video …

Einen Teil unserer Umbau- und Wartungsarbeiten konnten wir auf Video festhalten (danke Schoash):

Youtube Video:

Und als direkter Download im MP4-Format:

anexia_datacenter_rebuild_2009_01_24 (15,4MB, 2:45 Minuten)

PS: Das Video hat eine Originallänge von ca 8 Stunden und 20 Minuten. Die 2 Minuten 45 Sekunden sind also wirklich extreme Zeitraffer.

Wartungsarbeiten, Unterbrechung und viel Hardware …

Ich bin so frei und zitiere einfach mal die Mail, die wir vorige Woche auch an alle Kunden gesendet haben:

Sehr geehrter Kunde,
sehr geehrter Partner!

Aufgrund der stetigen Erweiterungs- und Anpassungsarbeiten im Bereich
unserer Infrastruktur freut es uns Ihnen folgendes mitteilen zu können:

Seit einigen Tagen ist ein weiterer Teil des ANEXIA Rechenzentrums #2
fertiggestellt und für den aktiven Betrieb bereit. In diesem Bereich werden wir in den nächsten Wochen und Monaten unsere gesamte Infrastruktur migrieren und damit auch einige Fehlerquellen beseitigen, die uns in letzter Zeit leider immer wieder kleinere Probleme bereitet haben.

Aus logistischen und technischen Gründen werden wir unseren neuen
Backbone auch in diesem Bereich des Rechenzentrums aufbauen. Für Sie
wird es in Zukunft also den gewohnten Standard geben:

#) Redundante Anbindung an unseren Backbone
#) Vollständige Redundanz wichtiger Routingknoten
#) Redundante Klimatisierung
#) Klimatisierter Doppelboden (min. 30cm hoch)
#) Getrennte Kabeltrassen für Strom- und Datenleitungen
#) Brand-Früh-Erkennung
#) Temperaturüberwachung
#) Drei von einander unabhängige USV-Phasen
#) Zwei von einander unabhängige Netz-Phasen
#) Biometrische Zugangskontrollen
#) Videoüberwachung

Leider ist es auch uns nicht möglich solche massiven Umbauarbeiten ohne
Ausfallszeiten abzuwickeln. Wir teilen Ihnen hiermit folgende
Wartungsfenster mit:

Samstag, 24.01.2009, Beginn: 00:00 Uhr
Samstag, 24.01.2009, Ende:   07:30 Uhr

Sonntag, 25.01.2009, Beginn: 00:00 Uhr
Sonntag, 25.01.2009, Ende:   07:30 Uhr

In dieser Zeit kann es zu partiellen Netz- und Systemausfällen kommen.
Aus Sicherheitsgründen bitten wir Sie bei kritischen Systemen eine
Datensicherung durchzuführen (sofern diese Systeme nicht von uns
verwaltet sind).

Sollten Sie bei uns einen dedizierten Windows-Server haben, bitten wir Sie dieses System vor dem jeweiligen Wartungsfenster herunter zu fahren. Ihr System wird nach den Wartungsfenster automatisch hochgefahren.

Bitte deaktivieren Sie für die oben angeführten Wartungsfenster auch sämtliche Cronjobs und Monitoringssysteme, um Datenverlust und Falschmeldungen zu verhindern.

Vielen Dank für Ihr Verständnis.

Was das für das Blog hier bedeutet sollte jedem klar sein: es wird ab heute Abend kurzfristig nicht zur Verfügung stehen ;).

DIE, 20kV und ein lauter Knall …

Wir sind im neuen Bereich unseres Rechenzentrums, das Licht flackert kurz auf, wir wundern uns. Keine 5 Sekunden später erhalten wir die ersten Ausfallsmeldungen per SMS. Ich ziehe mir meine Jacke über und mache in Windeseile auf den Weg ins ANEXIA RZ #1. Es waren diverse Wartungsarbeiten im Bereich der Energieversorgung angekündigt.

2 Minuten später bin ich 100m vor dem RZ und werde bereits von Blaulichtern willkommen geheißen – die Feuerwehr ist vor Ort, eine Menschentraube bildet sich vor dem Eingang des Gebäudes. Ich suche mir einen Parkplatz in der Nähe und eile hinein – der Portier labert wirres Zeug gibt nichts Brauchbares von sich. Ich frage ob ich das Kellergeschoss betreten darf (da ja die Feuerwehr vor Ort ist): Ja, ich darf. Eine Minute später stehe ich inmitten einer Rauchschwade (im Kellergeschoss) und sehe Feuerwehrleute mit Atemschutz durch die Gegend laufen – ich ahne Böses. Vor dem Serverraum angekommen sehe ich bereits einige Kollegen anderer Firmen, die auch direkt Hardware im RZ housen. Mein Ansprechpartner wirkt verwirrt, spricht nur von einem lauten Knall und ist sichtlich beeindruckt, dass die Hütte noch steht.

Ich kontrolliere unsere Hardware: es ist kein Netzstrom mehr verfügbar und eine unserer USVs hat vermutlich aufgrund einer Überspannung die Grätsche gemacht – nachdem ich die Geräte an die andere USV angeschlossen habe, laufen auch diese wieder. Unser Routing war für ca 15 Minuten unterbrochen, weil auch LWL-Fasern einiger Carrier anscheinend nicht per USV im Aktivbereich gesichert waren.

Was war passiert? Der Energielieferant (um einen Namen zu nennen: die Kelag Kärnten) hatte im Bereich der Hauszuführungen irgendwelche Wartungs- und/oder Umschaltungsarbeiten vorgenommen. Da dürfte dann etwas nicht so ganz ohne Schmerzen vonstatten gegangen sein – es hat nämlich einen 20kV Leistungsschalter zerlegt. Der (mittlerweile nicht mehr verwirrte) Ansprechpartner von uns hat mir erzählt, dass es verdammt laut geknallt hat und plötzlich ging der Feueralarm los.

Zu allem Trotz ist heute sogar der 13. und auf der digitalen Uhr im Eingangsbereich war DIE zu lesen – stand zwar wohl für Dienstag, aber das könnte man falsch interpretieren :shock:.

Fotos gibts leider keine, weil ich eine Trantütte bin und es verpennt habe welche zu machen – eventuell mache ich von der USV die Tage mal ein Bild – da häts nämlich das Chassis zerlegt :shock:.

PS: Der Feueralarm hatte es in sich :shock:: sirene_kelag_alarm (446KB)