Katastrophale Wartungsarbeiten …

Ich habe mir jetzt extra ein paar Tage Zeit gelassen um eine vernünftige Zusammenfassung der Wartungsarbeiten zu schreiben. Vieles ging schief, unser Houser hatte uns am Sonntag auch im Stich gelassen und irgendwann war Schluss mit Lustig und ich war schlicht und ergreifend frustriert. Es macht wenig Freude, wenn man binnen 2 Monaten fast 5.000 Euro in ein Projekt investiert, welches in den letzten 4 Jahren schon min. 20.000 Euro verschlungen hat.

Wie angekündigt wurde viel Hardware ausgetauscht. Die versprochene Downtime von ca 16 Stunden konnte allerdings nicht einmal ansatzweise eingehalten werden. Das lag schlicht und ergreifend daran, dass das alte Storage der User-Daten mit IDE-Platten bestückt war und bei über 1.000.000 Files (laut fsck waren es insgesamt 2.681.341 Inodes, die belegt waren) wird es nunmal zunehmend schwieriger, Daten in vernünftiger Geschwindigkeit zu kopieren, wenn diese auch noch per Checksum überprüft werden müssen (Intigrität!).

Nach fast 18 Stunden Kopieren war das Ding dann endlich fertig und teilte mir die nächste Erkenntnis mit: ich werde nicht booten! Bravo. Super. Scheisse. Nach insgesamt 6 Stunden konnte ich das Ding dann endlich dazu bewegen sich booten zu lassen (ich dürfte wohl an die 20 unterschiedlichen Kernel kompiliert haben). Als das Ding (der neue User-Server) dann endlich bootete kam der neue MySQL-Server dran (= der „alte“ User-Server). Der lies sich mit bedeutend weniger Überzeugungskraft dazu bewegen, wieder Dienst zu versehen. Auch da musste ein neuer Kernel her, damit die zweite NIC des Tyan-Boards endlich anständig funktionierte (wurde bisher nicht verwendet, da sie Paketloss verursachte).

Nach insgesamt 2 Tagen waren die 2 Server, die für die User-Sites zuständig waren dann auch endlich fertig – 2 weitere (lipar und storage0) warteten aber noch auf den Umbau (auch wenn wir diese bereits soweit wie möglich vorbereitet hatten). storage0 entschloss sich noch spontan sein Netzwerk aus der Konfiguration raus zu werfen und verschaffte mir weitere 2 Stunden Arbeit. Irgendwann, als dann endlich alle Server wieder fit waren, war es kurz nach 3 und wir (west und ich) entschlossen uns, die Kisten nicht mehr in der Nacht einzubauen (da dies mindestens 3 – 4 Stunden erforderte).

Am nächsten Morgen gings dann auf ins‘ Interxion. Geplant hatten wir ca 4 Stunden, gebraucht haben wir fast 8 Stunden. Warum? Immer wieder neue Probleme sind aufgetreten – lipar brauchte zum Kopieren ewig, storage0 wusste wieder nichts von seinem Netzwerk-Setup und die Verkabelung wollte auch noch bereinigt werden. Die Lüftung hatten wir bereits fertig montiert, konnten sie aber nicht in Betrieb nehmen, da das dafür vorgesehen Netzteil (plötzlich …. bei einem vorherigen Test funktionierte es) nicht genug Strom liefern konnte.

Sie als mein treuer Leser glauben nun, das ist das Ende der Misere? Wäre schön, wenn es so wäre: Als wir am Sonntag dann den Server, der die Wartungsseite ausgeliefert hatte, durch den neuen User-Server ersetzt hatten, bekamen wir zwar einen physical Link zu unserem Houser zusammen, jedoch war es uns nicht möglich, über IP mit der Außenwelt zu kommunizieren. Ein kurzes Telefonat mit der Business-Hotline (!) brachte die Erkenntnis, dass es Houser-seitig einen ARP-Cache am Core-Switch gibt, welcher Spoofing-Attacken verhindern soll. Das soll mir auch recht sein, allerdings stellen sich mir die Haare auf wenn:

#) Sonntags kein kompetenter Techniker erreichbar ist, der den Cache flushen kann, damit meine neue MAC auch die IP übernehmen darf!

#) Ein inkompetenter Mitarbeiter an der Hotline mir mitteilt, dass es für diesen Auftrag ein FAX mit Unterschrift brauchen würde (und ich doch eh im Rechenzentrum vor Ort bin *headvsdesk*)!

#) Ich den kostenpflichtigen Auftrag (!) (80 Eur netto pro angefangener Stunde halte ich bei einem 2 Minuten Auftrag doch wohl für mehr als überteuert!) in Auftrag geben will, mir dann aber der Mitarbeiter an der Hotline lapidar mitteilt, ich hätte Pech gehabt, denn er erreiche den Bereitschaftstechniker nicht! Da frag‘ ich mich: wozu schmeiße ich jedes Monat Unsummen für ein Housing aus dem Fenster, wenn dann erst recht niemand erreichbar ist? Mein lieber Houser, da werden wir beide noch ein ernstes Wörtchen miteinander reden!

Im Moment sieht die Lage so aus, dass der User-Server und das MySQL-System weitestgehend fehlerfrei funktionieren. Bisher sind keine weiteren Probleme mit der Hardware aufgetreten. Lediglich lipar, unser secondary DNS und FTP-Gateway, verweigert nach einem Reboot den Dienst. Eventuell schaffen wir es zum Wochenende, dass dieser wieder seinen üblichen Dienst versieht. Weihnachtsgeschenke gibt es von mir persönlich erst im neuen Jahr ;). Quasi für mich selbst zum Geburtstag :P. Die bessere Performance sollte allerdings Geschenk genug sein!

PS: Bilder poste ich heute oder morgen. west hat sie ja bereits online gestellt, ich hatte aber noch keine Zeit alles durchzusehen.