Am 11. September ereignete sich ein Leitungsausfall, wodurch das Rechenzentrum in Brüssel vom Internet abgetrennt wurde. Der Ausfall dauerte von 2 Uhr morgens bis ca. 20h30.
Unsere Alarm-Systeme hatten den Ausfall morgens um 02:07 bemerkt. Wir haben sofort eine Analyse gestartet, und festgestellt, dass die Server von Euregio.Net NICHT ausgefallen waren. Allerdings war die Verbindung zum Rechenzentrum von diesem Ausfall zu 100% betroffen, d.h. dass Internet-Verbindungen weder nach innen noch nach aussen möglich waren.
Weil das Rechenzentrum vom Rest der Welt abgeschnitten war, konnten keine Emails auf den Servern von Euregio.Net eintreffen. Websites konnten nicht aufgerufen werden. DNS-Anfragen wurden gestört.
Wir haben versucht Perceval, den Betreiber des Rechenzentrums, sowie dessen Techniker, im 30-Minuten-Takt zu erreichen. Erst morgens um 8 Uhr bekamen wir Auskunft, worin der Fehler bestand: anfangs hiess es, dass ein optischer Switch getauscht werden muss (das Gerät, wo die Daten von der Glasfaser-Internet-Verbindung eintreffen). Als der Switch im Rechenzentrum getauscht worden war und noch immer keine Daten eintrafen, wurde auch der Switch am anderen Ende des Kabels getauscht. Auch dies brachte nichts, also stand fest, dass das optische Kabel physisch beschädigt worden ist.
Die optischen Kabel von EuroFiber liegen entlang einer Eisenbahntrasse der SNBC. EuroFiber musste erst eine Genehmigung einholen, um Baggerarbeiten entlang der Schienen vornehmen zu können.
Um ca. 14 Uhr wurde mit den Grabungsarbeiten gestartet. Der entsprechende Kontrollschacht wurde gegen 17h gefunden. Die Grabungen verlangsamten sich jedoch wegen Stabilitätsproblemen der Schienen.
Um 20h23 war der erste Glasfaser-Strang repariert und die ersten Daten trafen wieder im Rechenzentrum ein. Es dauerte jedoch noch bis 23h35 bis die letzten Verbindungen repariert waren und sich alle Routen zum Internet aktualisiert hatten.
Ab 20h30 trafen die ersten Mails wieder auf der Spam-Firewall von Euregio.Net ein. Diese Mails wurden umgehend zugestellt. Während der Nacht und am Morgen des 12. September trafen die Emails ein, die in den vergangenen Stunden nicht empfangen werden konnten. Wir haben die Spam-Filter entschärft, damit die Nachrichten in der Warteschlange schneller zugestellt werden können. Bis zum Mittag am 12. September hatte sich die Situation entschärft.
Normalerweise versuchen die Postausgangsserver während 48 Stunden eine Email zuzustellen. Wenn dies in dieser Zeit nicht gelingt, bekommt der Absender eine Mitteilung, dass der Versand fehlgeschlagen ist. Somit dürften keine Mails verloren gegangen sein, da der Ausfall von kürzerer Zeit war.
Wir haben eine offizielle Stellungnahme von allen Verantwortlichen (Perceval, EuroFiber, SNCB) gefordert und hoffen diese umgehend zu erhalten.
Wir ziehen unsere Konsequenzen aus diesem Ausfall und haben schon entsprechende Massnahmen für die Zukunft in die Wege geleitet. Ein Ausfall in diesem Umfang sollte nicht passieren. Auch wenn unsere eigenen System zu 100% funktionstüchtig blieben, nützt dies nichts, wenn das Rechenzentrum vom Rest der Welt abgeschnitten ist. Warum die redundanten Leitungen, die normalerweise vorhanden sein sollten, nicht funktionieren (aktiv waren), ist uns schleierhaft und wir erwarten eine Erklärung des Rechenzentrums.
Die Informationen, die wir am 11. September aus Brüssel erhalten haben, waren nicht immer vollständig und verzögerten sich teilweise. Wir haben diese jedoch umgehend auf unserer Facebook-Seite veröffentlicht, um eine größtmögliche Transparenz während des Ausfalls zu gewährleisten und unsere Kunden auf dem Laufenden zu halten. Unserer eigener Support-Blog war auch von der ausgefallen Leitung betroffen, wodurch wir auf die Kommunikation via Facebook zurückgreifen mussten.
Der Ausfall war für uns mindestens genauso frustrierend, wie für unsere Kunden. Uns waren die Hände gebunden, weil die Probleme ausserhalb unseres Interventionsbereichs lagen. Wir konnten nur abwarten und unsere Kunden informieren. Alsbald die Leitung wieder stabil war, haben wir unsere eigene Server-Infrastruktur auf gute Funktionsweise überprüft und konnten an unserer Seite keine Fehler feststellen.
Wir danken allen unseren Kunden für ihre Geduld und ihr Vertrauen während dieser kritischen Zeit des Ausfalls. Ich versichere Ihnen persönlich, dass wir neue Massnahmen ins Auge gefasst haben und in den nächsten Wochen umsetzen werden, um derartige Situation vermeiden zu können.
Mit freundlichen Grüßen,
Jochen Savelberg
Geschäftsführer
Euregio.Net AG
http://support.euregio.net (Support Blog)
http://supporteuregio.net (Netzwerk Status — externer Server in den USA)
http://facebook.com/euregio.net (Facebook Seite)
http://twitter.com/euregionet (Twitter Konto)