Interruption de nos services internet le 11 septembre

Le 11 septembre, nous avons été victimes d’une coupure de connexion, qui a complètement déconnecté notre centre de données à Bruxelles de l’internet. Cette déconnexion a duré de 02:00 du matin à 20:30 du soir.

Notre système d’alarme interne a détecté le problème dès 02:07 et nous avons immédiatement mis tout en œuvre pour trouver l’origine du problème. Après avoir constaté que nos serveurs n’étaient pas en cause, il s’est avéré que la connexion au centre de données lui-même était inaccessible à 100 %, c’est-à-dire que la centrale de notre prestataire de services (Perceval) était complètement déconnectée de l’internet.

De ce fait, il était impossible de recevoir ou d’envoyer des e-mails, des e-mails de l’extérieur ne pouvaient pas arriver, les sites web n’étaient pas accessibles et les demandes au niveau du DNS ne pouvaient être traitées.

Nous avons immédiatement tenté de contacter la société Perceval, le gérant du centre de données, et ses techniciens. Après toutes ces tentatives, répétées toutes les 30 minutes, nous avons eu une première réponse à 08:00 du matin sur l’origine du problème: on a d’abord échangé les switchs optiques (le matériel qui connecte le centre au réseau de fibre optique) des deux côtés de la ligne externe; comme cela n’a pas résolu le problème, il s’est avéré qu’il s’agissait d’une coupure physique d’un câble de fibre optique reliant le centre de données à l’internet.

Les câbles de fibre optique de la société de gestion EuroFiber longent les lignes de chemin de fer de la SNBC. EuroFiber a donc dû se tourner vers la SNCB pour obtenir la permission nécessaire à la réparation du câble défectueux avec une pelleteuse.

Ces travaux ont débuté à 14:00 environ et l’emplacement du câble défectueux a été localisé vers 17:00. Les travaux ont été ralentis pour des raisons de stabilité de voies ferrées adjacentes.

Vers 20:23, le premier bloc de fibre optique a pu être réparé et les prémières données ont commencé à arriver au centre de données. Mais ce n’est que vers 23:35 que les dernières connexions concernées étaient de nouveau fonctionnelles et que les routages vers l’internet étaient de nouveau à jour.

Les premiers e-mails sont arrivés à 20:30 sur le pare-feu antispam (Firewall) d’Euregio.net. Ces e-mails ont été directement délivrés. Pendant la nuit et la matinée du 12 septembre sont arrivés tous les e-mails, qui n’avaient pu être accueillis faute de connexion. Nous avons alors dû baisser les règles antispam du pare-feu pour permettre au système de résorber le flux de e-mails non délivrés. La situation est revenue à la normale vers 12:00 le 12 septembre.

Normalement, les serveurs d’envoi (smtp) tentent de délivrer les mails pendant 48 heures (ou moins), s’il n’est pas possible de les délivrer immédiatement. Si ce n’est toujours pas possible après ce laps de temps, l’expéditeur reçoit un message d’erreur, lui expliquant que la tentative de remise du mail a échoué. Ainsi, comme ce laps de temps n’a pas été dépassé, aucun mail n’a été perdu sans que l’expéditeur n’en soit averti.

Nous avons demandé une prise de position officielle de tous les responsables impliqués (Perceval, EuroFiber, SNCB), que nous espérons recevoir dans les délais les plus brefs.

Nous allons également tirer les conséquences de cette coupure de service et avons d’ores et déjà pris les premières mesures en ce sens pour le futur. Une coupure de cette dimension ne devrait pas se produire. Il ne sert à rient d’avoir des systèmes fonctionnels à 100%, si le centre de données qui les héberge est coupé du reste du monde. Nous ne savons pas encore pourquoi les lignes de connexion de redondance, qui doivent normalement prendre le relais dans ce cas de figure, n’ont pas fonctionné ou n’ont pas été activées, mais nous attendons une explication à ce sujet de la part du centre de données.

Les informations que nous avons reçu le 11 septembre n’étaient pas toujours complètes et sont arrivées avec beaucoup de retard. Les informations dont nous disposions ont immédiatement été publiées sur notre page Facebook, pour garantir une transparence maximale et informer nos clients. Comme nos propres serveurs étaient aussi concernés par la coupure, c’était notre seul moyen de communication vers l’extérieur.

Cet incident a été extrêmement frustrant pour nous et tous nos clients, d’autant plus que nous étions condamnés à l’inactivité et que la solution du problème se trouvait en dehors de nos compétences. Tout ce que nous pouvions faire était attendre et informer nos clients. Aussitôt que la ligne était de nouveau opérationnelle et stable, nous avons pu vérifier le bon fonctionnement de notre infrastructure.

Nous tenons à remercier tous nos clients pour leur patience et confiance pendant ces heures amères de la déconnexion. Je tiens à vous assurer personnellement que nous allons tirer des conséquences concrètes de ce problème, que nous allons mettre en œuvre dans les prochaines semaines pour garantir que ce genre d’incident n’arrivera plus.

Bien à vous,

Jochen Savelberg
Administrateur Délégué
Euregio.Net AG

http://support.euregio.net (Support Blog)
http://supporteuregio.net (Netzwerk Status — Serveur aux Etats Unis)
http://facebook.com/euregio.net (Facebook Seite)
http://twitter.com/euregionet

Posted in General.