Incident résolu – carte SFP 6748 HS remplacée

En bref :

Nous venons de résoudre un incident majeur qui s’est déclaré ce jour à 13h04 (Dec 12 13:04:31.210).
Nous avons remplacé la carte défectueuse et avons tous re-configuré, tout est rentré à la normale à 14h31 (Dec 12 14:31:19.596).

En détail :

  • 13h04 => Les serveurs loués de la suite euroweb65 (Equinix PA2) deviennent injoignables.
  • 13h15 => Nous faisons intervenir à distance les équipes d’Equinix au cas où l’incident serait d’origine électrique (baie disjoncté ?)
  • 13h30 => Après diagnostique, le soucis n’est pas d’origine électrique, nous dépêchons un de nos propres techniciens sur site.
  • 13h35 => Nous diagnostiquons et confirmons que le problème est une carte SFP 48 ports en défaut par intermittences (même si les serveurs sont restés continuellement indisponibles ; en effet, la bascule up/down de la carte était plus rapide que les timers STP.
  • 13h58 => Notre technicien est sur site, il change la carte défectueuse.
  • 14h09 => La carte est changée, nous basculons, vérifions, re-configurons si nécessaire – un à un – les 27 ports utilisés de la carte.
  • 14h31 => Tous les ports sont re-configurés, tout est à nouveau fonctionnel, nous surveillons la situation.

A savoir :

Les serveur gérant l’espace client, ainsi que le site Euro Web était impacté par l’incident. Ils étaient donc injoignable pendant l’intervale concernée

163 de nos 900 serveurs environs ont étés impactés.

Pour finir :

Notre monitoring ne nous reporte aucune erreur à ce stade. Cependant, si, à l’heure où vous recevez ce mail, un élement semble en panne de votre coté, n’hésitez pas à ouvrir un ticket d’incident via l’interface de support en y apportant un maximum d’informations (traceroute, log, erreur) de manière à ce que nous puissions vous aider au plus vite.

Mots-clefs :