Dans le cadre de nos activités, nous opérons Warp 10 pour le compte d’un certain nombre de clients. Ce service s’appuie sur une infrastructure hébergée chez OVH et comprenant plusieurs dizaines de machines interconnectées via un réseau privé (vRack).
Le 12 décembre 2020, nous avons été affectés par un souci sur l’infrastructure réseau d’OVH qui a eu pour effet de rendre impossible pendant plusieurs heures la communication entre certains de nos serveurs sur ce réseau privé. Cet incident a donné lieu à la création d’un ticket sur le portail d’OVH.
La première réponse, arrivée 32 minutes après l’ouverture du ticket, nous a demandé de vérifier les routes sur la machine. Au vu de la tournure de la réponse, nous avons contacté notre interlocuteur commercial pour lui indiquer que le souci mériterait sans doute plus qu’une réponse de ce type. Ce fut le début d’un long feuilleton qui dure toujours.
Car cet incident du 12 décembre ne fut malheureusement que le premier d’une longue série.
Les symptômes étaient toujours les mêmes, un défaut de routage sur le vRack depuis certains serveurs. Si ces soubresauts pourraient passer inaperçus sur des systèmes indépendants, sur notre infrastructure les RegionServer HBase sont prompts à signaler leur impossibilité de contacter ZooKeeper. Notre analyse du souci nous a poussé à signaler chaque occurrence de ce type de souci sur le ticket initial car la similitude des différents incidents poussait notre intuition vers une cause identique.
Au fil du temps notre analyse devenait plus fine encore, avec des similitudes réellement troublantes puisque les incidents se produisaient à des heures dont la proximité de structure (mêmes minutes) était plus que troublante, par exemple 17h56, 01h56, 04h56, 11h56, …
Bien entendu, aucune réponse du support, si ce n’est pour nous dire que TOUT VA BIEN sur leurs switches et que le souci n’est donc pas de leur côté.
Arrivé en février, être réveillé toutes les nuits depuis mi-décembre commence à peser sur le moral. Sans parler des clients qui nous interrogent légitimement sur ces incidents et, pour certains, commencent à douter de notre service.
Notre interlocuteur commercial, dont l’utilité est plus que discutable, continue à nous proposer du support "business" ou "premium" pour aller plus vite dans la résolution des incidents, autant dire que le ton monte et les échanges commencent à être de moins en moins cordiaux, car faut-il le rappeler nous ne sommes pas juste client d’un VPS, notre facture mensuelle s’élève tout de même à plus de 7000 EUR.
Las de cette inutilité et du silence du support, nous décidons de mettre dans la boucle nos connaissances internes chez OVH. Cela nous permet d’avoir des gens compétents qui regardent un peu plus précisément certains soucis, mais surtout cela nous permet d’apprendre que le service OVH Metrics observe des incidents similaires sur son infrastructure, mais toujours pas de solution :-(.
Février passe, Mars avance, toujours des incidents toutes les nuits, toujours identiques, et toujours pas de solution. Nos remontées de ces incidents sont maintenant agrémentées de l’analyse des travaux en cours chez OVH afin d’essayer de faire un lien potentiel. Mais personne à l’autre bout du tuyau pour nous aider.
Désespérés par ces silences, nous revenons vers notre contact interne, en exposant les détails des incidents les plus récents. Notre contact mobilise en direct des équipes réseau afin qu’elles regardent plus précisément certains équipements liés à notre infrastructure. Fort heureusement pour nous la bonne personne fut mise dans la boucle. En 2 minutes le lien fut fait entre les derniers incidents et un souci sur des switches Arista utilisés par OVH pour le vRack. Ces switches ont dans certaines versions un bug qui fait redémarrer l’agent stata au bout d’un certain nombre d’heures. Or, comme par hasard ces redémarrages sont exactement aux heures où nos soucis de routage sont constatés.
La mise à jour du switch gérant les machines impactées par nos incidents récents a eu pour effet de faire cesser les incidents sur cette partie de notre infrastructure. La suite va vous étonner… Un petit chef s’est ému de la façon dont le client – nous – fut mis dans la boucle des échanges liés au diagnostic et à la résolution du problème qui nous affecte depuis maintenant plus de 3 mois. Les échanges étaient surréalistes et l’intérêt du client clairement pas au centre de ceux-ci.
Soulagés de pouvoir enfin dormir une nuit complète, nous contactons notre interlocuteur commercial pour lui annoncer la bonne nouvelle (il s’avère qu’il ne lit pas le ticket puisque nous lui apprenons que l’incident est résolu !), à savoir que nous avions visiblement trouvé la cause de nos soucis, mais également pour lui faire part de notre extrême mécontentement quant à la façon dont la situation a pu être gérée par OVH. En réponse nous avons eu un call avec un VP à qui nous avons fait part de cet agacement quant au délai de résolution de notre problème.
C’est à l’occasion de ce call, fin mars 2021, que nous avons aussi demandé à ce qu’OVH nous fournisse un document dans lequel ils reconnaissent que l’intégralité des incidents qui nous ont affecté depuis le 12 décembre étaient dus à des soucis de versions logicielles sur des équipements réseau sous leur responsabilité. L’objectif de ce document est de prouver notre bonne foi auprès de nos clients afin de regagner leur confiance. Malheureusement à ce jour nous attendons toujours ce document et cet article est la résultante de cette attente inadmissible, notre interlocuteur commercial ayant été averti à plusieurs reprises que si ce document ne nous était pas fourni nous n’aurions d’autre possibilité que de décrire au grand jour notre mauvaise expérience.
À la suite de cette résolution, nous avons rencontré d’autres incidents du même type. Contact fut pris avec le VP qui a fait en sorte que l’ensemble des équipements auxquels notre infrastructure est reliée soient mis à jour, et depuis nous dormons comme des bébés. Merci à lui pour ce retour à des nuits paisibles.
Nous ne souhaitons à personne de vivre le même enfer que celui qui fut le nôtre entre le 12 décembre 2020 et la fin Mars 2021. Si nous sommes satisfaits de l’infrastructure quand tout va bien, quand les choses ne se passent pas de façon optimale le service client laisse grandement à désirer. Nous avons d’ailleurs découvert à cette occasion qu’il n’y a aucune garantie sur le service du vRack, chose que peu de monde sait. La perspective d’obtenir le document que nous demandons depuis maintenant près de 3 mois reste également plus que floue. Et nous nous interrogeons encore sur ce qui aurait pu être notre situation si nous n’avions pas eu la possibilité de bypasser le support et d’atteindre directement quelqu’un en interne.
Notre conclusion est aujourd’hui sans appel. Sur bien des plans OVH fait preuve d’un amateurisme caricatural quand il s’agit de venir en aide à leurs clients qui rencontrent des soucis. Cela ne laisse rien présager de bon quant à l’avenir de la société sur un marché concurrentiel et alors même qu’elle s’apprête à s’introduire en bourse. Un placement dont les risques liés à la qualité de l’exécution de son métier de base devront être pris en compte très sérieusement avant d’envisager d’y placer ses économies. Si les offres d’OVH sont de qualité, il faut indéniablement que la société fasse un effort conséquent sur son service client pour être crédible auprès de nombreux clients potentiels qui seront plus exigeants que ses clients historiques.
Read more
Les séries temporelles : le futur de la donnée
Les données d’énergie à l’aune du déconfinement
Mobilité et données : un train de retard pour la loi LOM
Co-Founder & Chief Technology Officer