Chaque mois, vous êtes en moyenne 16 millions de visiteurs uniques sur le site français SNCF Connect et vous êtes très nombreux lors d'opération spéciales comme les ouvertures de vente de billets ! Pour prévenir le moindre couac sur notre site et vous offrir la meilleure expérience de navigation, nous appliquons la discipline du Chaos Engineering.

L’ingénierie du chaos : qu’est-ce que c’est ?

Le chaos, c’est cette situation de désordre et de confusion la plus totale. Un peu comme un jour de soldes dans un grand magasin… Jusqu’ici, vous maîtrisez les bases du concept.

L’ingénierie du chaos, c’est tester une situation de désordre et de confusion sur un système informatique de production – c’est-à-dire un réseau d’équipements informatiques liés entre eux et partageant des ressources. Le but : identifier les failles et renforcer les systèmes. Car oui, les incidents peuvent se multiplier et perturber gravement le système. Le risque est, vous vous en doutez, majeur.

Chez SNCF Connect, nous appliquons cette discipline depuis 2015 pour vous permettre de naviguer et réserver vos voyages sur notre site ou dans notre appli dans les meilleures conditions. Surtout lorsque vous réservez 40 billets toutes les secondes, comme à l'occasion de la récente ouverture des ventes de billets pour Noël !

La première conférence mondiale de la communauté Chaos Engineering : on y était !

Le 28 septembre dernier, à San Francisco, nous avons été sélectionnés pour participer à une journée dédiée à cette discipline émergente, la Chaos Conf. L’occasion de rencontrer nos homologues, échanger sur nos pratiques mais aussi contribuer à l’accroissement de la connaissance sur le sujet.

Ce que nous avons présenté ?

Une conférence pour inciter les professionnels à faire la promotion de la démarche auprès de leurs directions d’entreprise. À écouter et re-écouter juste ici : How to Convince Your Boss and Make Them Say "Yes!" to Chaos Engineering ».

Ce qu’on en retient ?

Et deux sujets inspirants :

  • La taxonomie des incidents : désigne un langage, une terminologie et des définitions communes permettant d'atténuer les problèmes de communication entre les personnes travaillant sur la résilience (résistance au choc).
  • L’observabilité : un ensemble de moyens et pratiques permettant de s'assurer que son système fournit la meilleure qualité de service possible et la mise à disposition d'informations pour investiguer lorsque ce n'est pas le cas (cf. eBook Observabilité). Probablement le mot le plus prononcé lors de la journée après « chaos » !

L’historique de SNCF Connect et le chaos engineering

Si le sujet est de plus en plus présent dans les conférences à travers le monde, force est de constater que peu d’équipes le mettent réellement en place. Voici notre histoire :

  • Fin 2015 : lancement dans l’aventure / premiers tests ;

  • En 2016 : création d’une communauté sur la résilience et les tests techniques & développement d’un outil adhoc : le bestiaire Chaos Engineering ;

  • En 2017 : sensibilisation des equipes (via des ateliers et des jeux par exemple) ;

  • En 2018 : phase de déploiement sur l’ensemble des applications ;

  • Fin 2018 : test grandeur nature avec la simulation de la perte d’un datacenter pour s’assurer qu’il n’y ait pas d’impacts pour nos voyageurs et mesurer notre capacité à remonter nos environnements en cas de crise.

Convaincus que « La connaissance est la seule chose qui s'accroît lorsqu'on la partage » (Sacha Boudjema), nous partageons notre expérience depuis 2017 sur des évènements majeurs de la communauté high-tech :

Enfin, à l’occasion du lancement de SNCF Connect, nous avons monté le premier meetup français sur le Chaos Engineering dans l’espace de co-construction OUI Work en novembre 2017.

Ce meetup a été suivi en 2018 de 4 autres meetups durant lesquels nous avons expérimenté différents ateliers, toujours dans l’optique d’améliorer nos connaissances et nos performances.


Partager cet article

Nombre de "j'aime" pour l'article Tout en ordre ! L'ingénierie du chaos chez SNCF Connect. Ajoutez un "j'aime".


7 membres ont déjà commenté cet article

izabela z.27 septembre 2022

Amazon, Veolia Water Technologies et DiUS fournissent des matériaux précieux pour organiser votre Gameday. OUI.sncf a décliné l'idée en développant Days-of-chaos, un gameday où Ops Team injecte des erreurs dans de vrais environnements de test fonctionnel des Feature Teams travaillant sur leurs applications, pas seulement Unicorns. Locations AWS. fnfmod.co

Philip B.11 octobre 2022

I spend a lot of time looking for informative pieces on the internet. There is obviously a lot to consider. In Features, I also believe you made some excellent choices. Fantastic effort, please keep it up! fireboyand-watergirl.io

inuano s.12 octobre 2022

From my experience, I see the post is useful and interesting
stumbleguysonline.io

hebe h.18 octobre 2022

I really like your point of view and perspective. Let's diggy.game s explore the underground world with me.

stephani l.22 octobre 2022

Traffic to SNCF is as big as slopeball.io proves one thing the website has a huge influence

Nous avons sélectionné pour vous