Chaque mois, vous êtes en moyenne 16 millions de visiteurs uniques sur le site français SNCF Connect et vous êtes très nombreux lors d'opération spéciales comme les ouvertures de vente de billets ! Pour prévenir le moindre couac sur notre site et vous offrir la meilleure expérience de navigation, nous appliquons la discipline du Chaos Engineering.
L’ingénierie du chaos : qu’est-ce que c’est ?
Le chaos, c’est cette situation de désordre et de confusion la plus totale. Un peu comme un jour de soldes dans un grand magasin… Jusqu’ici, vous maîtrisez les bases du concept.
L’ingénierie du chaos, c’est tester une situation de désordre et de confusion sur un système informatique de production – c’est-à-dire un réseau d’équipements informatiques liés entre eux et partageant des ressources. Le but : identifier les failles et renforcer les systèmes. Car oui, les incidents peuvent se multiplier et perturber gravement le système. Le risque est, vous vous en doutez, majeur.
Chez SNCF Connect, nous appliquons cette discipline depuis 2015 pour vous permettre de naviguer et réserver vos voyages sur notre site ou dans notre appli dans les meilleures conditions. Surtout lorsque vous réservez 40 billets toutes les secondes, comme à l'occasion de la récente ouverture des ventes de billets pour Noël !
La première conférence mondiale de la communauté Chaos Engineering : on y était !
Le 28 septembre dernier, à San Francisco, nous avons été sélectionnés pour participer à une journée dédiée à cette discipline émergente, la Chaos Conf. L’occasion de rencontrer nos homologues, échanger sur nos pratiques mais aussi contribuer à l’accroissement de la connaissance sur le sujet.
Ce que nous avons présenté ?
Une conférence pour inciter les professionnels à faire la promotion de la démarche auprès de leurs directions d’entreprise. À écouter et re-écouter juste ici : How to Convince Your Boss and Make Them Say "Yes!" to Chaos Engineering ».
Ce qu’on en retient ?
Et deux sujets inspirants :
- La taxonomie des incidents : désigne un langage, une terminologie et des définitions communes permettant d'atténuer les problèmes de communication entre les personnes travaillant sur la résilience (résistance au choc).
-
L’observabilité : un ensemble de moyens et pratiques permettant de s'assurer que son système fournit la meilleure qualité de service possible et la mise à disposition d'informations pour investiguer lorsque ce n'est pas le cas (cf. eBook Observabilité). Probablement le mot le plus prononcé lors de la journée après « chaos » !
L’historique de SNCF Connect et le chaos engineering
Si le sujet est de plus en plus présent dans les conférences à travers le monde, force est de constater que peu d’équipes le mettent réellement en place. Voici notre histoire :
-
Fin 2015 : lancement dans l’aventure / premiers tests ;
-
En 2016 : création d’une communauté sur la résilience et les tests techniques & développement d’un outil adhoc : le bestiaire Chaos Engineering ;
-
En 2017 : sensibilisation des equipes (via des ateliers et des jeux par exemple) ;
-
En 2018 : phase de déploiement sur l’ensemble des applications ;
-
Fin 2018 : test grandeur nature avec la simulation de la perte d’un datacenter pour s’assurer qu’il n’y ait pas d’impacts pour nos voyageurs et mesurer notre capacité à remonter nos environnements en cas de crise.
Convaincus que « La connaissance est la seule chose qui s'accroît lorsqu'on la partage » (Sacha Boudjema), nous partageons notre expérience depuis 2017 sur des évènements majeurs de la communauté high-tech :
-
DevOps REX en octobre 2017 ;
-
Devoxx France, la conférence des développeurs passionnés : Chaos Engineering, principes et mise en application ;
-
JFTL – Journée Française des Tests Logiciels, Keynote « Chaos Engineering : et si on testait en production ? » ;
-
Agile France - Chaos Engineering - Application et Implication.
Enfin, à l’occasion du lancement de SNCF Connect, nous avons monté le premier meetup français sur le Chaos Engineering dans l’espace de co-construction OUI Work en novembre 2017.
Ce meetup a été suivi en 2018 de 4 autres meetups durant lesquels nous avons expérimenté différents ateliers, toujours dans l’optique d’améliorer nos connaissances et nos performances.
7 membres ont déjà commenté