Ci-après différentes notes liées aux deux exercices de PRA (un de test sur un périmètre limité et un vrai sur un périmètre complet) que j'ai vécu au mois de septembre :

  • Il est impératif de communiquer et de s'assurer que la communication est bien descendue à travers toute l'entreprise. Cela évite les mauvaises surprises pour les utilisateurs et les grognements de ces mêmes utilisateurs pendant l'opération de PRA (et qui font perdre du temps et de l'énergie aux équipes mobilisées)
  • Pour un exercice de PRA à une date donnée, il est impératif d'impliquer le plus tôt possible les principales personnes impactées par l'opération afin de s'assurer que rien n'est oublié et que tous les environnements sont bien pris en charge (et par extension, que les utilisateurs de ces environnements soient bien prévenus de l'opération)
  • L'ordre d'arrêt est en général applicatif > base de données > service "bas niveau" (Annuaire, Messagerie, Contrôleur de Domaine, DNS, etc) > Système d'exploitation. Pour redémarrer, faire l'inverse. Le faire dans un autre ordre est contre productif
  • Dans le cadre d'une exercice préparatoire ou d'une simulation, il faut jouer le PRA dans des conditions de PRA et non des conditions approchant celles du PRA.
    • Une machine éteinte, cela n'est pas la même chose que la machine allumée mais avec l'applicatif éteint/arrêté par ex
    • Ca permet aussi d'avoir de bonnes surprises (oh tiens, un lien de secours est en place) et des mauvaises (tiens, une machine qui n'aurait pas du être impactée l'est suite à des histoires de routage par ex)
  • Pour les applications qui n'ont pas de PRA et qui ne seront donc pas disponible pendant l'exercice de PRA, s'assurer que par effet de dépendance, elles ne vont pas vous mettre une application hors service.
  • Pour les applications ayant un PRA actif, que ce soit pour le passage en PRA ou le retour en état nominal, veiller à ne pas perdre d'information et données (synchronisation de bases, fichiers, etc) et que les applications pointent bien vers les bons environnements (et non un mix d'environnement de prod et pra par ex). La désactivation des environnements de PRA peut aider à valider que le retour en prod est bien complet. Cela peut se faire en deux temps : arrêt des services, puis arrêt des environnements.
  • S'assurer bien sur que l'on a des sauvegardes et faire des tests de restauration
  • Avoir du matériel en stock pour palier aux pannes (alimentation, disques dur, etc)
  • Tester, tester et tester que tout est ok tant techniquement que fonctionnement.

Avis ? Questions ? Retours d'expérience ?