Outils pour utilisateurs

Outils du site


sisr4:sauv:sauvstrategies:sauvegarde_des_donnees_numeriques:strategies

SAUVEGARDE DES DONNEES NUMERIQUES : STRATEGIES

LES GRANDS PRINCIPES GENERAUX

La sauvegarde (backup) est l'opération qui consiste à dupliquer et à mettre en sécurité les données contenues dans un système informatique.

Ce terme est proche de deux notions :

  • l'enregistrement des données, qui est l'opération d'écriture des données sur un support d'enregistrement durable, tel qu'un disque magnétique ou SSD, disque optique, une clé USB, des bandes magnétiques, etc. à des fins de sécurité.
  • l'archivage, qui consiste à enregistrer des données sur un support à des fins légales ou historiques.

La duplication du contenu des disques sur d'autres supports non amovibles (mirroring, technologies RAID) ne peut EN AUCUN CAS être considérée comme une sauvegarde et ce, pour les raisons suivantes :

  • le support n'est pas amovible ce qui ne permet pas le stockage du support dans un lieu tiers,
  • la capacité de stockage des supports « embarqués » est nécessairement limitée (un disque possède une capacité finie non extensible). Il n'est donc pas possible d'adapter la capacité du support de stockage au volume sans cesse croissant des données à sauvegarder.
Un dispositif de sauvegarde est d'abord et avant tout caractérisé par l'AMOVIBILITE DU SUPPORT ou par le fait que le SUPPORT soit DISTANT GEOGRAPHIQUEMENT.

A noter que l'industrie des dispositifs de sauvegarde est en pleine expansion. Les contraintes d'un responsable informatique sont de 3 ordres :

  • Quantité de données à sauvegarder sans cesse croissante,
  • Plage de temps réservée aux opérations de sauvegarde sans cesse réduite.
  • Contrainte de coût.

Pour ces 3 raisons, le responsable d'exploitation est de plus en plus exigeant lors du choix des dispositifs de sauvegarde. L'on s'oriente de plus en plus vers des dispositifs capables de sauvegarder en temps réel et sur le réseau.

LES 2 GRANDES CATEGORIES DE DISPOSITIFS DE SAUVEGARDE

Il existe 2 grandes catégories de systèmes :

  • les systèmes permettant l'accès direct aux données (les données sont en permanence visibles par le système d'exploitation car vues comme partie intégrante du système de fichiers) : disques magnétiques amovibles ou distants, disques magnéto-optiques, optiques (DVD réinscriptibles ou non) Plus pratique mais plus onéreux.
  • Les systèmes basés sur une copie séquentielle des données qui ne sont plus directement utilisables (visibles) par le système d'exploitation (pour être utilisées, les données doivent être rechargées du support de sauvegarde vers les disques du système) : dispositifs à bande magnétique. Moins pratique mais très bon marché (en terme de coût du bit mémorisé).

OBJECTIFS

Les copies de sûreté sont utiles principalement à 2 choses :

  • La première et la plus évidente est de permettre de restaurer un système informatique dans un état de fonctionnement suite à un incident hardware (perte d'un support de stockage tel que disque dur, bande magnétique, etc., et de tout ou partie des données qu'il contient).
  • La seconde est de faciliter la restauration d'une partie d'un système informatique (un fichier, un groupe de fichiers, un système d'exploitation, une donnée dans un fichier, etc.) suite à une suppression accidentelle ou malveillante ou à une modification non désirée. (incident software lié à une erreur ou malveillance humaine)

La technique la plus fréquente est la recopie des données sur un support indépendant (donc forcément amovible ou distant) du système initial (ordinateur local, serveur, etc…).

L'opération inverse qui consiste à réutiliser des données sauvegardées s'appelle une restauration.

CRITÈRES DE CHOIX

Le choix d'une technique de sauvegarde se fera en prenant en compte :

  • la capacité de stockage du support (le volume d'information)
  • la vitesse de sauvegarde,
  • la fiabilité du support (notamment après une longue période de stockage),
  • la simplicité de classement,
  • la facilité à restaurer les données,
  • le coût de l'ensemble.

Intervient également la possibilité de sélectionner les données à sauvegarder. Enfin pour les grands systèmes de sauvegarde, il faut tenir compte de critères physiques : volume physique des supports de stockage, poids, sensibilité à la température, à l'humidité, à la poussière, à la lumière.

Sauvegarder n'est pas archiver (même si les techniques sont souvent les mêmes… )

NOTION D'ARCHIVAGE : voir annexe.

TYPES DE SAUVEGARDE

On distingue :

  • la sauvegarde d'un poste client,
  • et la sauvegarde sur serveur.

L'une et l'autre s'adressent à la même nature d'information (la donnée numérique) et ont le même objectif (protéger l'information et permettre de la retrouver si elle était perdue), mais les méthodes de sauvegarde sont différentes pour plusieurs raisons :

  • les données sur poste client sont réputées moins importantes que les données gérées sur des systèmes centraux ;
  • les utilisateurs sont moins sensibilisés au risque de perte de données que les professionnels de l'informatique ;
  • ils ont également moins de formation sur les techniques de sauvegarde ;
  • les moyens techniques sont moins développés sur poste individuel que sur serveur, même si des progrès importants ont été réalisés ces dernières années (chute du rapport coût/volume des supports de sauvegarde, simplification des interfaces de sauvegarde, sauvegarde sans intervention de l'utilisateur, etc.)

De fait, la sauvegarde des données des postes individuels reste marginale dans la stratégie d'utilisation des ordinateurs. Cependant les entreprises, en généralisant l'usage des micro-ordinateurs et du partage des ressources en réseau, ont ressenti un besoin de sécurité qui a favorisé le développement d'outils de sauvegarde sur micro-ordinateurs, lesquels gagnent petit à petit le monde de la micro-informatique personnelle.

Evolution récente et future : la virtualisation des stations de travail va sans doute rendre obsolète les outils classiquement utilisés pour sauvegarder les données des utilisateurs.

Sauvegarde sur serveur

La sauvegarde s'inscrit dans une démarche plus globale qui consiste à assurer la continuité d'activité d'un système informatique ou, en cas de défaillance, son redémarrage le plus vite possible. Cette démarche est souvent formalisée dans un document qui peut porter des noms divers, par exemple le Plan de Reprise d'Activité (PRA) ou le plan de secours, et qui fait appel soit à des automatismes (ex. donner l'alerte en cas de coupure de courant ou de perte d'accès à une unité de stockage) soit à des gestes manuels (ex. remplacer des bandes magnétiques défectueuses). La tendance est à l'automatisation, réputée plus sûre dans les situations d'urgence que les opérations manuelles.

En terme de support, les serveurs ont depuis toujours requis des supports à grande capacité de stockage. La bande magnétique a longtemps été le principal vecteur, du fait de sa grande capacité, de son coût faible (par rapport aux autres supports), de sa capacité de réutilisation et de sa relative stabilité au temps et à l'usure. Puis sont venus les cartouches numériques (bandes magnétiques intégrées dans un boîtier plastique type DAT, DLT, SDLT, LTO), les disques durs, les médias optiques, ré-inscriptibles ou non, tels que les CD-R, DVD-R ou formats similaires et maintenant les disques SSD.

Sauvegarde sur système client

Au cours des années 1975–95, la plupart des utilisateurs d'ordinateurs personnels (PC) associaient principalement le terme “backup” au fait de faire des copies sur disquettes. Avec le développement de micro-ordinateurs mieux équipés, les utilisateurs personnels ont adopté des supports plus performants : disques optiques (CD-ROM ou DVD), .clés USB, voire, plus récemment dispositifs NAS à base de disques durs.

De même, les ordinateurs intègrent des fonctions de sauvegarde de plus en plus évoluées, par exemple :

  • des outils intégrés au système d'exploitation tels que les “points de restauration” que l'on peut exécuter avant d'installer un nouveau logiciel et qui remettront le système en l'état d'avant l'installation si l'utilisateur le demande ;
  • des logiciels capables de faire une image parfaite du système à un moment donné : cette image sera stockée sur l'ordinateur lui-même (peu recommandé) ou sur un support externe.

Sauvegarde sur « le nuage » comme SaaS.

Aujourd'hui, les copies de sûreté dites “en ligne” deviennent populaires et, avec la banalisation des connexions Internet à large bande et à haut débit, de plus en plus d’utilisateurs recourent à ce type de service de sauvegarde. Elles consistent à se connecter à un site Internet, appelé “hébergeur”, et à y transférer ses données. Les avantages sont multiples :

  • minimiser le risque de perte puisque le site est géré par un professionnel qui fait lui-même des sauvegardes;
  • accéder à ses données à partir de n'importe quel ordinateur connecté à Internet;

Souvent le coût de cette prestation est modique, parfois même gratuit pour les très petites sauvegardes. L'inconvénient majeur est de laisser ses données à disposition d'un tiers qui peut à loisir les consulter, les modifier, les dupliquer, les publier ou en faire commerce ; et même les rendre indisponibles (cas des faillites, rachats de sites par des concurrents, ou différend commercial avec l'hébergeur). Évidemment, des dispositions contractuelles viennent réguler ces risques mais elles ne peuvent empêcher l'hébergeur d'agir techniquement de façon malveillante.

Une des parades à la consultation abusive consiste à chiffrer les données.

Un autre inconvénient vient des limites imposées sur le stockage ou la récupération des données : pour maîtriser l'usage de ses disques et de sa bande passante, un hébergeur peut limiter contractuellement son client à un volume de stockage ou de données consultées au-delà duquel il bloque l'accès aux données.

Solution de sauvegarde en ligne professionnelle

MÉTHODES DE SAUVEGARDE LES PLUS COURANTES

SAUVEGARDE COMPLETE

La méthode la plus simple est la sauvegarde complète ou totale (appelée aussi “full backup”) : elle consiste à copier toutes les données à sauvegarder que celles-ci soient récentes, anciennes, modifiées ou non. Cette méthode est aussi la plus fiable mais elle est longue et très coûteuse en termes d'espace disque, ce qui empêche de l'utiliser en pratique pour toutes les sauvegardes à effectuer.

Afin de gagner en rapidité et en temps de sauvegarde, il existe des méthodes qui procèdent à la sauvegarde des seules données modifiées et/ou ajoutées entre deux sauvegardes totales. On en recense essentiellement 2 :

  • La sauvegarde différentielle
  • La sauvegarde incrémentielle

SAUVEGARDE DIFFÉRENTIELLE

La sauvegarde différentielle effectue une copie des fichiers créés ou modifiés depuis la dernière sauvegarde complète, quelles que soient les sauvegardes intermédiaires.

En d'autres termes, la sauvegarde complète du jour J sert de référence pour identifier les fichiers créés, modifiés ou ajoutés et ainsi ne sauvegarder que ces derniers du jour J+1 au jour J+6.

La restauration faite à partir de ce type de sauvegarde nécessite la recopie sur disque de la dernière sauvegarde complète et de la sauvegarde différentielle la plus récente. Avec notre exemple, si la restauration se porte sur un disque complet qui a été sauvegardé le jour J+2, on doit alors recopier sur disque la sauvegarde complète du jour J et la sauvegarde différentielle du jour J+2 afin d'avoir la dernière version des données. Cependant lorsqu'il s'agit de la restauration d'un fichier ou d'un répertoire qui a été sauvegardé le jour J+2 seule la dernière sauvegarde, ici la différentielle, est utile.

SAUVEGARDE INCRÉMENTIELLE (ou INCREMENTALE)

Cette méthode consiste à sauvegarder les fichiers créés ou modifiés depuis la dernière sauvegarde quel que soit son type (complète, différentielle ou incrémentielle).

Exemple : une sauvegarde complète est réalisée le jour J. Le jour J+1, la sauvegarde incrémentielle est réalisée par référence au jour J. Le jour J+2, la sauvegarde incrémentielle est réalisée par référence au jour J+1. Et ainsi de suite.

Si la restauration se porte sur un disque complet qui a été sauvegardé le jour J+4, on doit alors recopier sur disque la sauvegarde du jour J et les sauvegardes incrémentielles des jours J+1, J+2, J+3 et J+4 afin d'obtenir la dernière version de la totalité des données.

Cependant lorsqu'il s'agit de la restauration d'un fichier ou d'un répertoire qui a été sauvegardé le jour J+3, seule la dernière sauvegarde, ici l'incrémentielle, est utile.

Techniques complémentaires

Le volume (sans cesse croissant) des volumes de données à sauvegarder implique souvent l'utilisation de techniques comme :

  • compression des données sauvegardées, utilisé par la majorité des solutions de sauvegarde,
  • snapshot: prise d'image instantanée d'un disque, en particulier dans un SAN.

LES OUTILS DE SAUVEGARDE EN ENVIRONNEMENT LINUX

SAUVEGARDE DE FICHIERS

  • tar
  • cpio
  • pax

SAUVEGARDE PHYSIQUE (bit à bit)

  • dd

SAUVEGARDE D'IMAGES

  • partimage
  • clonezilla

SAUVEGARDE SYSTEME INCREMENTALE de FS

  • dump/restore (ext2/ext3)
  • xfsdump/xfsrestore (xfs)

SAUVEGARDE COMPLETE (BARE METAL)

  • Mondo

SAUVEGARDE CLIENT-SERVEUR

  • Bacula (Open Source)
  • Amanda (Open Source)
  • BackupPC (Open Source)
  • Arkeia
  • Networker
  • Tina

SYNCHRONISATION DE REPERTOIRES

  • rsync

~~DISCUSSION~~

sisr4/sauv/sauvstrategies/sauvegarde_des_donnees_numeriques/strategies.txt · Dernière modification: 2020/06/08 12:18 (modification externe)