Méthodes de déduplication comparées

La déduplication des données fait essentiellement référence à l'élimination des données non uniques, c'est-à-dire redondantes.

Dans l'environnement informatique actuel, plusieurs copies de la même information existent partout dans la plupart des organisations. Prenez par exemple un document simple qui est copié au personnel d'une entreprise de 100 personnes. Ce document existera dans 100 endroits et, s'il est important, pourra être conservé pendant une période significative.Ensuite, supposons que quelqu'un édite le document ou y attache plus d'informations, 100 copies supplémentaires sont maintenant envoyées et probablement sauvegardées. C'est un exemple très simple, mais commun, de données dupliquées.

Vous pouvez aller plus loin et plonger dans le contenu réel du document et trouver de nombreux éléments communs qui existent. Un exemple serait un logo d'entreprise ou un bloc de signature, ces éléments sont utilisés à plusieurs reprises, mais chaque instance est identique. Il s'agit clairement d'un gaspillage important de ressources, et ce n'est pas seulement un problème de stockage. Cette énorme duplication inutile des données exerce une pression beaucoup plus forte sur toutes les parties de l'infrastructure informatique d'une organisation. Les contraintes de trafic réseau et les problèmes liés aux grands travaux de sauvegarde sont à l'avant-plan, sans parler de la gestion de ce problème toujours croissant. C'est le problème que la déduplication adresse et résout.

Pourquoi la déduplication suscite-t-elle autant d'intérêt dans les cercles informatiques aujourd'hui? 
Son jeu change la technologie et il ne sera pas long avant que chaque fournisseur de stockage offrira une solution qui inclura la déduplication. Permet d'examiner comment cela fonctionne.

Dans le processus de déduplication, les données en double sont identifiées puis supprimées, ne laissant qu'une seule copie des données à stocker. Cependant, un index de toutes les données est toujours conservé si ces données sont requises. La déduplication est capable de réduire la capacité de stockage requise car seules les données uniques sont stockées. Par exemple, un système de messagerie classique peut contenir 100 instances de la même pièce jointe d'un mégaoctet (1 Mo). Si la plate-forme de courrier électronique est sauvegardée ou archivée, les 100 instances sont sauvegardées, ce qui nécessite 100 Mo d'espace de stockage. Avec une forme de déduplication de données appelée Déduplication au niveau fichier ou SIS ( Single Instance Storage ), une seule instance du fichier est réellement stockée; chaque instance suivante est simplement référencée à la copie enregistrée. Dans cet exemple, une demande de stockage de 100 Mo peut être réduite à 1 Mo seulement.

Ceci est une explication simplifiée du processus, mais sert bien à illustrer les grandes économies potentielles possibles, même avec les méthodes de déduplication les plus simples. Microsoft Windows Storage Server et Windows Home Server constituent un bon exemple de mise en œuvre SIS commune. Tous deux utilisent cette technique pour augmenter considérablement l'utilisation efficace du stockage et réduire les temps de sauvegarde. La solution de sauvegarde d'ordinateur personnel dans Windows Home Server dispose d'un magasin à instance unique au niveau du cluster. Les clusters sont généralement des collections de données stockées sur le disque dur, d'une taille de 4 kilo-octets (Ko).Chaque sauvegarde est une sauvegarde complète, mais le serveur domestique ne stocke qu'une seule fois chaque cluster unique. Cela crée la commodité de temps de restauration des sauvegardes complètes (vous n'avez pas besoin de répéter l'historique) avec les performances de sauvegarde des sauvegardes incrémentielles. Pour plus d'informations sur Windows Home Server SIS, un «Technical Brief» est disponible auprès de Microsoft.

La déduplication n'est cependant pas limitée au SIS ou aux modèles de niveau fichier. La déduplication est appliquée au niveau du bloc afin de gagner encore de l'espace sur les systèmes de stockage de données. La déduplication au niveau des blocs analyse des fragments plus petits de données, en recherchant des chaînes identiques de code binaire. Une fois qu'une chaîne de code dupliquée est identifiée, un hachage ou une empreinte numérique est créé pour identifier les données, une entrée est enregistrée dans l'index et un seul bloc de données est stocké. Parce qu'il est plus granulaire que SIS, il en résulte une énorme économie d'espace sur les périphériques de stockage, dans la plupart des cas, beaucoup plus que ce qui peut être archivé avec SIS.

Au fur et à mesure que les fournisseurs ont présenté leurs offres de dupés, de nouvelles méthodes et améliorations ont été développées. Certaines nouvelles méthodes ont apporté des améliorations significatives, tandis que d'autres étaient différentes uniquement en raison des limitations de la technologie préexistante des fournisseurs. Permet d'examiner certaines des principales variantes.

Déduplication pour la sauvegarde: Initialement, la sauvegarde disque à disque a apporté de nombreux avantages significatifs aux méthodes de sauvegarde, la plus importante étant les temps de récupération beaucoup plus rapides que possible à partir de la bande. Cette technique est devenue faisable avec l'avènement de grands disques SATA à moindre coût et d'une technologie RAID améliorée. Aujourd'hui, ce stockage secondaire est idéal pour bénéficier de la duplication. En supprimant les données redondantes, moins d'espace est utilisé, ce qui permet une plus grande profondeur de rétention. Plus de versions de vos données de sauvegarde stockées près de la ligne.

Deux méthodes distinctes de déduplication sont utilisées pour la sauvegarde: la cible et la source.

Cible: la déduplication basée sur la cible utilise un périphérique de stockage sur disque comme référentiel de données ou cible. Les données sont transmises à la cible à l'aide d'un logiciel de sauvegarde standard. Une fois qu'il atteint l'appareil, la déduplication est traitée à mesure qu'elle entre dans la cible ( traitement en ligne ) ou est reçue par le périphérique dans son état de données brutes et est traitée après l'arrivée du travail de sauvegarde complet ( post-traitement) .Il y a des avantages et des inconvénients avec chacune de ces méthodes et il est important de choisir la bonne technologie pour votre environnement spécifique.

La ligne de produits Data Domain d'EMC est un bon exemple de technologie en ligne. Ces appareils ont une puissance de possession extrêmement rapide et efficace et sont spécialement conçus pour pouvoir traiter et dédupliquer des données aussi rapidement que possible. En fait, la performance du réseau est souvent considérée comme le facteur limitant de la vitesse de sauvegarde, plutôt que comme un traitement de déduplication. Un avantage clé avec les systèmes en ligne, tels que ceux-ci, est la possibilité de répliquer sur des sites de reprise après sinistre immédiatement en raison du fait que les données sont dédupliquées dès qu'elles sont reçues.

Les produits de post-traitement ingest les données dans le stockage local, puis traitent les données stockées. Dans certains produits, le processus de déduplication peut démarrer en même temps que la sauvegarde, mais dans la plupart des cas, le processus accuse un retard sur les données entrantes et peut prendre un temps considérable. Cette méthode évite le besoin de la puissance de traitement haute performance afin de réduire le coût. Cependant, il y a des compromis. Premièrement, vous ne pouvez pas répliquer des données tant que la sauvegarde entière n'est pas dédupliquée. Deuxièmement, la solution doit avoir plus de capacité de stockage sur disque qu'une méthode en ligne, car elle doit être capable de stocker une session de sauvegarde complète sous une forme non dupliquée.

Source: avec la déduplication basée sur la source, les données sont le plus souvent dédupliquées par des agents logiciels installés sur les serveurs sources, en collaboration avec l'appliance de déduplication centrale. Seules les données uniques sont envoyées sur le réseau. Outre les avantages en termes de capacité, la réduction du trafic réseau présente des avantages significatifs. Cela peut être très bénéfique pour les organisations ayant de grands campus ou des organisations disposant de bureaux distants, qui effectuent des sauvegardes vers un emplacement central.

Des exemples de déduplication basée sur la source sont Avamar d'EMC et Simpana 9 de CommVault. Avamar est basé sur une appliance de grille de stockage, et tarifé sur la capacité de cette appliance avec des agents logiciels illimités, sans coût supplémentaire pour les serveurs sources. Simpana 9 est une solution logicielle pure, et fonctionnera sur une large gamme de matériel. Cependant, les capacités de performance de l'équipement doivent être à la hauteur de la tâche, et CommVault fait quelques recommandations à cet égard. Les solutions logicielles offrent une grande flexibilité, mais souvent au prix d'une complexité accrue. Il est donc important que le fournisseur choisi soit expérimenté non seulement sur le produit choisi, mais également sur son adéquation à l'application spécifique.

Déduplication de stockage primaire: les mêmes processus de déduplication peuvent être appliqués aux systèmes de stockage principaux, en supprimant les données non uniques et en augmentant considérablement la capacité effective. Le stockage principal est généralement plus performant et donc plus coûteux, de sorte que cette application peut apporter une amélioration significative au retour sur investissement global. Les offres actuelles de déduplication de stockage primaire sont basées sur le post-traitement et exécutent généralement ce processus du jour au lendemain, ou à une période de demande plus faible, afin de réduire tout impact de traitement pendant les périodes de pointe. NetApp était leader dans ce domaine et propose depuis plusieurs années des déduplications primaires sur des produits sélectionnés.

Ratios de compression: Combien de données pourrez-vous stocker? C'est difficile de répondre sans expérience dans la spécification de ces solutions. Les questions auxquelles il faut répondre pour déterminer ce taux de compression efficace sont: dans quelle mesure vos données changent-elles, combien de sauvegardes faites-vous par jour ou par heure? Il s'ensuit que plus les données sont modifiées et plus les sauvegardes sont importantes, plus la déduplication effective sera faible, mais en raison de l'utilisation d'un examen au niveau bloc des données, ces ratios resteront très significatifs.

Types de fichiers: L'un des facteurs les plus importants qui affecte la capacité de dédupliquer des données est le type réel de données. En général, les données qui ont un caractère aléatoire sont moins susceptibles d'être effectivement réduites en taille. Des exemples de cela sont des données cryptées, des fichiers vidéo et d'autres fichiers graphiques. D'un autre côté, les données commerciales générales, les systèmes d'exploitation, les courriels et les documents produisent tous des réductions très importantes. La déduplication excelle dans les environnements virtualisés où plusieurs clones d'un environnement d'exploitation sont communs.

Environnements virtualisés: La déduplication des données est un outil particulièrement précieux dans l'environnement VMware car il y a souvent beaucoup de duplication entre chacune des différentes instances de serveur virtuel. La possibilité de dédupliquer les fichiers VMDK, nécessaires au déploiement des environnements virtuels, et les fichiers instantanés, tels que VMSN et VMSD, entraîneront des économies considérables par rapport aux méthodes de sauvegarde sur disque conventionnelles et permettront d'avoir plus de points de récupération.

Faire le bon choix: Bien qu'il soit raisonnablement clair que la déduplication apportera des avantages substantiels grâce à l'énorme efficacité qu'elle permet, il est beaucoup moins certain que ce soit la meilleure méthode à utiliser. Dans la plupart des cas, le choix sera influencé par l'infrastructure existante et les investissements les plus récents. Si, par exemple, vous avez récemment mis à jour votre suite de logiciels de sauvegarde, il est peu probable que vous souhaitiez effectuer un changement qui impliquait de le remplacer. Dans la plupart des cas, une solution basée sur une cible constituerait une bonne addition non perturbatrice.

Si un investissement récent était en stockage pour la sauvegarde D2D, l'ajout d'un logiciel fournissant la déduplication serait le meilleur choix. Le type de fichier et les contraintes réseau jouent également un rôle important dans la conception de la configuration optimale. La bonne nouvelle est qu'il existe certainement une solution de déduplication qui vous convient.

Open Storage Solutions connaît la déduplication: Avec le large choix de technologie de déduplication disponible aujourd'hui, il est facile de faire une erreur et de sélectionner une technologie moins qu'optimale. Il est extrêmement logique de nous parler de la meilleure façon de mettre en œuvre la déduplication dans votre environnement.

Nous ferons une évaluation simple de vos données réelles et vous montrerons ce que vous devriez attendre d'améliorations de capacité. Nous vous montrerons comment cette technologie peut réduire vos coûts et nous vous proposerons la meilleure technologie pour vos données spécifiques et votre topologie informatique.

En conclusion, la déduplication des données améliore la protection des données, augmente la rapidité du service et réduit les coûts. L'entreprise bénéficie de la déduplication des données en commençant par augmenter l'intégrité globale des données et en finissant par réduire les coûts globaux de protection des données.La déduplication des données permet aux utilisateurs de réduire considérablement la quantité de disque dont ils ont besoin pour la sauvegarde. Avec des coûts d'acquisition réduits et des besoins réduits en termes de puissance, d'espace et de refroidissement, le disque devient approprié pour la sauvegarde et la restauration de premier niveau, et pour la rétention qui peut facilement s'étendre sur plusieurs mois. Avec les données sur disque, les niveaux de service de restauration sont plus élevés, les erreurs de gestion des supports sont réduites et davantage de points de récupération sont disponibles sur les supports de récupération rapide. La déduplication des données peut également réduire les données qui doivent être envoyées sur un réseau étendu pour les sauvegardes à distance, la réplication et la reprise après sinistre.

Prochaine étape: essayez notre calculatrice en ligne pour un retour instantané des résultats attendus, puis appelez-nous pour une évaluation gratuite.

Appelez-nous aujourd'hui. 1 800 387 3419