RAID (éventail redondant de disques indépendants), à l'origine connu sous le nom de gamme redondante de disques bon marché, a été proposé pour la première fois par le professeur Da Patterson de l'Université de Californie à Berkeley dans le journal "un cas de dose redondante de disques peu coûteux" en 1988. À cela, à cela, à cela. Le temps, les disques de grande capacité étaient chers, donc l'idée de base de RAID était de combiner organiquement plusieurs disques de petite capacité et relativement peu coûteux pour obtenir la capacité, les performances et la fiabilité équivalentes à des disques de grande capacité coûteux à moindre coût. Alors que le coût et le prix des disques continuaient de diminuer, le terme "bon marché" est devenu dénué de sens, et le RAID Advisory Board (RAB) a décidé de remplacer "bon marché" par "indépendant".
Cette idée de conception de RAID a été rapidement adoptée par l'industrie. La technologie RAID, en tant que technologie de stockage haute performance et très fiable, a été largement appliquée. RAID utilise principalement des technologies de rayures, de miroir et de parité de données pour réaliser RAID offrant plusieurs avantages notables. Premièrement, il offre une grande capacité. Comprenant plusieurs disques, les systèmes RAID peuvent atteindre le stockage de niveau PB car les disques uniques dépassent désormais 1 To, bien que la capacité disponible soit inférieure au total en raison de la surcharge de redondance, variant généralement de 50% à 90%. Deuxièmement, des performances élevées sont obtenues via le rayonnement des données, qui distribue des E / S sur les disques, surmontant le goulot d'étranglement des performances à un disque. Troisièmement, la fiabilité est améliorée. Contrairement à la préoccupation théorique du manque de fiabilité multi-disques, RAID utilise la mise en miroir et la parité des données pour garantir la disponibilité des données même lorsque plusieurs disques échouent. Enfin, la gestion est simplifiée. En tant que technologie de virtualisation, RAID apparaît comme un lecteur logique des systèmes hôte, permettant une organisation de données facile pour les utilisateurs et réduisant les tâches administratives avec des fonctionnalités telles que les modifications de disque dynamique et les processus de données automatisés. Haute performance, fiabilité, tolérance aux défauts et évolutivité. Selon les stratégies et les architectures de l'utilisation ou de la combinaison de ces trois technologies, RAID peut être divisé en différents niveaux pour répondre aux besoins des différentes applications de données. Les niveaux de RAID d'origine RAID1-RAID5 ont été définis dans l'article par Da Patterson et al., Et RAID0 et RAID6 ont été élargis depuis 1988. Ces dernières années, les vendeurs de stockage ont été introduits en permanence des niveaux de RAID tels que RAID7, RAID10 / 01, RAID50, RAID53 et RAID100, mais il n'y a pas de norme unifiée. À l'heure actuelle, les normes reconnues par l'industrie sont RAID0-Raid5, et les quatre niveaux, sauf RAID2, ont été établis comme des normes industrielles. Les niveaux de RAID les plus couramment utilisés dans le champ d'application réel sont RAID0, RAID1, RAID3, RAID5, RAID6 et RAID10.
Du point de vue de la mise en œuvre, RAID est principalement divisé en trois types: Raid logiciel, raid matériel et raid hybride. Pour les raids logiciels, toutes les fonctions sont remplies par le système d'exploitation et le CPU, et il n'y a pas de puce de contrôle / traitement RAID indépendante et de puce de traitement d'E / S, donc l'efficacité est la plus faible. Le raid matériel est équipé d'une puce de contrôle / traitement des raids spéciaux et de puce de traitement d'E / S ainsi qu'un tampon de réseau, et n'occupe pas les ressources CPU, mais le coût est très élevé. Hybrid Raid a une puce de contrôle / traitement RAID mais n'a pas de puce de traitement d'E / S, et a besoin des programmes CPU et Driver, et ses performances et ses coûts sont entre le raid logiciel et le raid matériel.
Chaque niveau RAID représente une méthode et une technologie de mise en œuvre, et il n'y a pas de distinction entre les niveaux élevés et bas. Dans les applications pratiques, le niveau de RAID approprié et la méthode de mise en œuvre spécifique doivent être sélectionnés en fonction des caractéristiques des applications de données utilisateur, et la disponibilité, les performances et les coûts doivent être considérés de manière globale.
Principes de base
Le RAID, à savoir la gamme redondante de disques indépendants, est généralement abrégé sous forme de tableau de disque. En bref, RAID est un sous-système de disque composé de multiples disques de disque haute performance indépendants, qui fournit des performances de stockage et une technologie de redondance de données plus élevées qu'un seul disque. RAID est une technologie de gestion multi-disques qui fournit une fiabilité des données et un stockage élevés rentables et à haute performance dans l'environnement hôte. La définition du raid par Snia est: un tableau de disque dans lequel une partie de l'espace de stockage physique est utilisée pour enregistrer les informations redondantes des données utilisateur stockées dans l'espace restant. Lorsqu'un disque ou un chemin d'accès échoue, les informations redondantes peuvent être utilisées pour reconstruire les données de l'utilisateur. Bien que le rayage du disque ne soit pas conforme à la définition du RAID, il est généralement également appelé RAID (c.-à-d. RAID0).
L'intention initiale de RAID était de fournir des fonctions de stockage haut de gamme et une sécurité de données redondantes pour les gros serveurs. Dans l'ensemble du système, RAID est considéré comme un espace de stockage composé de deux disques ou plus, et les performances d'E / S du système de stockage sont améliorées en lisant et en écrivant des données sur plusieurs disques simultanément. La plupart des niveaux de RAID ont des mesures complètes de vérification et de correction des données, et même des méthodes de miroir, qui améliorent considérablement la fiabilité du système, et c'est de là que vient "redondant".
Ici, nous devons mentionner JBOD (juste un tas de disques). Initialement, JBOD a été utilisé pour représenter une collection de disques sans logiciel de contrôle pour fournir un contrôle coordonné, qui est le principal facteur distinguant le raid de JBOD. À l'heure actuelle, JBOD fait souvent référence à une enceinte de disque, qu'elle offre ou non des fonctionnalités de raid.
Les deux objectifs clés du RAID sont d'améliorer la fiabilité des données et les performances d'E / S. Dans le réseau de disques, les données sont dispersées entre plusieurs disques, mais pour le système informatique, il ressemble à un seul disque. La redondance est réalisée en écrivant les mêmes données sur plusieurs disques (en miroir généralement) ou en écrivant les données de parité calculées dans le tableau, afin que la perte de données ne soit pas causée lorsqu'un seul disque échoue. Certains niveaux de RAID permettent à plus de disques d'échouer en même temps, comme RAID6, où deux disques peuvent être endommagés en même temps.
Sous un tel mécanisme de redondance, le disque défaillant peut être remplacé par un nouveau disque et RAID reconstruire automatiquement les données perdues en fonction des données et des données de parité sur les disques restants pour garantir la cohérence et l'intégrité des données. Les données sont dispersées et stockées sur plusieurs disques différents dans RAID, et la lecture et l'écriture des données simultanées sont bien meilleures que celles d'un seul disque, donc une bande passante d'E / S agrégée plus élevée peut être obtenue. Bien sûr, le réseau de disques réduira l'espace de stockage total disponible de tous les disques, sacrifiant l'espace en échange d'une fiabilité et d'une performance plus élevées. Par exemple, l'utilisation de l'espace de stockage de RAID1 n'est que de 50%, et RAID5 perdra la capacité de stockage d'un disque, et l'utilisation de l'espace est (n-1) / n.
Le réseau de disques peut garantir le fonctionnement continu du système sans interruption lorsque certains disques (uniques ou multiples, selon l'implémentation) sont endommagés. Pendant le processus de reconstruction des données du disque défaillant vers le nouveau disque, le système peut continuer à fonctionner normalement, mais les performances seront réduites dans une certaine mesure. Certains tableaux de disque doivent être arrêtés lors de l'ajout ou de la suppression des disques, tandis que certains prennent en charge l'échange chaud, permettant le remplacement des disques sans s'arrêter. Ce réseau de disques haut de gamme est principalement utilisé dans les systèmes d'application avec des exigences élevées pour la fiabilité, et le système ne peut pas être arrêté ou le temps d'arrêt devrait être aussi court que possible.
D'une manière générale, RAID ne peut pas remplacer la sauvegarde des données. Il est impuissant à la perte de données causée par des défaillances non disques, telles que les virus, la destruction humaine, la suppression accidentelle, etc. À l'heure actuelle, la perte de données est relative au système d'exploitation, au système de fichiers, au gestionnaire de volume ou au système d'application. Pour le système RAID lui-même, les données sont intactes et aucune perte ne s'est produite. Par conséquent, la sauvegarde des données, la reprise après sinistre et d'autres mesures de protection des données sont très nécessaires, ce qui complète les raids et protège la sécurité des données à différents niveaux pour éviter la perte de données.
Il existe trois concepts et technologies clés dans RAID: la mise en miroir, le rayage des données et la parité des données. La mise en miroir copie les données sur plusieurs disques. D'une part, il peut améliorer la fiabilité, et d'autre part, il peut lire les données de deux copies ou plus simultanément pour améliorer les performances de lecture. De toute évidence, les performances d'écriture de la mise en miroir sont légèrement inférieures, et il faut plus de temps pour s'assurer que les données sont correctement écrites sur plusieurs disques. Données de données Stores Les tranches de données sur plusieurs disques différents, et plusieurs tranches de données forment ensemble une copie complète de données, qui est différente des multiples copies de la miroir et est généralement utilisée pour les considérations de performances. Le rayonnement des données a une granularité de concurrence plus élevée.
Lorsque vous accédez aux données, il est possible de lire et d'écrire des données sur différents disques en même temps, obtenant ainsi une amélioration des performances d'E / S très significative. La parité des données utilise des données redondantes pour la détection et la réparation des erreurs de données. Les données redondantes sont généralement calculées par des algorithmes tels que le code Hamming et l'opération XOR. L'utilisation de la fonction de parité peut considérablement améliorer la fiabilité, la robustesse et la tolérance aux pannes du réseau de disques. Cependant, la parité des données doit lire les données de plusieurs endroits et effectuer des calculs et des comparaisons, ce qui affectera les performances du système. Différents niveaux de RAID adoptent une ou plusieurs des trois technologies ci-dessus pour obtenir différentes fiabilité des données, disponibilité et performance d'E / S. Quant au type de raid (même de nouveaux niveaux ou de types) à concevoir ou quel mode de raid adopter, il est nécessaire de faire un choix raisonnable sous la prémisse de comprendre profondément les exigences du système et d'évaluer de manière approfondie la fiabilité, les performances et le coût de faire un choix de compromis.
Avantages du raid
- Grande capacité: il s'agit d'un avantage évident du raid. Il élargit la capacité du disque et le système RAID composé de disques multiples a un énorme espace de stockage. Désormais, la capacité d'un seul disque peut atteindre plus de 1 To, de sorte que la capacité de stockage du RAID peut atteindre le niveau PB, et la plupart des exigences de stockage peuvent être satisfaites. D'une manière générale, la capacité disponible de RAID est inférieure à la capacité totale de tous les disques membres. Différents niveaux d'algorithmes RAID nécessitent une certaine frais générale de redondance, et la surcharge de capacité spécifique est liée à l'algorithme adopté. Si l'algorithme et la capacité RAID sont connues, la capacité disponible de RAID peut être calculée. Habituellement, l'utilisation de la capacité du RAID est comprise entre 50% et 90%.
- Haute performance: la haute performance du RAID bénéficie de la technologie de rayures de données. Les performances d'E / S d'un seul disque sont limitées par les technologies informatiques telles que l'interface et la bande passante, et est souvent le goulot d'étranglement des performances du système. Grâce à un rayonnement de données, RAID distribue les E / S de données à chaque disque de membre, obtenant ainsi les performances d'E / S agrégées qui est plusieurs fois plus élevée que celle d'un seul disque.
- Fiabilité: la disponibilité et la fiabilité sont une autre caractéristique importante du RAID. Théoriquement, la fiabilité d'un système RAID composé de disques multiples devrait être pire que celle d'un seul disque. Il y a une hypothèse implicite ici: une seule défaillance du disque entraînera l'indisponible du raid entier. RAID utilise des technologies de redondance des données telles que la mise en miroir et la parité des données pour briser cette hypothèse. La mise en miroir est la technologie de redondance la plus primitive, qui copie complètement les données sur un certain groupe de disques à un autre groupe de disques pour s'assurer qu'il existe toujours une copie de données disponible. Par rapport aux frais généraux de redondance à 50% de la mise en miroir, la parité des données est beaucoup plus petite et utilise les informations redondantes de parité pour vérifier et corriger les données. La technologie de redondance de RAID améliore considérablement la disponibilité et la fiabilité des données et garantit que lorsque plusieurs disques échouent, les données ne seront pas perdues et le fonctionnement continu du système ne sera pas affecté.
- Managabilité: En fait, RAID est une technologie de virtualisation qui virtualise plusieurs entraînements de disque physique dans un lecteur logique de grande capacité. Pour le système hôte externe, RAID est un lecteur de disque à grande capacité unique, rapide et fiable. De cette façon, les utilisateurs peuvent organiser et stocker les données du système d'application sur ce lecteur virtuel. Du point de vue de l'application utilisateur, il peut rendre le système de stockage simple et facile à utiliser et à gérer. Étant donné que RAID a terminé une grande quantité de travail de gestion du stockage en interne, l'administrateur n'a besoin que de gérer un seul lecteur virtuel, ce qui peut économiser beaucoup de travail de gestion. RAID peut ajouter ou supprimer dynamiquement les lecteurs de disque et effectuer automatiquement la vérification des données et la reconstruction des données, ce qui peut simplifier considérablement les travaux de gestion.
En résumé, RAID se démarque de sa grande capacité, de sa grande performance, de sa fiabilité accrue et de sa gestion simplifiée. Ces avantages en font une solution de stockage indispensable à travers un large éventail d'applications, répondant aux exigences croissantes de données des environnements informatiques modernes tout en garantissant un fonctionnement transparent et une intégrité des données.