Sécurité de l’Infrastructure Jean-Noël Colin
[email protected] 1 Thursday 27 October 11
Agenda Introduction Single System High Availability Connectivité Disaster Recovery Data management Monitoring Contract matters Jean-Noël Colin, University of Namur
Thursday 27 October 11
2
Introduction Qu’est-ce que l’infrastructure? Matériel Ordinateurs (postes individuels, serveurs) Stockage Backup Imprimantes …
Réseau Datacenter
Loi de Murphy: “si quelque chose peut mal tourner, alors cette chose finira infailliblement par mal tourner” Jean-Noël Colin, University of Namur
Thursday 27 October 11
3
Introduction
Loi de Moore (1965): le nombre de transistors dans une puce double tous les 24 (18) mois.
Jean-Noël Colin, University of Namur
Thursday 27 October 11
4
Introduction Les capacités de stockage augmentent plus vite que la loi de Moore Kryder dans Scientific American, 2005:
Croissance annuelle (%) Complexité CPU Capacité mémoire Vitesse accès mémoire Capacité disque Vitesse disque Vitesse réseau
50 60 10 60 25 40
Capacité et performance des différents composants augmentent, mais pas au même rythme Impact sur les systèmes et les applications Jean-Noël Colin, University of Namur
Thursday 27 October 11
5
Introduction Objectifs de sécurité pour l’infrastructure Confidentialité Probablement moins important... Plus lié au contrôle d’accès
Integrité Availabilité Continuité du business IT en support au business Continuité des opérations IT
Autres termes: RAS – Reliability, Availability, Serviceability Jean-Noël Colin, University of Namur
Thursday 27 October 11
6
Introduction Disponibilité impactée par Organisation du travail: heures de bureau ou 24x7? Intervention planifiée Opération de maintenance Panne: deux mesures: MTBF – Mean Time Between Failure MTTR – Mean Time To Repair
Disponibilité = MTBF/(MTBF + MTTR) MTTR plus facile à améliorer que MTBF Meilleur matériel/vendeur Meilleur contrat de support Jean-Noël Colin, University of Namur
Thursday 27 October 11
7
Introduction Fiabilité Probabilité qu’un système ou un composant sera disponible sur une période de temps donnée
Maintenabilité Mesure de la facilité avec laquelle un système peut être maintenu ou réparé
Aussi simple que possible, aussi complexe que nécessaire 8 Thursday 27 October 11
Introduction
Fiche produit Sun Storage J4400 Array
Jean-Noël Colin, University of Namur
Thursday 27 October 11
9
Introduction
1.2M hrs MTBF ≈ 136 ans
Jean-Noël Colin, University of Namur
Thursday 27 October 11
10
Introduction Menaces Panne Erreur humaine Acte intentionnel Catastrophe naturelle
Principes généraux (parfois difficiles à concilier) Robustesse Minimiser la probabilité de panne
Viser la simplicité: KISS Redondance Eviter les ‘Single Points of Failure’ Granularité des observations Différents niveaux: composant - système Jean-Noël Colin, University of Namur
Thursday 27 October 11
11
Introduction Redondance Il ne suffit pas de dupliquer... il faut aussi gérer...
Gestion des pannes Basculement (failover) Gérer l’état sur les composants dupliqués
Jean-Noël Colin, University of Namur
Thursday 27 October 11
12
Système isolé Vue simplifiée de l’ordinateur
Jean-Noël Colin, University of Namur
Thursday 27 October 11
13
Système isolé Fiabilité du matériel
Jean-Noël Colin, University of Namur
Thursday 27 October 11
14
Système isolé Processeur (CPU) Multiples CPU Multiples cartes CPU Activer/déactiver Hot swap
Memoire Détection d’erreur Correction d’erreur “Memory scrubbing” Jean-Noël Colin, University of Namur
Thursday 27 October 11
15
Système isolé Bus système et backplane Interconnection des composants Reprise sur panne limitée Requiert simplicité et robustesse
Interfaces I/O Connexions vers le monde extérieur Duplication possible ‘Failover’ manuel ou automatique Possibilité de vitesse de transfert accrue Hot swap?
Cables et connexions Longueur, étiquettage, placement Jean-Noël Colin, University of Namur
Thursday 27 October 11
16
Système isolé Jean-Noël Colin, University of Namur
Thursday 27 October 11
17
Système isolé Alimentation Configuration n + 1, n + 2 Ventilateur = maillon faible Alimentation redondantes (jusqu’aux lignes) UPS
Interventions sur le matériel Peuvent causer de nouveaux problèmes Nécessitent soin formation outils ex: tapis anti-statique Jean-Noël Colin, University of Namur
Thursday 27 October 11
18
Système isolé Stockage de données Support magnétique Parties mobiles Risque de panne relativement élevé
Données stockées dans des fichiers Fichiers stockés sur disque et organisés en système de fichiers (file system) Disque données vs disque système Que faire en cas de panne disque? Restaure le contenu du backup Jean-Noël Colin, University of Namur
Thursday 27 October 11
19
Système isolé Système de fichiers Définit comme les données sont physiquement organisées sur le disque Fonctionalités Journaling, liens, support de la casse des caractères, chiffrement
Meta-données Nom, dates (création, modification), permissions, contrôle d’intégrité
Allocation de l’espace Limites Taille (fichier, filesystem, nom de fichiers…), nombre d’entrées
FAT, NTFS, VxFS, UFS, EXT3, ReiserFS, ZFS, QFS…
Jean-Noël Colin, University of Namur
Thursday 27 October 11
20
Système isolé HSM - Hierarchical Storage Management Motivations Patterns d’accès aux données Différents ratios Capacité/Coût selon le medium Besoin en croissance constante
Idée Choisir le medium en fonction du pattern d’accès
Exemple: SamFS
Jean-Noël Colin, University of Namur
Thursday 27 October 11
21
Système isolé RAID Redundant Array of Inexpensive Disks <> SLED – Single Large Expensive Disk Différents niveaux combinables Exploite 3 mécanismes Mirroring Striping Contrôle de parité
Jean-Noël Colin, University of Namur
Thursday 27 October 11
22
Système isolé Raid 0 - Striping Pas de redondance Répartit la charge sur plusieurs disques Contrôleur unique?
Permet d’aller au-delà de la capacité individuelle d’un disque Deux paramètres #disks (largeur du stripe) #Bytes per chunk (taille du stripe) Difficile à optimiser: trop petit: utilisation équitable des disques, mais fichiers éclatés entre plusieurs chunks trop grand: overhead minimum lors de l’accès aux données, mais utilisation non équitable des disques,
Panne d’un seul disque implique perte de données Jean-Noël Colin, University of Namur
Thursday 27 October 11
23
Système isolé
Jean-Noël Colin, University of Namur
Thursday 27 October 11
24
Système isolé Raid 1 - Mirroring Redondance Disque 1 et Disque 2 sont identiques
Ecriture plus lente Lecture plus rapide si concurrence Coût de stockage doublé En cas de panne, remplacement du disque et re-construction du miroir
Jean-Noël Colin, University of Namur
Thursday 27 October 11
25
Système isolé
Jean-Noël Colin, University of Namur
Thursday 27 October 11
26
Système isolé Raid 5 – Striping + contrôle de parité n-way RAID 5: n-1 data chunk + 1 chunk de parité
Lecture efficace: distributée entre les disques Ecriture peu efficace Nécessite reads + 2 writes Taille d’écriture importante ➪ pas besoin de lecture
Efficacité de l’utilisation de l’espace (n-1)/n En cas de panne, remplacement du disque et reconstruction des chunks perdus Opération lente car nécessite de relire l’entièreté du stripe Jean-Noël Colin, University of Namur
Thursday 27 October 11
27
Système isolé
Jean-Noël Colin, University of Namur
Thursday 27 October 11
28
Système isolé Raid 10 – Stripe de miroirs Résumé
RAID #disques Efficacité
Fiabilité
Reconstr Seq. Rnd uction Read Read
Seq. Write
Rnd. Write
0
2,3…
n
0
∞
++
+
++
+
1
2
n/2
++
+
+
+
0
0
5
3,4…
(n-1)/n
+
-
+
+
-
-
10
Jean-Noël Colin, University of Namur
Thursday 27 October 11
29
Système isolé Software RAID et Volume Manager Veritas Volume Manager, LVM, DiskSuite… Configuration définit le lien entre les volumes logiques et les volumes physique Configuration doit être sauvegardée de manière sûre (plusieurs fois sur des appareils différents) Volume Manager joue le rôle de ‘driver’ pour les couches supérieures Consomme des ressources
Hardware RAID Controller Contrôleur spécialisé/disques connectés directement Plus efficace car toutes les opérations sont réalisées en hardware Jean-Noël Colin, University of Namur
Thursday 27 October 11
30
Système isolé Appareil dédié au stockage Solution complète et intégrée, incl. CPU et mémoire Fonctionnalités avancées Snapshot Split mirror ou Copy on write Remote copy
EMC, SUN/StorageTek
Jean-Noël Colin, University of Namur
Thursday 27 October 11
31
Système isolé
Jean-Noël Colin, University of Namur
Thursday 27 October 11
32
Système isolé
Jean-Noël Colin, University of Namur
Thursday 27 October 11
33
Virtualisation Infrastructure virtualisée Partage de ressources entre plusieurs ‘clients’ Ex: Timesharing, mémoire virtuelle, volumes logiques, réseaux virtuels
Motivations Cost-effectiveness: nombreux systèmes sous-utilisés Consolidation Gain d’espace Maintenabilité Gain d’énergie Jean-Noël Colin, University of Namur
Thursday 27 October 11
34
High-Availability Cluster pour high-availability Redondance au niveau du système Solution aux pannes hardware et OS Solution aux problèmes d’environnement en cas de DRP
Service dissocié d’un hôte physique, mais attaché à un hôte logique Types de clusters Cluster Failover Le service bascule d’un noeud à l’autre Cluster en distribution de charge Le service est exécuté sur plusieurs hôtes simultanément Jean-Noël Colin, University of Namur
Thursday 27 October 11
35
High-Availability Cluster Failover Service A
Jean-Noël Colin, University of Namur
Thursday 27 October 11
Host A
Host B
Storage
Storage 36
High-Availability Cluster failover Configuration du cluster Etat partagé Communication Inter-node Heartbeat Quorum device
Intégration d’un service Comment démarrer/arrêter/vérifier? Ressources nécessaires: volumes logiques, adresses IP... Noeud préféré
Basculement Timeout, ping-pong
Syndrôme de ‘Split brain’ Dépendances entre services Jean-Noël Colin, University of Namur
Thursday 27 October 11
37
High-Availability Cluster Load-balancing Principalement pour des services stateless Web servers, directory services (LDAP, AD, DNS…) Fermes de serveurs
Répartir la charge des requêtes entrantes entre différents serveurs offrant le même service Algorithme de distribution peut être simple (round-robin, déterministe) ou plus complexe, intégrant par ex. les caractéristiques des noeuds DNS Load balancing, IP load balancing, reverse proxies Jean-Noël Colin, University of Namur
Thursday 27 October 11
38
Connectivité Réseau Menaces Disponibilité Panne de composants Interruption de liaison Confidentialité Ecoute passive (eavesdropping) Contrôle d’accès Integrité Modification des communications Brouillage Jean-Noël Colin, University of Namur
Thursday 27 October 11
39
Connectivité Réseau Disponibilité Redondance NIC Segment network Fournisseurs Type de connexion
Jean-Noël Colin, University of Namur
Thursday 27 October 11
40
Connectivité Réseau Confidentialité le réseau est la porte d’entrée vers le serveur... et vers l’organisation... Firewall Filtrage de paquets Inspection stateful Passerelle applicative DMZ VPN Tunnel sécurisé sur un lien non-sécurisé utilisateurs nomades accès à des partenaires Jean-Noël Colin, University of Namur
Thursday 27 October 11
41
Datacenter
Jean-Noël Colin, University of Namur
Thursday 27 October 11
42
Datacenter Solution complète Installations Sol surélevé, cablage, contrôle d’accès
Moyens mis en oeuvre HVAC - Heat, Ventilation, Air Conditioning Densité des systèmes accroit le problème de chaleur Placement des racks Flot d’air dans la pièce Température: 18°C Dimensionnement de l’AirCo Composant critique Jean-Noël Colin, University of Namur
Thursday 27 October 11
Redondance!
43
Datacenter Moyens mis en oeuvre Incendie Détection CO2, Halon, FM-200, Inergen
Alimentation UPS Connexions redondantes Générateurs diesel Ne pas mettre tous les systèmes sous tension en même temps!
Dépendances entre systèmes Quel(s) système(s) est(sont) impactés si le système X tombe en panne? Jean-Noël Colin, University of Namur
Thursday 27 October 11
44
Datacenter Procédures de gestion ITIL – Information Technology Infrastructure Library IT Service Delivery IT Service Support Service desk, Incident Management, Problem Management, Configuration Management, Change Management, Release Management
Staff dédié
Jean-Noël Colin, University of Namur
Thursday 27 October 11
45
Disaster Recovery Objectifs Répondre à un incident majeur Inondation, typhon, tremblement de terre, attaque terroriste, incendie... Corruption de système(s) ou de données Erreur applicative ou humaine
Solution: Site de Disaster Recovery Site Et les procédures… Site DR souvent limité
mode dégradé
Définir les composantes du DR Tous les services n’ont pas besoin de DR Que doit-on protéger? Quelle est la priorité des services? Quelles sont les ressources nécessaires? Jean-Noël Colin, University of Namur
Thursday 27 October 11
46
Disaster Recovery
Primary System Functional
Disaster Recovery System Active
Disaster declaration
Disaster noticed
Disaster occurrence
Data recovery point
Incident et reprise Don’t forget this one!
Time
RPO
RTO Jean-Noël Colin, University of Namur
Thursday 27 October 11
47
Disaster Recovery Quelques statistiques Une perte de données importante implique la fermeture de la société dans 43% des cas Une indisponibilité de 10 jours n’est en général pas récupérable La plupart des pertes de données ont une cause humaine (45%), 2% sont causés par des catastrophes naturelles, le reste par des pannes
Jean-Noël Colin, University of Namur
Thursday 27 October 11
48
Disaster Recovery Différences avec HA Implication du côté ‘métier’ Plus seulement un problème IT
Indisponibilité plus longue Composants impactés plus nombreux, plus grande taille
Risque et coût plus élevés Processus différents Opérations manuelles Jean-Noël Colin, University of Namur
Thursday 27 October 11
49
Disaster Recovery Approche générale Définition des objectifs Identification des systèmes Définition des objectifs de récupération (RTO, RPO), staff et responsabilités Design high-level de la solution Design technique de la solution Implémentation de la solution Définition des procédures et formation Test, Test, Test Evaluation et mise à jour Jean-Noël Colin, University of Namur
Thursday 27 October 11
50
Disaster Recovery Site primaire et de backup (DR) Propriété de la société? Accord mutuel? Externalisé?
Où placer les sites? Ni trop près, ni trop loin Eviter les risques identiques (ex: zone d’activité sismique)
Jean-Noël Colin, University of Namur
Thursday 27 October 11
51
Disaster Recovery Synchronisation des sites Hot stand-by Site DR est une copie exacte du site primaire
Cold stand-by Nécessite une restauration de données Possibilité d’héberger l’infrastructure de backup pour une restauration rapide (et conservation plus sûre)
Système partagé
Jean-Noël Colin, University of Namur
Thursday 27 October 11
52
Disaster Recovery Synchronisation longue distance Mirroring asynchrone Restauration de backup Log shipping Cluster longue distance Synchronisation de fichiers
Jean-Noël Colin, University of Namur
Thursday 27 October 11
53
Sécurité des données Données = ressource critique Objectifs Reprise après panne Récupération d’une version antérieure
Deux opérations Sauvegarder Restauration
Jean-Noël Colin, University of Namur
Thursday 27 October 11
54
Sécurité des données Sauvegarde Copie des données d’un medium vers un autre Quand? Fréquence A quel moment?
Quoi? Backup système Backup fichiers Backup bases de données Full/Incremental Jean-Noël Colin, University of Namur
Thursday 27 October 11
55
Sécurité des données Sauvegarde Où? On-site: copie locale Off-site: copie distance Conditions de stockage
Restauration de données préalablement sauvegardées Test, Test, Test souvent oublié, jusqu’à ce que...
Mantra: LOCKSS Truc: utiliser un réseau séparé pour le backup Jean-Noël Colin, University of Namur
Thursday 27 October 11
56
Surveillance La sécurité de l’infrastructure nécessite surveillance qualité de la surveillance éviter faux négatif/faux positifs seuil d’alerte Outils Patrol, OpenView, Nagios… Sondes spécifiques
alerte Email sms
équipe de support procédures de reporting et d’escalation Jean-Noël Colin, University of Namur
Thursday 27 October 11
57
Et les contrats... Choix d’un produit/vendeur Ligne de produit: flexible, modulaire, à la pointe Roadmap? Visite de site Ouverture/Possibilité d’intégration Partenariats existants Equipe/ressources locales Organisation de support
Jean-Noël Colin, University of Namur
Thursday 27 October 11
58
Et les contrats... Contrat de support conclu avec vendeurs hardware et software différents niveaux de support (et de prix)
SLA – Service Level Agreement définit le service définit les exigences en matière de disponibilité y compris les aspects de performance exigences réalistes!! indisponibilité cumulée maximum sur une période fréquence d’indisponibilité maximum sur une période indisponibilité maximum par incident Jean-Noël Colin, University of Namur
Thursday 27 October 11
59
Et les contrats... SLA – Service Level Agreement différencié selon l’importance de la panne (minor/major outage) définit les plages d’indisponibilité planifiée définit les responsabilités et les procédures définit les mécanismes de reporting et d’escalation définit les pénalités en cas de non-respect entre partenaires internes ou avec un tiers
Jean-Noël Colin, University of Namur
Thursday 27 October 11
60