SEDAR : detección y recuperación automática de fallos transitorios en sistemas de cómputo de altas prestaciones
- 1 archivo (4.36 MB) : il. col.
Tesis con dirección conjunta por convenio de colaboración entre Universidad Nacional de La Plata y la Universidad Autónoma de Barcelona.
Tesis (Doctorado en Ciencias Informáticas) - Universidad Nacional de La Plata. Facultad de Informática, 2020.
Índice -- Prefacio -- 1. Fallos Transitorios -- 1.1. Introducción -- 1.2. Concepto. Causas de ocurrencia -- 1.3. Terminología asociada a los fallos transitorios -- 1.4. Métricas utilizadas -- 1.5. Algunos casos reales -- 1.6. Consecuencias de los fallos transitorios -- 1.7. Posibles efectos de los fallos transitorios -- 1.7.1. Excepción por instrucción inválida -- 1.7.2. Error de paridad durante un ciclo de lectura -- 1.7.3. Violación en acceso a memoria -- 1.7.4. Cambio de un valor -- 1.8. Fallos transitorios en sistemas de HPC -- 1.8.1. Características de aplicaciones paralelas científicas de paso de mensajes -- 1.8.2. Consecuencias de fallos transitorios en sistemas paralelos -- 1.9. Objetivos -- 1.10. Contribuciones y limitaciones -- 2. Trabajo relacionado -- 2.1. Objetivos de la detección -- 2.2. Propuestas basadas en redundancia -- 2.2.1. Redundancia a nivel de instrucciones -- 2.2.2. Redundancia a nivel de threads -- 2.3. Propuestas basadas puramente en software -- 2.4. Propuestas híbridas -- 2.5. Tolerancia a fallos transitorios en cómputo paralelo -- 2.5.1. Aplicaciones MPI resilientes: ULFM -- 2.6. Checkpoint-Restart -- 2.7. Soluciones específicas -- 2.8. Replicación de procesos en HPC -- 2.8.1. Replicación de procesos para aplicaciones de HPC con paso de mensajes -- 2.9. Propuestas basadas en la combinación de Replicación y C/R -- 2.10. Diferencias de SEDAR con las propuestas existentes -- 3. Detección de fallos transitorios en sistemas de HPC -- 3.1. Modelo de fallo -- 3.2. Metodología SMCV para detección de fallos transitorios -- 3.2.1. Fundamentación -- 3.2.2. Validación de contenidos de mensajes antes de enviar -- 3.2.3. Comparación de resultados finales -- 3.2.4. Aprovechamiento de recursos redundantes del sistema -- 3.3. Descripción de la operación -- 3.4. Comportamiento frente a fallos -- 3.5. Sobrecarga de operación -- 3.6. Esfera de Replicación (SoR) -- 3.7. Vulnerabilidades -- 3.8. Fallos múltiples -- 3.9. Memoria compartida -- 3.10. Resumen de las características de la metodología -- 4. Recuperación Automática -- 4.1. Introducción . -- 4.2. Recuperación basada en múltiples checkpoints de capa de sistema -- 4.2.1. Comportamiento con múltiples fallos -- 4.2.2. Ventajas y limitaciones -- 4.3. Recuperación basada en un único checkpoint de capa de aplicación -- 5. Implementación y Validación Funcional -- 5.1. SEDAR como herramienta -- 5.2. La herramienta de detección SMCV -- 5.2.1. Funciones básicas -- 5.2.2. Forma de utilización -- 5.2.3. Verificación funcional de la eficacia de detección -- 5.3. La herramienta SEDAR de recuperación automática -- 5.3.1. Modelo para la verificación funcional -- 5.3.2. Implementación y validación experimental -- 6. Caracterización Temporal y Resultados Experimentales -- 6.1. Caracterización temporal de SEDAR -- 6.1.1. Caso base (baseline) -- 6.1.2. Parámetros de la caracterización temporal -- 6.1.3. Caracterización temporal de la estrategia de detección SMCV -- 6.1.4. Caracterización temporal de la estrategia de recuperación basada en múltiples checkpoints de nivel de sistema -- 6.1.5. Caracterización temporal de la estrategia de recuperación basada en único checkpoints seguro de capa de aplicación -- 6.1.6. Tiempo promedio de ejecución -- 6.2. Evaluación del comportamiento temporal -- 6.3. Conveniencia de almacenar múltiples checkpoints para la recuperación -- 6.4. Mediciones de overhead -- 6.4.1. Diseño de la experimentación -- 6.4.2. Resultados experimentales -- 7. Conclusiones y trabajos futuros -- 7.1. Conclusiones -- 7.2. Trabajos futuros -- Bibliografía
DIF007460
COMPUTACIÓN DE ALTO RENDIMIENTO - HPC FIABILIDAD DEL SOFTWARE TOLERANCIA A FALLOS CLUSTERS RECUPERACIÓN DE ERRORES
fallos transitorios soft errors detección de fallos replicación de procesos recuperación automática corrupción silenciosa de datos clusters de multicores inyección de fallos checkpoint de nivel de sistema checkpoint de capa de aplicación