Tolerancia a fallos

En ingeniería de confiabilidad , la tolerancia a fallas (o falla-tolerancia , del inglés ) es la capacidad de un sistema para no sufrir fallas (es decir, interrupciones del servicio) incluso en presencia de fallas . La tolerancia a fallas es uno de los aspectos que componen la confiabilidad . Es importante tener en cuenta que la tolerancia a fallos no garantiza la inmunidad frente a todos los fallos, solo que los fallos para los que se ha diseñado una protección no provocan fallos.

Las comprobaciones de protección (que se realizan en tiempo de ejecución ), junto con comprobaciones similares realizadas de forma estática (como en tiempo de diseño o compilación ), son una metodología muy eficaz para obtener una alta robustez (detección rápida de errores y su confinamiento) en un sistema. La tolerancia a fallas puede conducir a la degradación de otro rendimiento, por lo que en el diseño de un sistema es necesario encontrar optimizaciones y compensaciones adecuadas.

Descripción

Robustez

La robustez es propiedad de aquellos sistemas que aseguran una rápida detección de errores y que permiten su confinamiento.

Estudios estadísticos han demostrado que al menos dos de cada tres errores se deben a solicitudes ilegales de operaciones sobre objetos, es decir, las mismas solicitudes que impiden los controles de seguridad.

Medidas de tolerancia a fallos

Una medida típica de tolerancia a fallos es calcular el tiempo medio entre dos fallos del sistema ( MTBF ).

Ejemplos de aplicaciones

La tolerancia a fallas varía según el tipo según el aspecto al que se aplica y puede tener tipos de implementación muy diferentes.

Dispositivos electrónicos

Se puede pasar de un simple sistema de tolerancia a fallas en el suministro de energía de los equipos electrónicos, utilizando una fuente de alimentación ininterrumpida o UPS : en caso de una falla de energía, el equipo seguirá funcionando por un período dependiendo de la capacidad del sistema de respaldo . . .

Un sistema más complejo, siempre relacionado con las fuentes de alimentación de los dispositivos activos, consiste en la replicación de la fuente de alimentación; si falla la fuente de alimentación principal, el equipo seguirá funcionando gracias a una o más fuentes de alimentación colocadas en redundancia. La tolerancia a fallas obviamente corresponderá a la cantidad de fuentes de alimentación redundantes utilizadas en el sistema: trivialmente, si un dispositivo tiene tres fuentes de alimentación y todas fallan al mismo tiempo, el dispositivo se detiene.

Sistemas multiprocesador

En el campo de los microprocesadores , la técnica SMP permite el uso de varios microprocesadores al mismo tiempo, aprovechando la potencia de cómputo global y, si uno de los procesadores se detiene, la operación pasará al (los) procesador (es) aún en funcionamiento.

Almacenamiento en disco duro

En protección de datos se pueden utilizar sistemas RAID , en los que la tolerancia a fallos es función del esquema RAID adoptado y de la adopción o no de discos hot-spare .

Niveles de tolerancia a fallas

Artículos relacionados

Otros proyectos