| Artículos | 12 SEP 2005

Midiendo la probabilidad de fallar

MTBF y MTTF proporcionan pautas de fiabilidad
El mundo de los data centers es un mundo con una alta tasa de incertidumbre. Nada es para siempre, especialmente los dispositivos mecánicos con elementos en rápido movimiento, como los discos duros y las impresoras, que sufren una mayor carga de trabajo. Por lo tanto, podría ser muy útil si pudiésemos predecir cuándo va a estropearse algo o, al menos, determinar entre dos productos similares, cuál es menos probable que se estropee en un período determinado. La respuesta es MTBF, cuyo significado es tiempo medio entre fallos, y su término asociado MTTF, que describe el tiempo medio hasta que un dispositivo falla.

Los términos MTBF (mean time between failures), es decir, tiempo medio entre fallos, y MTTF (mean time to failure), lo que significa, tiempo medio hasta un fallo, son medidas de la fiabilidad del hardware, que usualmente se expresan en horas. Indican en términos estadísticos el ciclo de vida de un determinado componente: cuanto más alto sea el valor, más fiable será el producto. Se trata de dos medidas de fiabilidad que se definen estadísticamente como el número de horas que un componente, conjunto de componentes o sistema, funcionará correctamente hasta que falle. Ambos se utilizan a menudo indistintamente, pero, de hecho, son distintos. MTTF se refiere a la media (término medio, en jerga aritmética) de tiempo hasta que un componente falla, no puede ser reparado y, por tanto, debe ser reemplazado, o hasta que el funcionamiento de un producto, proceso o diseño se deteriora. MTBF se usa adecuadamente sólo para componentes que puedan repararse y volver a funcionar.

Cálculo del tiempo medio entre fallos
El MTBF parece sencillo: el tiempo total medido, dividido por el número de fallos observados. Por ejemplo, tomamos una nueva generación de discos duros SCSI de 2,5 pulgadas y se ponen a funcionar 15.400 unidades durante 1.000 horas cada una (con lo que las pruebas duran algo menos de seis semanas) siendo encontrados 11 fallos. El MTBF es (15.400 x 1.000 horas)/11, o 1,4 millones de horas (no se trata de un MTBF hipotético, representa valores de este año para discos duros). ¿Pero qué significa realmente este dato? Un MTBF de 1,4 millones de horas, determinados en seis semanas de pruebas, no significa, en absoluto, que una unidad individual funcionará durante 159 años antes de fallar.
MTBF es una medida estadística y, como tal, no puede predecir nada para una unidad en concreto. Sin embargo, se puede usar el valor MTBF de forma más precisa para calcular que si tenemos 1.000 discos funcionando de forma continua en un data center, podemos esperar que falle uno cada 58 días más o menos, para un total de quizás 19 fallos en tres años.
El tiempo MTBF para un producto puede calcularse en pruebas de laboratorio, datos recientes de fallos o modelos de predicción como el MIL-HDBK-217 (Military Handbook for “Reliability Prediction of Electronic Equipment”, publicado por el departamento de defensa de Estados Unidos).
MIL-HDBK-217 contiene modelos de tasa de fallos para distintos componentes utilizados en sistemas electrónicos, como circuitos integrados, transistores, diodos, resistencias, condensadores, interruptores y conectores. Estos modelos de tasa de fallos se basan en grandes cantidades de información analizada y simplificada por los centros Reliability Analysis Center y Rome Laboratory de la base aérea de Griffiss de la ciudad de Rome, Nueva York.

Cuestión de “bañeras”
La definición de MTBF utiliza la palabra medio, entendido como término medio aritmético. Este hecho ha provocado que cierta gente intérprete MTBF como el tiempo (de media) para que fallen la mitad de los componentes. Este puede ser el caso si el fallo ocurre de forma constante durante el tiempo de vida de un componente y, de hecho, MTBF lo asume precisamente así, incluso cuando sea un caso extraño en la vida real.
Por ejemplo, muchos componentes electrónicos pueden experimentar una tasa de fallos relativamente alta en sus primeras pocas horas de funcionamiento y después operar prácticamente sin problemas durante un largo período de tiempo.
Además, la tasa de fallos en cualquier momento depende del perfil de fallos del conjunto para ese sistema, que puede expresarse como la probabilidad de fallo previa a un momento específico. Si calculamos la tasa de fallo para incluso los intervalos de tiempo más pequeños durante el tiempo de vida estimado, podemos determinar lo que se denomina factor de riesgo, o probabilidad de fallo instantáneo en cualquier momento dado.
Esto provoca que haya un perfil de fallos común para diversos dispositivos mecánicos, incluidos los sistemas especialmente complejos. Piense en un automóvil, con sus miles de componentes. Este factor de riesgo se denomina curva de “bañera” debido a su forma, y se caracteriza por tres fases bien diferenciadas (ver cuadro):

• Al comienzo, una tasa de fallos alta pero descendente, que, a menudo, se denomina mortalidad infantil.
• Una tasa de fallos relativamente constante, que representa básicamente fallos aleatorios.
• Al final del ciclo de vida, una tasa de fallos que se incrementa a medida que el dispositivo se desgasta.

Por ejemplo, pensemos en un coche nuevo. Nada más comprarlo puede haber un cierto número de elementos que necesiten repararse porque se hayan instalado de forma inadecuada o exista un defecto oculto en alguna parte (aunque suelen cubrirlos las garantías, a menudo son una molestia si bien no un problema serio, pero este es otro tema). A medida que pasa el tiempo, mientras el coche es relativamente nuevo y no ha recorrido demasiados kilómetros, es extraño que haya que gastar mucho en talleres, y los problemas suelen deberse a situaciones aleatorias, como un accidente o el fallo de un componente. Sin embargo, a medida que pasan los años y los kilómetros, cierto número de partes se desgastan (muchas de ellas, como los frenos y los neumáticos están diseñados para durar un tiempo determinado y después fallan o se desgastan). En esta fase, el coche cada vez pasa más tiempo en el taller. Si plasmamos en un gráfico la incidencia de estos fallos (reparaciones) a lo largo del tiempo, obtendremos la típica curva con forma de “bañera”.

Comentar
Para comentar, es necesario iniciar sesión
Se muestran 0 comentarios