Tolerancia a Fallas

Tolerancia a fallas

• La tolerancia a fallas es considerada la principal característica que debe de tener un sistema distribuido para alcanzar el principio de transparencia. Para lograr la tolerancia a fallos se necesita de una buena comunicación entre procesos distribuidos y sobretodo de una correcta coordinación entre procesos

Sistemas fiables es un termino que comprende varios

requerimientos útiles para los sistemas distribuidos y incluyen

los siguientes

Disponibilidad

Es la propiedad de que un sistema listo para ser utilizado de inmediato se refiere a la probabilidad de que el

sistema este operado correctamente en cualquier momento dado y se

encuentre disponible para realizar sus funciones

confiabilidad

Es la propiedad de un sistema sea capaz de funcionar de manera

continua sin falla

seguridad

Cuando un sistema deja de funcionar correctamente durante

un tiempo

mantenimiento Se refiere a cuan fácil puede ser reparado un sistema que fallo

Tipos de fallos• Fallos transitoriosdesaparecen solos al cabo de un tiempoejemplo: interferencias en comunicaciones Fallos permanentespermanecen hasta que se reparan ejemplo: roturas de hardware, errores de diseño de softwareFallos intermitentesfallos transitorios que ocurren de vez en cuandoejemplo: calentamiento de un componente de hardware

La tolerancia a fallas en sistemas distribuidos se concentra en procesos defectuosos. Sin embargo

también se tienen que considerar las fallas de comunicación. Los modelos de fallas analizados

previamente aquí también son validos en su mayoría para canales de comunicación.

Diana

Comunicación confiable entre cliente y servidor

8.3.1 comunicación punto a punto

Se establece por medio de un protocolo de transporte confiable tal como el TCP. Este oculta las fallas por omisión. Las cuales se

presentan en la forma de mensaje perdidos, por medio de reconocimientos y

transmisiones .

8.3.2 semántica RPC en presencia de fallas

El objetivo de las PRC es ocultar la comunicación de tal forma que las llamadas a procedimientos remotos parezcan locales.

Las cinco fallas diferentes que pueden ocurrir en sistemas RPC.

comunicación de grupo confiable La atenuación de un proceso por replicación, no es de sorprender que los servicios de

multitransmision confiables también sean importantes.

esquemas de multitransmision básica confiables

La mayoría de las capas de transporte ofrecen confiables canales de comunicación punto a punto, rara vez ofrecen una comunicación confiable a un conjunto de

procesos. Su mejor oferta es permitir que cada proceso establezca una conexión punto a punto con cualquier otro proceso con el que desee comunicarse.

8.4.2 Escalabilidad en multitransmision confiable

El problema con el esquema de multitransmision confiable que se acaba de describir es que no

puede soportar un gran numero de destinatarios. Si existen N destinatarios, el remitente debe estar preparado para aceptar por lo menos N acuses de

recibo. Con muchos destinatarios, el remitente puede verse abrumado por los mensajes de

retroalimentación, ello también se conoce como implosión de retroalimentación.

8.4.3 multitransmision atómica

Lo que se requiere en un sistema distribuido es la garantía de que un mensaje sea entregado o a todos los protocolos o a ninguno en absoluto.

Además, en general, también se necesita que todos los mensajes sean entregados en el

mismo orden a todos los procesos.

Realización Distribuida

Este problema implica lograr que una operación sea realizada por cada miembro de

un grupo o por ninguno en absoluto.

El protocolo de realización monofásico tiene la desventaja evidente de que si uno de los

participantes en efecto no puede realizar opera ion, no hay forma de comunicárselo al

coordinador.Castrejón

El protocolo de realización bifásico se divide en dos fases siguientes:- El coordinador envía un mensaje a todos

los participantes- Cuando un participante recibe un mensaje,

regresa el mensaje al coordinador para decirle que se prepare para realizar su parte de la transacción.

La realización trifásica impide a los procesos bloquearse ante la presencia de congelaciones por detención.También está formulado en función de un coordinador y varios participantes.

Recuperación

Existen dos formas de recuperación de errores.En la recuperación hacia atrás, lo principal es hacer que

el sistema regrese de su estado actual erróneo a su estado previamente correcto. Se le podría llamar “punto

de control”

Otra forma de recuperación de errores es la recuperación hacia adelante. En este caso ,cuando el sistema ha entrado a un estado erróneo, en lugar de regresarlo a un estado de punto de control previo, se

intenta llevarlo a un nuevo estado correcto a partir del cual se pueda continuar ejecutando.

Registro de mensajesLa idea básica que fundamenta el registro de mensajes es que si se puede repetir la transmisión de mensajes, aun es posible alcanzar un estado globalmente consistentes pero sin tener que restaurarlo desde un almacenamiento estable.

Jair

Este modelo funciona bien conforme a la suposición de lo que se llama el modelo determinístico fragmentado, en este modelo se supone que la ejecución de cada proceso se realiza como una serie de intervalos en los que ocurren los eventos.En efecto, un intervalo puede ser repetido con un resultado conocido, es decir, en una forma completamente determinística, siempre que se repita iniciando con el mismo evento no determinístico como antes

Para caracterizar los diferentes esquemas de registro de mensajes, se considera que cada mensaje m tiene un encabezado que contiene toda la información necesaria para retransmitir m y manejarlo apropiadamente.

Computación orientada a la recuperación

Una forma relacionada de manera la recuperación es, en esencia, empezar de nuevo, El principio fundamental hacia esa forma de ocultar las fallas es que puede resultado mucho mas barato optimizar para recuperación, esto es, buscar sistemas que no fallen durante mucho tiempo, a este método se le conoce como computación orientada a la recuperación.

Existen diferentes sabores de la computación orientada a la recuperación, uno es simplemente reiniciar(una parte de un sistema), y ha sido explorado para reiniciar servidores de internet, para poder reiniciar solo una parte del sistema, es crucial localizar apropiadamente la falla, en este punto, reiniciar significa simplemente borrar todas las instancias de los componentes identificados, juntos con los hilos que operan en ellos y simplemente reiniciar las solicitudes asociadas.

Otro sabor de la computación orientada a la recuperación es aplicar la marcación de puntos de control y técnicas de recuperación, pero continuar en ejecución en un ambiente cambiado.La idea básica es en este caso es que muchas fallas simplemente pueden enviarse si a los programas se les permite mas espacia de búfer, poner en cero la memoria antes de asignarla, cambiado el orden de la entrega de los mensajes.

Preguntas

¿menciona los tipos de fallos?

Fallos transitoriosFallos permanentesFallos intermitentes

¿Función de la recuperación hacia atrás? R= En la recuperación hacia atrás, lo principal es hacer que el sistema regrese de su estado actual erróneo a su estado previamente correcto.

Tolerancia a Fallas

Documents

Transcript of Tolerancia a Fallas