Tolerancia a Fallas
-
Upload
riicky-herrera -
Category
Documents
-
view
7 -
download
0
description
Transcript of Tolerancia a Fallas
Tolerancia a fallas
• La tolerancia a fallas es considerada la principal característica que debe de tener un sistema distribuido para alcanzar el principio de transparencia. Para lograr la tolerancia a fallos se necesita de una buena comunicación entre procesos distribuidos y sobretodo de una correcta coordinación entre procesos
Sistemas fiables es un termino que comprende varios
requerimientos útiles para los sistemas distribuidos y incluyen
los siguientes
Disponibilidad
Es la propiedad de que un sistema listo para ser utilizado de inmediato se refiere a la probabilidad de que el
sistema este operado correctamente en cualquier momento dado y se
encuentre disponible para realizar sus funciones
confiabilidad
Es la propiedad de un sistema sea capaz de funcionar de manera
continua sin falla
seguridad
Cuando un sistema deja de funcionar correctamente durante
un tiempo
mantenimiento Se refiere a cuan fácil puede ser reparado un sistema que fallo
Tipos de fallos• Fallos transitoriosdesaparecen solos al cabo de un tiempoejemplo: interferencias en comunicaciones Fallos permanentespermanecen hasta que se reparan ejemplo: roturas de hardware, errores de diseño de softwareFallos intermitentesfallos transitorios que ocurren de vez en cuandoejemplo: calentamiento de un componente de hardware
La tolerancia a fallas en sistemas distribuidos se concentra en procesos defectuosos. Sin embargo
también se tienen que considerar las fallas de comunicación. Los modelos de fallas analizados
previamente aquí también son validos en su mayoría para canales de comunicación.
Diana
Comunicación confiable entre cliente y servidor
8.3.1 comunicación punto a punto
Se establece por medio de un protocolo de transporte confiable tal como el TCP. Este oculta las fallas por omisión. Las cuales se
presentan en la forma de mensaje perdidos, por medio de reconocimientos y
transmisiones .
8.3.2 semántica RPC en presencia de fallas
El objetivo de las PRC es ocultar la comunicación de tal forma que las llamadas a procedimientos remotos parezcan locales.
Las cinco fallas diferentes que pueden ocurrir en sistemas RPC.
comunicación de grupo confiable La atenuación de un proceso por replicación, no es de sorprender que los servicios de
multitransmision confiables también sean importantes.
esquemas de multitransmision básica confiables
La mayoría de las capas de transporte ofrecen confiables canales de comunicación punto a punto, rara vez ofrecen una comunicación confiable a un conjunto de
procesos. Su mejor oferta es permitir que cada proceso establezca una conexión punto a punto con cualquier otro proceso con el que desee comunicarse.
8.4.2 Escalabilidad en multitransmision confiable
El problema con el esquema de multitransmision confiable que se acaba de describir es que no
puede soportar un gran numero de destinatarios. Si existen N destinatarios, el remitente debe estar preparado para aceptar por lo menos N acuses de
recibo. Con muchos destinatarios, el remitente puede verse abrumado por los mensajes de
retroalimentación, ello también se conoce como implosión de retroalimentación.
8.4.3 multitransmision atómica
Lo que se requiere en un sistema distribuido es la garantía de que un mensaje sea entregado o a todos los protocolos o a ninguno en absoluto.
Además, en general, también se necesita que todos los mensajes sean entregados en el
mismo orden a todos los procesos.
Realización Distribuida
Este problema implica lograr que una operación sea realizada por cada miembro de
un grupo o por ninguno en absoluto.
El protocolo de realización monofásico tiene la desventaja evidente de que si uno de los
participantes en efecto no puede realizar opera ion, no hay forma de comunicárselo al
coordinador.Castrejón
El protocolo de realización bifásico se divide en dos fases siguientes:- El coordinador envía un mensaje a todos
los participantes- Cuando un participante recibe un mensaje,
regresa el mensaje al coordinador para decirle que se prepare para realizar su parte de la transacción.
La realización trifásica impide a los procesos bloquearse ante la presencia de congelaciones por detención.También está formulado en función de un coordinador y varios participantes.
Recuperación
Existen dos formas de recuperación de errores.En la recuperación hacia atrás, lo principal es hacer que
el sistema regrese de su estado actual erróneo a su estado previamente correcto. Se le podría llamar “punto
de control”
Otra forma de recuperación de errores es la recuperación hacia adelante. En este caso ,cuando el sistema ha entrado a un estado erróneo, en lugar de regresarlo a un estado de punto de control previo, se
intenta llevarlo a un nuevo estado correcto a partir del cual se pueda continuar ejecutando.
Registro de mensajesLa idea básica que fundamenta el registro de mensajes es que si se puede repetir la transmisión de mensajes, aun es posible alcanzar un estado globalmente consistentes pero sin tener que restaurarlo desde un almacenamiento estable.
Jair
Este modelo funciona bien conforme a la suposición de lo que se llama el modelo determinístico fragmentado, en este modelo se supone que la ejecución de cada proceso se realiza como una serie de intervalos en los que ocurren los eventos.En efecto, un intervalo puede ser repetido con un resultado conocido, es decir, en una forma completamente determinística, siempre que se repita iniciando con el mismo evento no determinístico como antes
Para caracterizar los diferentes esquemas de registro de mensajes, se considera que cada mensaje m tiene un encabezado que contiene toda la información necesaria para retransmitir m y manejarlo apropiadamente.
Computación orientada a la recuperación
Una forma relacionada de manera la recuperación es, en esencia, empezar de nuevo, El principio fundamental hacia esa forma de ocultar las fallas es que puede resultado mucho mas barato optimizar para recuperación, esto es, buscar sistemas que no fallen durante mucho tiempo, a este método se le conoce como computación orientada a la recuperación.
Existen diferentes sabores de la computación orientada a la recuperación, uno es simplemente reiniciar(una parte de un sistema), y ha sido explorado para reiniciar servidores de internet, para poder reiniciar solo una parte del sistema, es crucial localizar apropiadamente la falla, en este punto, reiniciar significa simplemente borrar todas las instancias de los componentes identificados, juntos con los hilos que operan en ellos y simplemente reiniciar las solicitudes asociadas.
Otro sabor de la computación orientada a la recuperación es aplicar la marcación de puntos de control y técnicas de recuperación, pero continuar en ejecución en un ambiente cambiado.La idea básica es en este caso es que muchas fallas simplemente pueden enviarse si a los programas se les permite mas espacia de búfer, poner en cero la memoria antes de asignarla, cambiado el orden de la entrega de los mensajes.
Preguntas
¿menciona los tipos de fallos?
Fallos transitoriosFallos permanentesFallos intermitentes
¿Función de la recuperación hacia atrás? R= En la recuperación hacia atrás, lo principal es hacer que el sistema regrese de su estado actual erróneo a su estado previamente correcto.