Teoría 2 (Parte B) Introducción a los Agentes Inteligentes - Universidad Nacional de ... · 2019....

Agentes reflejos simples Agentes reflejos basados en modelo Agentes basados en objetivos Agentes basados en utilidades

Teoría 2 (Parte B)Introducción a los Agentes Inteligentes

Sistemas Inteligentes1

1Universidad Nacional de San Luis, Argentina

Carrera: Ingeniería en InformáticaCarrera: Ingeniería en Computación (Optativa)

Departamento de InformáticaAño 2019


Aspectos a abordar

Agentes reflejos (o reactivos) simplesAgentes reflejos basados en modeloAgentes basados en objetivosAgentes basados en utilidadesRepresentación de estados y transicionesAgentes de Aprendizaje

Bibliografía: Capítulo 2, libro de Russell. Sección 2.4.


Clases generales de programas de agentes

Agentes reflejos (o reactivos) simplesAgentes reflejos basados en modeloAgentes basados en objetivosAgentes basados en utilidades

Estos tipos de agentes pueden a su vez ser implementadoscomo agentes de aprendizaje.


Agentes reflejos simples (ARS)

También llamados agentes reactivos puros o agentestropísticos.Seleccionan una acción en base a la percepción actual,ignorando el resto de la historia perceptual (el pasado).No existe internamente ninguna representación deestado.La decisión sobre la acción a tomar se basa en unconjunto de reglas condición-acción (o situación-acción).

Ejemplo:

si auto-adelante-esta-frenando entoncescomenzar-a-frenar


Un ejemplo de agente reactivo

Un agente reactivo para el mundo de la aspiradora

función AG-REF-ASPIRA(p)entrada: una percepción p = [ubic,est ].salida: una acción a ∈ {Aspirar ,Derecha, Izquierda,NoOp}.

si est = Sucio entonces retornar Aspirarsino si ubic = A entonces retornar Derechasino si ubic = B entonces retornar Izquierda

fin_función


Un agente reactivo genérico

función AG-REF-SIMPLE(percep) retorna una acciónestático: reglas: un conjunto de reglas condición-acción.

estado ← INTERPRETAR-ENTRADA(percep)regla← REGLA-MATCH(estado, reglas)

accion← ACCIÓN-REGLA[regla]fin_función


Un robot reactivo: vehículo de Braitenberg


Características de los agentes reactivos

Su comportamiento es dirigido por el principio deestímulo-respuesta característico de los reflejos de humanos,animales y plantas.

VentajasSimplicidad.Tiempo de respuesta mínimo.Reglas simples pueden producir comportamientoscolectivos complejos.Implementación directa en hardware (bueno pararobótica).


Características de los agentes reactivos

Su comportamiento es dirigido por el principio deestímulo-respuesta característico de los reflejos de humanos,animales y plantas.

LimitacionesSólo trabajan bien si la acción correcta puededeterminarse en base a la percepción actual.Posibilidad de loops infinitos bajo observabilidad parcial.Incapacidad de analizar la consecuencia futura de lasacciones.


Agentes reflejos basados en modelos (ARBM)

También llamados agentes reflejos con estado.

Cuentan con alguna estructura de datos o estado internoque registra información sobre el estado del ambiente y lahistoria perceptual.Actualizar la información de estado interno requiere unmodelo del mundo:

De que manera las acciones del agente modifican elmundo.De que manera el mundo evoluciona independientementedel agente.

El estado interno permite solucionar o aliviar losproblemas de observabilidad parcial.Si bien toma en cuenta el pasado no considera el futuro(no planifica).



También llamados agentes reflejos con estado.Cuentan con alguna estructura de datos o estado internoque registra información sobre el estado del ambiente y lahistoria perceptual.

Actualizar la información de estado interno requiere unmodelo del mundo:





También llamados agentes reflejos con estado.Cuentan con alguna estructura de datos o estado internoque registra información sobre el estado del ambiente y lahistoria perceptual.Actualizar la información de estado interno requiere unmodelo del mundo:







El estado interno permite solucionar o aliviar losproblemas de observabilidad parcial.

Si bien toma en cuenta el pasado no considera el futuro(no planifica).


Estructura de un ARBM

función AG-REF-BAS-MODELO(percep) retorna una acciónestático: estado: una descripción del estado actual del mundo.

modelo: descripción del efecto de las acciones.reglas: un conjunto de reglas condición-acción.accion: la acción más reciente (inicial/ ninguna).

estado ← ACTUALIZAR-ESTADO(estado,accion,percep,modelo)regla← REGLA-MATCH(estado, reglas)

accion← ACCIÓN-REGLA[regla]fin_función


Arquitecturas con estado: Recurrent Neural Networks

Traducción de lenguajes


Deduciendo propiedades ocultas del mundo


Agentes basados en objetivos (ABO)

En la selección de acciones se toma en cuentainformación sobre los objetivos (estados deseables) aalcanzar.

El logro de un objetivo puede requerir analizar lasconsecuencias futuras de secuencias completas deacciones ( planes).Dos grandes grupos de ABO

Agentes de búsqueda.Agentes de planning.

Comparación respecto a los agentes reflejos (ARS’s yARBM’s):

Son menos eficientes.Son más flexibles (cambios de objetivo y condicionescambiantes).



En la selección de acciones se toma en cuentainformación sobre los objetivos (estados deseables) aalcanzar.El logro de un objetivo puede requerir analizar lasconsecuencias futuras de secuencias completas deacciones ( planes).

Dos grandes grupos de ABOAgentes de búsqueda.Agentes de planning.





En la selección de acciones se toma en cuentainformación sobre los objetivos (estados deseables) aalcanzar.El logro de un objetivo puede requerir analizar lasconsecuencias futuras de secuencias completas deacciones ( planes).Dos grandes grupos de ABO

Agentes de búsqueda.Agentes de planning.




Estructura de un ABO


Agentes basados en utilidades (ABU)

Permiten realizar una distinción más fina (no binaria) entrelos estados que los ABO.

Cuentan con una función de utilidad

U : S → R

que captura las preferencias del agente por los estadosdel mundo.La utilidad de un estado cuantifica el grado de felicidad (odeseabilidad) de estar en el mismo.Un ABU es más adecuado que un ABO cuando:

Es necesario balancear objetivos conflictivos.Es necesario ponderar la importancia y probabilidad desuceso de varios objetivos para los que no existe certezade ser alcanzados.



Permiten realizar una distinción más fina (no binaria) entrelos estados que los ABO.Cuentan con una función de utilidad

U : S → R

que captura las preferencias del agente por los estadosdel mundo.

La utilidad de un estado cuantifica el grado de felicidad (odeseabilidad) de estar en el mismo.Un ABU es más adecuado que un ABO cuando:





U : S → R

que captura las preferencias del agente por los estadosdel mundo.La utilidad de un estado cuantifica el grado de felicidad (odeseabilidad) de estar en el mismo.

Un ABU es más adecuado que un ABO cuando:Es necesario balancear objetivos conflictivos.Es necesario ponderar la importancia y probabilidad desuceso de varios objetivos para los que no existe certezade ser alcanzados.




U : S → R

que captura las preferencias del agente por los estadosdel mundo.La utilidad de un estado cuantifica el grado de felicidad (odeseabilidad) de estar en el mismo.Un ABU es más adecuado que un ABO cuando:



ABU’s y el principio de la UEM

Un agente ABU sigue los principios de teoría de decisiónpara balancear la deseabilidad (utilidad) de los resultadoscon la probabilidad de que éstos ocurran.

El principo de la utilidad esperada máxima (UEM)especifica que un agente racional debería seleccionaraquella acción que maximiza su utilidad esperada.

En este caso, un agente ABUselecciona la acción a2 conutilidad esperada:

23× 9 +

16× 0 +

16× 0 = 6


ABU’s y el principio de la UEM

Un agente ABU sigue los principios de teoría de decisiónpara balancear la deseabilidad (utilidad) de los resultadoscon la probabilidad de que éstos ocurran.El principo de la utilidad esperada máxima (UEM)especifica que un agente racional debería seleccionaraquella acción que maximiza su utilidad esperada.

En este caso, un agente ABUselecciona la acción a2 conutilidad esperada:

23× 9 +

16× 0 +

16× 0 = 6


ABU’s y Juego de dos personas - Minimax (1)


ABU’s y Juego de dos personas - Minimax (2)


Algunos conceptos asociados a los ABU

Teoría de DecisiónTeoría de UtilidadTeoría de la ProbabilidadProcesos de Decición Markov (MDP’s)POMDP’sMétodos de Programación DinámicaAprendizaje por RefuerzosTeoría de JuegosEquilibrio de NashMecanismos económicos (subasta, votación, mercado,etc)


Representando estados y transiciones entre los mismos

¿Cómo representaré los estados del mundo y los efectos delas acciones (modelo de transición)? Enfoques:

AtómicaFactorizadaEstructurada


Representando estados y transiciones entre los mismos

Atómica: un estado es una caja negra (indivisible) sinestructura interna.Factorizada: un estado consiste de una colección devalores de atributos (reales, booleanos o de un conjuntofijo).Estructurada: cada estado incluye objetos, cada uno delos cuales puede tener atributos propios y tambiénrelaciones a otros objetos.


Agentes de aprendizaje

Incorporan la capacidad de aprender y mejorar sudesempeño a partir de la experiencia.Componentes conceptuales

Elemento de performance: componente que selecciona lasacciones externas (lo que antes era el agente completo).Elemento de aprendizaje: componente encargada dehacer las mejoras (cambios) en el elemento deperformance.Crítico: informa al alemento de aprendizaje cuán bien elagente se está comportando (de acuerdo a una medida deperformance establecida).Generador de problema: sugiere al elemento deaprendizaje acciones exploratorias que conducen aexperiencias nuevas e informativas.


Un agente de aprendizaje general

Teoría 2 (Parte B) Introducción a los Agentes Inteligentes - Universidad Nacional de ... · 2019....

Documents

Transcript of Teoría 2 (Parte B) Introducción a los Agentes Inteligentes - Universidad Nacional de ... · 2019....