Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-2-RI-Ot2017.pdf ·...

68
RECUPERACIÓN DE INFORMACIÓN Benemérita Universidad Autónoma de Puebla Facultad de Ciencias de la Computación INFORMACIÓN Introducción Arturo Olvera L. Otoño 2017

Transcript of Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-2-RI-Ot2017.pdf ·...

RECUPERACIÓN DE INFORMACIÓN

Benemérita Universidad Autónoma de Puebla

Facultad de Ciencias de la Computación

INFORMACIÓN

Introducción

Arturo Olvera L.Otoño 2017

R2ro-Minilap
Rectángulo

IR MODELING

By A. Olvera

IR MODELING

33

MODELADO

� Proceso complejo � Función Ranking� Representación Ranking � Docs. / Query� Definición de la función Ranking

� Fundamental: Index� Es un término/palabra que tiene cierto significado

By A. Olvera

� Es un término/palabra que tiene cierto significado� Generalmente: Una palabra en un documento

� Utilidad:

� Eficiencia� Simplicidad en búsqueda� Esfuerzo mínimo para formular una consulta 34

IR MODELS

By A. Olvera

35

IR MODELS

� Fundamental la representación:� Documentos� Puede ser un subconjunto de términos sin stopword

By A. Olvera

� Consulta� Puede ser un super conjunto de términos adicionado con sinónimos

36

TAXONOMY OF IR MODELS

By A. Olvera

TAXONOMY OF IR MODELS

37

IR MODELS

� Fundamentalmente, IR � Texto, pero:

By A. Olvera

� Diferentes:� Modelos � Representaciones� Métodos, etc 38

TAXONOMÍA GENERAL RI

By A. Olvera

39

CLASSIC INFORMATION RETRIEVAL

By A. Olvera

40

CONCEPTOS

� Un documento se representa por una serie de palabras representativas� términos índice (index terms)

� Index term� palabra o grupo de éstas (consecutivas) en un

By A. Olvera

� Index term� palabra o grupo de éstas (consecutivas) en un documento

� El contenido de un documento puede resumirse con un conjunto de términos índice

� Full representation: todos las palabras son términos índice 41

CONCEPTOS

By A. Olvera

42

CONCEPTOS

� Los documentos y consultas pueden representarse por patrones de co-ocurrencias de términos

By A. Olvera

� Cada patrón es un componente conjuntivo de término c(q) respecto a una consulta

� c(q) ���� fundamentalmente: Bolsa de palabras

43

MATRIZ DE TÉRMINOS

� Ocurrencia de términos en los documentos

By A. Olvera

44

By A. Olvera

45

THE BOOLEAN MODEL

By A. Olvera

46

BOOLEAN MODEL

� Basado en teoría de conjuntos y algebra booleana

� Las consultas se especifican como expresiones booleanas:� Poco intuitivas� Por ejemplo:

� Los valores en la matriz de términos son binarios

By A. Olvera

� Los valores en la matriz de términos son binarios

47

BOOLEAN MODEL

� Ejemplo ilustrativo

By A. Olvera

� Por tanto:

48

BOOLEAN MODEL

By A. Olvera

49

BOOLEAN

� Similaridad de un documento respecto a una consulta:

By A. Olvera

� El modelo booleano predice:

� Relevante� No relevante

50

DRAWBACKS

� La recuperación no toma en cuenta el matching específico

� No proporciona como tal un ranking

By A. Olvera

� Se debe traducir la información a expresiones booleanas

� Las consultas devuelven:� Muy pocos resultados� Muchos resultados

51

TERM WEIGHTING

By A. Olvera

52

TERM WEIGHTING

� No todos los términos son de utilidad para la descripción del documento

� Existen términos cuya aportación no es clara

� Considerar propiedades que faciliten la evaluación de la importancia del

By A. Olvera

la evaluación de la importancia del documento:

� Aparición de palabra(s) con alta frecuencia

53

TERM WEIGHTING

� Es útil asociar pesos a cada término en el documento

� En particular cada peso cuantifica la importancia del índice para describir el documento

By A. Olvera

� Cuándo ???

� Estos pesos pueden considerarse para �

54

TERM WEIGHTING

By A. Olvera

55

TERM WEIGHTING

By A. Olvera

56

EJEMPLO

By A. Olvera

57

TERM-TERM CORRELATION MATRIX

By A. Olvera

TERM-TERM CORRELATION MATRIX

58

TERM-TERM CORRELATION MATRIX

� En general, los pesos de los índices se consideran mutuamente independientes:� wi,j no implica nada acerca de wi+1,j

� Pero, suele existir correlación de términos:� Ejemplo: los términos computer y network suelen aparecer juntos en documentos referentes a computer

By A. Olvera

aparecer juntos en documentos referentes a computernetworks

� Esta correlación impacta sus respectivos pesos

� Term-termcorrelation 59

TERM-TERM CORRELATION MATRIX

By A. Olvera

60

CORRELATION MATRIX SAMPLE

By A. Olvera

61

TF-IDF WEIGHTS

By A. Olvera

TF-IDF WEIGHTS

62

TF-IDF WEIGHTS

� Involucra:� TF (Term Frequency)� IDF (Inverse Document Frequency)

� Esquema muy usado para ponderado de términos en RI

By A. Olvera

� Se basa en la suposición de Luhn:

63

TF-IDF WEIGHTS

� En particular:

� Variante usual:

By A. Olvera

� Variante usual:

64

TF SAMPLE

By A. Olvera

65

INVERSE DOCUMENT FREQUENCY

By A. Olvera

66

INVERSE DOCUMENT FREQUENCY

� Document Exhaustivity (DE): the number of index terms assigned to a document

� La probabilidad de recuperar un documento e proporcional a DE

� Term Specificity(TS):

By A. Olvera

� Suele considerarse Statistical term specificity:

� El inverso del número de documentos en que aparece un término

67

INVERSE DOCUMENT FREQUENCY

By A. Olvera

� IDF suele utilizarse como base para llevar a cabo el ranking 68

IDF SAMPLE

By A. Olvera

69

TF-IDF WEIGHTING SCHEME

By A. Olvera

70

TF-IDF

� Para encontrar el ranking se combina TF e IDF:

By A. Olvera

71

TF-IDF SAMPLE

By A. Olvera

72

VARIANTES:

� TF

By A. Olvera

� IDF

73

VARIANTES

� TF-IDF

By A. Olvera

74

TF-IDF PROPERTIES

By A. Olvera

� Ambas métricas balancean una a la otra

� TF-IDF� pesos relevantes para ranking:� “la facultad de” � en varios documentos puede aparecer “la” aunque no sean relevantes

� Se compensa este tipo de caso ??

75

DOCUMENT LENGTH NORMALIZATION

By A. Olvera

D L N

76

DOCUMENT NORMALIZATION

� Tamaño del documento

� Gran tamaño�mayor prob. de recuperación

� Necesario normalizar � Considerar tamaño mayor

� De acuerdo a la representación:

By A. Olvera

77

DOCUMENT NORMALIZATION� Documento representado de manera vectorial� vector de pesos ponderados

By A. Olvera

78

SAMPLE

By A. Olvera

79

VECTOR MODEL

By A. Olvera

80

VECTOR MODEL

� Los modelos booleano y ponderado son un poco limitados

� Modelo vectorial� Puede tenerse correspondencia parcial

� En este modelo, es necesario:

By A. Olvera

81

VECTOR MODEL

� Similitud entre documento y consulta:

By A. Olvera

82

VECTOR MODEL

� Los pesos son de tipo TF-IDF

By A. Olvera

� Ecuaciones aplicables a valores de frecuencia>0

� En caso contrario: el respectivo peso=0

83

VECTOR MODEL

By A. Olvera

84

VECTOR MODEL

� Ventajas??

� Desventajas??

By A. Olvera

85

VECTOR MODEL

� Ventajas??� La recuperación se asemeja a la consulta� Se hace el Rank de acuerdo al grado de similitud� Representación más adecuada respecto a las anteriores

By A. Olvera

� Desventajas??� Independencia entre términos

86

PROBABILISTIC MODEL

By A. Olvera

PROBABILISTIC MODEL

87

PROBABILISTIC MODEL

� Modela la RI en términos probabilistas

� Dada una consulta� Existe un conjunto ideal de respuestas

� Características del conjunto ideal ?

By A. Olvera

� Pocos documentos le serán interesantes al usuario� 10, 20

� Característica que puede tomarse en cuenta

� Probabilidad

88

PROBABILISTIC MODEL

By A. Olvera

� Cómo calcular estas probabilidades?

� Cuál es la muestra a considerar?

89

PROBABILISTIC MODEL

� Ranking:

By A. Olvera

90

PROBABILISTIC MODEL

By A. Olvera

91

PROBABILISTIC MODEL

� Suele considerarse:� Independencia� Logaritmos

By A. Olvera

� Por lo que:

92

CONTINGENCY TABLE

By A. Olvera

93

CONTINGENCY TABLE

By A. Olvera

94

RANKING

By A. Olvera

95

RANKING

By A. Olvera

96

RANKING EXAMPLE

By A. Olvera

97

RANKING

By A. Olvera

98

RANKING

By A. Olvera

99