Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf ·...

68
RECUPERACIÓN DE INFORMACIÓN Arturo Olvera L. Otoño 2017 Benemérita Universidad Autónoma de Puebla Facultad de Ciencias de la Computación

Transcript of Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf ·...

Page 1: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

RECUPERACIÓN DE INFORMACIÓN

Arturo Olvera L.

Otoño 2017

Benemérita Universidad Autónoma de Puebla

Facultad de Ciencias de la Computación

Page 2: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

ALTERNATIVE PROBABILISTIC MODEL

� BM25 (Best Match 25), toma en cuenta:� IDF, TF, Normalización de documentos

� BM1=

� Se considera un factor de frecuencia de término

100

Page 3: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

� En particular, se considera la normalización de documentos:

101

Page 4: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

BM11, BM15

� Con:

Factor de corrección

102

Page 5: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

BM25

103

Page 6: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

RETRIEVAL EVALUATION

104

Page 7: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

EVALUATION

� Desempeño

� Qué tan bien se ha realizado la recuperación??

� Necesidad del usuario…..

� Parte crítica/Fundamental en los sistemas de RI

� Permiten llevar a cabo comparaciones 105

Existen métricas al

respecto

Page 8: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

RETRIEVAL EVALUATION

� Utilidad:

� Desempeño de nuevas funciones ranking� Tipos de consulta � Efectividad el sistema R.I.� Análisis de las consultas� Relevancia de corpus

� Otras????

106

Page 9: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

RETRIEVAL EVALUATION

� Se remonta a 1952 (Cyril Cleverdon):� Indexado manual de 200 documentos� Relevancia

respecto a una consulta

� Pionero de :� Recall� Precision

� Colecciones referencia para prueba� Cranfield-2 collection

� Consultas específicas� se sabe cuáles son los docs. Relevantes

107

Page 10: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

PRECISION AND RECALL

108

Page 11: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

PRECISION AND RECALL

109

Page 12: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

PRECISION AND RECALL

110

Page 13: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

CURVE

111

Page 14: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

CURVE

� Del ejemplo anterior:� El doc. d123 respecta a 10% de documentos relevantes� Se tiene precision de 100% con 10% de Recall

� El doc. d123 respecta al tercero analizado y es el siguiente relevante

� Se tienen dos documentos relevantes de tres� Se tiene precision de 66.6% y recuerdo de 20%

� El análisis se lleva a cabo de manera sucesiva…..112

Page 15: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

CURVE

� Gráfica de 11 puntos (0,10,…,100)

� En este caso Precisiones respecto a Recall>50 tienen valor 0 ya que no se recuperan todos los documentos

� Debido a esto, se debe interpolar 113

Page 16: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

INTERPOLATED CURVE

114

Page 17: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

INTERPOLATED CURVE

115

Page 18: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

INTERPOLATED CURVE

116

Page 19: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

INTERPOLATED CURVE

� Suele graficarse varias consultas mediante el promedio:

117

Page 20: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

CURVES FOR COMPARING DISTINCT IR ALGORITHMS

118

Page 21: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

RECALL –PRECISION

� Ampliamente utilizadas en RI� Estimación máxima del recuerdo requiere del

conocimiento detallado del corpus� La estimación de estas métricas� consultas

establecidas a manera de grupos� Dependientes al orden???

119

Puntos a considerar:

Page 22: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

P@5 AND P@10

� En la búsqueda WEB, no se requiere un alto recuerdo

� Usuario:� Top-Ranking � mejor impresión ante sus ojos

� En estos casos:

� Se cuantifica si el usuario encuentra relevantes o no los top N documentos 120

Page 23: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

P@5 AND P@10

� En general:

121P@N

Page 24: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

MAP: MEAN AVERAGE PRECISION

� Promedia las precisiones obtenidas después de que un nuevo documento relevante es observado� En casos de docs. No recuperados-> Precision=0

122

Page 25: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

R-PRECISION

� Útil para analizar el desempeño en consultas de manera individual

� De manera general:

� R-Precision Average para varias consultas

� Pregunta:

� Qué valor del top-X puedeser conveniente???

123

Page 26: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

PRECISION HISTOGRAMS

� Manera Gráfica de percibir el desempeño

124

Page 27: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

PRECISION HISTOGRAMS

125

Page 28: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

MRR: MEAN RECIPROCAL RANK

� Ütil en problemas de QA (Question-Answering)

� Ranking� Posición de la primer respuesta correcta

� También:

� Consultas de URL� Consultas de Webpages

126

Page 29: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

MRR: MEAN RECIPROCAL RANK

127

Page 30: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

THE E-MEASURE

� Considera Precisión y recuerdo simultáneamente

� Se especifica la relevancia de Precisión o Recuerdo

128

??

Page 31: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

THE E-MEASURE

� Valores pequeños de b � Precision , b~0

� Valores grandes de b � Recuerdo b� ∞

� Con b=1 �

129

F-Measure

Page 32: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

F-MEASURE: HARMONIC MEAN

� F∈∈∈∈ [0,1]

� F=0??

� F=1??

� Valores grandes de F ???

130

Page 33: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

USER-ORIENTED MEASURES

131

Page 34: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

USER-ORIENTED MEASURES

132

Page 35: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

USER-ORIENTED MEASURES

� Coverage Ratio

� Novelty Ratio

133

Page 36: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

DISCOUNTED CUMULATED GAIN (DCG)

� En métricas anteriores, no es posible determinar:� Documentos: Altamente, medianamente relevantes

� Es necesario considerar criterios (valores) de relevancia

� En particular � DCG

� En general, al examinar resultados de una consulta, podemos notar:� Es preferible tener en primeras posiciones a los docs.

Altamente relevantes� Documentos que aparecen al final del ranking, son

menos interesantes (para el usuario)134

Page 37: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

CG (CUMULATED GAIN)

� Supongamos:

� Una escala 0...3 donde 0=No relevante, 3=muy relevante

� Para dos consultas, los siguientes resultados:

� Suele considerarse el vector G=<, , , , > (Gain Vector) con cada una de estos valores de escala

� En particular, se utiliza la ganancia acumulada en este vector 135

Page 38: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

CG (EJEMPLO)� Consideremos top 15 docs para los vectores:

� La suma acumulada para estos vectores es:

136

Vectores CG Suavizados

Page 39: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

DCG

� Para calcular DCG, suele utilizarse escala logarítmica

137

Page 40: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

138

Page 41: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

RANK CORRELATION METRICS

139

Page 42: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

RANK CORRELATION METRICS

140

Page 43: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

SPEARMAN COEFFICIENT

� Se basa en las diferencias entre posiciones de un mismo documento en R1 y R2 (Rankings)

141

Page 44: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

SPEARMAN COEFFICIENT

142

Page 45: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

GRÁFICA DE RANKING

� Al graficar las posiciones ranking:

� Hay correlación???143

Page 46: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

SPEARMAN COEFFICIENT

144

Page 47: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

SPEARMAN COEFFICIENT

145

Page 48: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

DOCUMENTOS

146

Page 49: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

DOCUMENTO

� Denota una unidad de información

� Posee sintaxis y estructura

� Tiene una semántica� por el autor

� Puede contener un estilo de presentación:� Dadas su sintaxis y estructura� Referente a alguna aplicación

147

Page 50: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

SINTAXIS DEL DOCUMENTO

� Expresa la estructura, estilo de presentación, semántica

� Uno o varios elementos pueden presentarse en conjunto

� La sintaxis del documento:� Puede expresarse en un lenguaje declarativo, lenguaje

de programación

148

Page 51: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

DOCUMENTOS/TEXTO

� El texto puede expresarse en lenguaje natural

149

Complicado para

computadoras

Reto:Lenguaje en documentos que proporcione información de la

estructura, semántica, etc. ���� Entendible por humanos y computadoras¡¡

Page 52: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

ESTILO DEL DOCUMENTO� Respecta a cómo se visualiza/imprime

� El estilo se puede indicar mientras se edita

� Puede contenerse en el documento: Tex, RTF

� Complementado por macros: LaTex

150

Page 53: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

TEXTO

� Querie Engines:

� Pequeños fragmentos de texto� No es texto normal� Comprensión � Semántica

151

Importante para RI???

Page 54: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

152

Page 55: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

METADATA

153

Page 56: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

METADATA

� Es información acerca de la información de los datos, dominios y su relación

� Datos� provenientes de datos

� Los meta-datos se asocian con (casi) todos los documentos en una colección

� Tipos:

� Descriptive Metadata

� Semantic Metadata

154

Page 57: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

DESCRIPTIVE METADATA

� Propiamente:� Autor del texto� Fecha de publicación� Fuente de la publicación� Tamaño del documento

Formato estándar: MARC (Machine Readable CatalogingRecord)

� …Son datos externos al significado del documento y respecta a datos de la creación de éste… [Marchionini]

155

Page 58: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

SEMANTIC METADATA

� Caracteriza el tema/tópico referente al contenido del documento

� Está asociada a una gran cantidad de documentos

156

Page 59: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

METADATA IN WEB DOCUMENTS

� Existe en web debido a propósitos:

� Ranking� contenidos� Derechos de propiedad intelectual� Firmas digitales� Comercio electrónico

� Formato fundamental:

� RDF (Resource Description Framework)

157WEB Semántica

Page 60: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

DOCUMENT FORMATS

158

Page 61: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

FORMATOS

� Los sistemas R.I. debes poder recuperar información a partir de diversos formatos de texto

� Algunos formatos:

� Non structured document formats

� Plain Text

� ASCII

� ISO Latin

� UTFs (Unicode Transformation Format), UTF8,16,32

159

Page 62: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

CONTENT-ORIENTED FORMATS

160

� -

� DOC, DOCX, RTF, ODF, ODT,

Page 63: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

PAGE DESCRIPTION-BASED FORMATS

161

o Post Script

o PDF

Page 64: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

INTERCHANGE FORMATS TO ENCODE

ELECTRONIC MAIL

� Multipurpose Internet Mail Exchange (MIME)

� Compress, ARJ (Archived by Robert Jung) for compressing text

162

Page 65: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

MULTIMEDIA

� Imágenes

� BMP� JPG (Joint Photographic Expertise Group)� GIF (Graphics Interchange Format) � PNG (Portable Network Graphics)

163

Page 66: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

MULTIMEDIA

� Video

� MPEG (Moving Picture Experts Group)�Codec

� MPEG-4-14 � MP4

� AVI (Audio Video Interlave)� Container

� 3GP � Container

� MTK � Container

164

Page 67: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

MULTIMEDIA

� Audio

� MIDI (Musical Instrument Digital Interface)

� WAV, AIFF � Sin compresión

� MP3

165

Page 68: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

TAG-BASED FORMATS

166

� HTML (HyperText Markup Language)

� XML (eXtensible Markup Language)