Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014.
-
Upload
araceli-ybanez -
Category
Documents
-
view
217 -
download
0
Transcript of Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014.
Información SemiestructuradaMC Beatriz Beltrán Martínez
Primavera 2014
Definición
• Lo que sea entre estructurado y no estructurado• Variables pobremente tipadas (x=1 es válido y
x=”hola” también es válido)• Un registro no necesariamente tiene que tener
todos sus atributos definidos. Mientras por ejemplo en una base de datos relacional un campo debe establecerse como NULL cuando no se tiene, en un ambiente de datos semiestructurados basta con omitir dicho atributo.
FCC
- BU
AP
Prim
aver
a 20
14M
C Be
atriz
Bel
trán
Mar
tíez
2
Definición
•Un atributo de un registro puede ser otro registro.•No existe necesariamente una diferencia entre un identificador de un campo y el valor mismo de este.•Ejemplos: documentos SGML y XML
FCC
- BU
AP
Prim
aver
a 20
14M
C Be
atriz
Bel
trán
Mar
tíez
3
Representación• Árboles:
FCC
- BU
AP
Prim
aver
a 20
14M
C Be
atriz
Bel
trán
Mar
tíez
4
Representación
• Texto indentado:
FCC
- BU
AP
Prim
aver
a 20
14M
C Be
atriz
Bel
trán
Mar
tíez
5
Representación
• Lenguaje de marcado:
FCC
- BU
AP
Prim
aver
a 20
14M
C Be
atriz
Bel
trán
Mar
tíez
6
XML
• La reciente proliferación de documentos XML para almacenar y organizar información textual ha originado una creciente demanda de recuperación de información efectiva sobre este tipo de documentos y que además utilice tanto la estructura como la información contenida en dicha estructura para devolver documentos o partes de los mismos como respuesta a una consulta.
FCC
- BU
AP
Prim
aver
a 20
14M
C Be
atriz
Bel
trán
Mar
tíez
7
XML
• En cuanto a los resultados, tradicionalmente las búsquedas de texto devuelven una lista de documentos con cierta información acerca de ellos y ordenados según algún criterio de relevancia.• En el contexto de la recuperación de información
se pone el énfasis principalmente en las búsquedas de texto, la manipulación de conjuntos de resultados, las relaciones de inclusión, las distancias y la ordenación por relevancia de los documentos obtenidos.
8
MC
Beat
riz B
eltr
án M
artín
ezFC
C - B
UAP
P
rimav
era
2014
XML
•La estructura de los documentos se utiliza para facilitar una focalización de las respuestas del sistema a unidades de documento más adecuadas.•Esta mayor adecuación está relacionada con la noción de especificidad del componente de documento en la consulta.
FCC
- BU
AP
Prim
aver
a 20
14M
C Be
atriz
Bel
trán
Mar
tíez
9
XML
• Además el problema de las estrategias de indexación de información estructurada es crítico para el diseño de tales estrategias de recuperación.• Sin embargo, si se basan en el uso explícito de la
estructura lógica o en la recuperación de pasajes, los modelos de recuperación que manejan documentos estructurados siguen siendo experimentales y hay una falta de experimentación extensiva en colecciones grandes.
FCC
- BU
AP
Prim
aver
a 20
14M
C Be
atriz
Bel
trán
Mar
tíez
10
Procesamiento
• Hablar de recuperación en XML es para muchos asociar un documento con sus respectivos metadatos.• De manera que únicamente se mantienen
algunos de los datos representativos del documento (ejemplo: la ficha bibliográfica) en alguno de los tipos de bases de datos mencionados anteriormente y el documento es almacenado en algún tipo de dispositivo de almacenamiento.
FCC
- BU
AP
Prim
aver
a 20
14M
C Be
atriz
Bel
trán
Mar
tíez
11
FCC
- BU
AP
Prim
aver
a 20
14M
C Be
atriz
Bel
trán
Mar
tíez
12
Procesamiento
Base de Datos
Sistema deArchivos
consulta
metadatos
Id Documento
Documento
Características
• Para atender las necesidades de esta comunidad, un lenguaje de consulta para XML debería poseer las cualidades comunes de los lenguajes de consulta de datos semiestructurados, tanto las puramente relacionales, como aquellas similares a las de los lenguajes de consulta de bases de datos orientados a objeto, tales como la navegación y el anidamiento.• A continuación se explican con mayor detalle las
principales particularidades deseables para la consulta de datos:
13
MC
Beat
riz B
eltr
án M
artín
ezFC
C - B
UAP
P
rimav
era
2014
• Operación de selección: elige un documento o elemento basándose en el contenido, estructura o atributos que satisfagan una condición específica. Estas consultas constan generalmente de 3 partes o cláusulas:• Patrón: equipara elementos anidados en el
documento de entrada y les asocia variables.• Filtro: testea que las variables asociadas cumplan
las condiciones establecidas.• Constructor: especifica el resultado en términos
de las variables asociadas, es decir qué formato ha de tener la respuesta.
14
MC
Beat
riz B
eltr
án M
artín
ezFC
C - B
UAP
P
rimav
era
2014Características
• Operación de filtrado: extrae determinados elementos de los documentos conservando la jerarquía y secuencia.• Operación de reducción: proyecta como salida
la poda de los elementos especificados en la selección que satisfacen las condiciones, en vez de devolver un subárbol con todos los elementos y atributos.• Acción de reestructuración: como por ejemplo
la agrupación de datos relacionados y la ordenación.
15
MC
Beat
riz B
eltr
án M
artín
ezFC
C - B
UAP
P
rimav
era
2014Características
• Operación de combinación de datos de diferentes porciones de documentos (correspondiente al “join” relacional) o combinación de diferentes partes del mismo documento (“semi-join”).• Uso de funciones de agregación. • Utilización de la cuantificación existencial y
universal.• Operaciones de inserción, borrado y
modificación. 16
MC
Beat
riz B
eltr
án M
artín
ezFC
C - B
UAP
P
rimav
era
2014Características
• Variables etiqueta o expresiones de camino para permitir peticiones sin conocimiento preciso de la estructura del documento y acceso a datos anidados de forma arbitraria. El lenguaje de consulta debe poder usarse aun cuando no se conozca un esquema (dtd o xml schema) a priori.• Operadores de navegación que simplifiquen el
manejo de datos con referencias [atributos id, idref(s)].• Manejo de tipos de datos, en particular los del
XML schema17
MC
Beat
riz B
eltr
án M
artín
ezFC
C - B
UAP
P
rimav
era
2014Características
Recuperación de pasajes
• La idea de recuperar partes de documentos no es nueva.• La recuperación de partes de documentos,
llamadas pasajes, es la propuesta más antigua y estudiada.• El principio, es bastante simple: dentro de los
documentos de texto, los pasajes son secuencias textuales de palabras consecutivas que presentan cierta homogeneidad en su temática y que, por lo tanto, pueden ser relevantes para el usuario.
18
MC
Beat
riz B
eltr
án M
artín
ezFC
C - B
UAP
P
rimav
era
2014
• Por “palabras consecutivas” entendemos una secuencia de palabras según el “orden de lectura” del documento.• Debido a que a priori se ignora la estructura
lógica oculta de los documentos, el problema principal es encontrar una “buena” segmentación de los documentos.• Un método clásico para localizar pasajes consiste
en analizar la distribución de las palabras dentro de una ventana de tamaño fijo que se va desplazando. 19
MC
Beat
riz B
eltr
án M
artín
ezFC
C - B
UAP
P
rimav
era
2014Recuperación de pasajes
• Los límites de los pasajes se encuentran cuando se observa un cambio significativo en la distribución del vocabulario local al compararlo con distribución previa.• También se han realizado propuestas basadas en
pasajes más cercanas a la noción de estructura lógica, pero este tipo de propuestas no pueden aprovechar al máximo de la estructura lógica de los documentos.
20
MC
Beat
riz B
eltr
án M
artín
ezFC
C - B
UAP
P
rimav
era
2014Recuperación de pasajes
Modelo de listas no solapadas
• Esta propuesta de Burkowski se basa en la división de cada documento en regiones de texto disjuntas pero que recubren todo el documento (índices densos), produciendo una lista.• El proceso se realiza para los distintos tipos de
regiones que aparecen en el documento, produciéndose múltiples listas: lista de capítulos, lista de párrafos, etc., de manera que no existe solapamiento entre regiones de una misma lista y si se puede producir entre regiones de listas diferentes.
21
MC
Beat
riz B
eltr
án M
artíe
zFC
C - B
UAP
P
rimav
era
2014
22
MC
Beat
riz B
eltr
án M
artíe
zFC
C - B
UAP
P
rimav
era
2014Modelo de listas no solapadas
Capítulo
Sección
Subsección
Subsubsección