Importar documentos de un disco, extraer metadatos y texto completo.8
© foto hdd 2009 Libreria
Titulo del Curso: Software “Herramienta de Documentalista” Su uso para profesionales de la informacion
http://www.facebook.com/reqs.php#/group.php?gid=125981401602
“Las nuevas formas documentales, la inmaterialidad de los registros de conocimiento y la profunda transformación en las instituciones burocráticas que los producen, harían estremecer al mismo Schellenberg y a otros grandes teóricos de la Archivística del siglo XX, y están alterando ya lasprácticas y el trabajo de los archiveros del XXI “
Una cita para reflexionar...
Eva Mª Méndez RodríguezDpto. Biblioteconomía y
Documentación.Universidad Carlos III de Madrid
Foto: Obra del Arquitecto Japones Tadao Ando
TEMARIO
1 Instalacion y personalizacion del software2 Alta, baja y modificacion de un documento (registro)3 Recolectar RSS, lector de feed4 Recolectar enlaces, captura masiva de documentos en internet5 Definicion de la Tabla de materias y del Cuadro de clasificacion6 Asignar materia, Etiquetado, Cuadro de clasificacion7 Importar imagenes de un disco, extraer metadatos8 Importar documentos de un disco, extraer metadatos y texto completo9 Metadatos y Recuperacion de la informacion10 Difusion de la informacion, Generar informes11 Gestion de necesidades de informacion, calcular relevancia y pertinencia.
DESCRIPCION Y OBJETIVOS DE ESTE TEMA
Añadir a la base de datos ficheros de documentos que tenemos en nuestro disco local, una memoria flash etc...
Extraer metadatos mediante EXIFTOOL.
Extraer contenido (texto) de documentos tales como documentos Microsoft Word, Microsoft Power Point, Microsoft Excell, PDF de Adobe, HTML y otros...
Importar documentos
Desde el menu principal elegimos la opcion Entrada de Documentos
Elegimos la opcion Importar ficheros de un disco o directorio local
En este formulario debemos señalar el directorio de origen (Donde estan las documentos) y el directorio de destino, que sera el mismo si queremos que las documentos (ficheros) permanezcan en el mismo directorio donde estan en la actualidad.
Si queremos que los documentos se copien a otro directorio distinto (Por ejemplo de una memoria flash a un directorio del disco C: de nuestro PC.)
Se puede escribir la ruta manualmente (P. ejemplo d:\archivos\tesis ) o seleccionarlo mediante el boton Examinar...
Queremos importar el directorio C:\prueba\textos donde tenemos una serie de documentos
1DIRECTORIO de ORIGENPulsando en Examinar... vamos al directorio c:\prueba que es el directorio de origen, y deberemos pulsamos en Abrir
2 DIRECTORIO de DESTINOPara el directorio de destino realizamos la misma operación pulsando en Examinar..., Podemos elegir otro directorio de destino diferente o utilizar el mismo, como en este ejemplo.
Pulsamos en importar y el programa insertara en la base de datos un registro por cada documento (fichero)
¡IMPORTANTE!El nombre del directorio puede tener espacios en blanco para la importacion, pero se recomienda que no los tenga si queremos extraer los metadatos posteriormente
Si vamos a la opcion del menu principal Ver todos los documentos
En el formulario de control, podemos ver los documentos importados, en este caso el NOMBRE es el nombre del fichero y la URL corresponde al PATH (Ruta completa)
Estos iconos nos indican la tipologia formato
del documento
Extraer metadados de un documento(Incluidos Metadata Dublin Core si los contiene)
Para extraer los metadatos, seleccionamos la casilla de verificacion del los documentos a procesar, pulsamos el icono Extraer y a continuacion seleccionamos la opcion del menu Metatag exiftool
En cada documento, en la pestaña Conceptos, podemos ver los metadatos extraidos.
En la pestaña Datos, observamos que los campos DC.Creator, DC.Title, DC.Author y DC.Date y Paginas han sido actualizado automaticamente
La pestaña Ver nos muestra la el documento
El campo NOMBRE se puede modificar, como titulo del documento.
El campo URL no debe modificarse.
Extraer texto completo del documento
Para extraer el texto, Pulsamos en el icono Extraer y a continuacion en la opcion del Menu Extraer contenido texto NUEVO
Comienza el proceso de extraccion de texto de los documentos
La anterior extraccion se realiza con el programa WGET, como puede verse no de todos los documentos es posible extraer el texto. Hay diversas causas que veremos en otro momento asi como el tratamiento que habra que dar a cada caso. No toda la informacion que se encuentra en internet esta normalizada.
Si editamos la ficha del documento, en la pestaña datos ahora tenemos dos campos nuevos cumplimentados automaticamente Nombre y Comentario
En la pestaña Materia, podemos ver el texto del documento en formato ASCII, esto va a permitir realizar analisis estadisticos sobre el texto, como calcular la materia probable, la pertinencia o la relevancia
Para mas informacion sobre el calculo de la materia probable vease la siguiente diapositiva
El proceso de calculo de la materia probable no entra dentro de los objetivos de este curso de introduccion, pero puede verse mas informacion en Procesos para el calculo de la materia probable de un documento y su uso en La Herramienta de Documentalista http://www.slideshare.net/hddbeta/borrador-calculo-materia-probable
“Si cerca de la biblioteca tenéis un jardín ya no os faltará de nada. "
Marco Tulio Ciceron(106 AC-43 AC)
Escritor, orador y político romano
http://www.facebook.com/reqs.php#/group.php?gid=125981401602
Top Related