internet invisible

21
INTERNET INTERNET INVISIBLE INVISIBLE

description

que es. caracteristicas, clasificacion

Transcript of internet invisible

Page 1: internet  invisible

INTERNET INVISIBLEINTERNET INVISIBLE

Page 2: internet  invisible

DEFINICIÒNDEFINICIÒN Se denomina 'Internet invisible' o Infranet al conjunto de recursos accesibles Se denomina 'Internet invisible' o Infranet al conjunto de recursos accesibles

únicamente a través de algún tipo de pasarela o formulario Web que por tanto, no únicamente a través de algún tipo de pasarela o formulario Web que por tanto, no pueden ser indicados de forma estructural por los robots de los buscadores.pueden ser indicados de forma estructural por los robots de los buscadores.

Es toda la información a la cual no acceden los buscadores comunes. Es toda la información a la cual no acceden los buscadores comunes. Generalmente, es información almacenada y accesible mediante base de datos.Generalmente, es información almacenada y accesible mediante base de datos.

Se llama Se llama Internet invisible al conjunto de recursos Web a los que se consigue al conjunto de recursos Web a los que se consigue acceder de manera indirecta y habitualmente con alguna restricción, cuyo contenido acceder de manera indirecta y habitualmente con alguna restricción, cuyo contenido permanece vedado a la indización de los robots de búsqueda de los buscadores. permanece vedado a la indización de los robots de búsqueda de los buscadores.

En 1994 la doctora Jill Ellsworth utilizó el término de "Invisible Web" (En 1994 la doctora Jill Ellsworth utilizó el término de "Invisible Web" ( Internet Internet InvisibleInvisible), para referirse a la información que los motores de búsqueda tradicionales ), para referirse a la información que los motores de búsqueda tradicionales no pueden encontrar.no pueden encontrar.

Otra forma de denominar a esta información es Otra forma de denominar a esta información es ""depp web” (Internet profunda), ya ya que en realidad no es invisible, sólo hay que saber llegar a ella a través de que en realidad no es invisible, sólo hay que saber llegar a ella a través de navegadores convencionales o con plugin. Por ello, el término más correcto para navegadores convencionales o con plugin. Por ello, el término más correcto para denominar a la web invisible sería denominar a la web invisible sería ""no indizable""..

Page 3: internet  invisible

Tipos de InternetTipos de Internet Internet global: Red de información libre y gratuita que es accesible mediante la

interconexión de ordenadores. La forma de acceso se realiza mediante programas navegadores, Chats, mensajería o intercambio de protocolos (FTP, P2P).

Internet invisible: Información que está disponible en Internet pero que únicamente es accesible a través de páginas generadas dinámicamente tras realizar una consulta en una base de datos. Es inaccesible mediante los procesos habituales de recuperación de la información que realizan buscadores, directorios y agentes de búsqueda. Pero podemos acceder mediante herramientas de navegación, correo.

Internet oscuro: Los servidores o host que son totalmente inaccesibles desde nuestro ordenador. La causa principal se debe a zonas restringidas con fines de seguridad nacional y militar, otros motivos son la configuración incorrecta de routers, servicios de cortafuegos y protección, servidores inactivos y finalmente "secuestro" de servidores para utilización ilegal.

Page 4: internet  invisible

TIPOS DE TIPOS DE INFORMACIÒNINFORMACIÒN

Bases de datos:Bases de datos: los buscadores sólo proporcionan acceso a la página de inicio los buscadores sólo proporcionan acceso a la página de inicio porque las restantes son dinámicas. porque las restantes son dinámicas.

Documentos en formato pdf, word...:Documentos en formato pdf, word...: los motores de búsquedas fueron creados los motores de búsquedas fueron creados sólo para localizar e indizar páginas html, aunque actualmente Google indiza sólo para localizar e indizar páginas html, aunque actualmente Google indiza documentos en formato pdf, doc, xml.documentos en formato pdf, doc, xml.

Páginas web que no son indizadas por los motores de búsqueda:Páginas web que no son indizadas por los motores de búsqueda: porque se porque se excluyen ellas mismas a través de un protocolo de exclusión. excluyen ellas mismas a través de un protocolo de exclusión.

Sitios web que necesitan contraseña:Sitios web que necesitan contraseña: los motores de búsqueda no pueden los motores de búsqueda no pueden acceder al contenido de estas páginas. acceder al contenido de estas páginas.

Page 5: internet  invisible

TAMAÑO ESTIMADOTAMAÑO ESTIMADO Por cada millón de páginas visibles hay otros 500 0 550 millones ocultas. Por cada millón de páginas visibles hay otros 500 0 550 millones ocultas.

El 90% es información pública y gratuita.El 90% es información pública y gratuita.

La información es de 400 a 550 veces mayor que la web visible. La información es de 400 a 550 veces mayor que la web visible.

CalidadCalidad

1000-2000 veces superior a la web visible. 1000-2000 veces superior a la web visible.

Page 6: internet  invisible

Sitios de Dudosa Sitios de Dudosa CalidadCalidad

Page 7: internet  invisible

Sitios de buena CalidadSitios de buena Calidad

Page 8: internet  invisible

CLASIFICACIÒN DE CLASIFICACIÒN DE INTERNET INVISIBLE INTERNET INVISIBLE

Sherman y Price (2001) identifican cuatro tipos de contenidos Sherman y Price (2001) identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisibleWeb). y la Web realmente invisible (the truly invisibleWeb).

Page 9: internet  invisible

WEB OPACAWEB OPACA Se compone de archivos que podrían estar incluidos en los índices de los motores de Se compone de archivos que podrían estar incluidos en los índices de los motores de

búsqueda, pero no lo están por alguna de estas razones:búsqueda, pero no lo están por alguna de estas razones:

Extensión de la indización: por economía, no todas las páginas de un sitio son Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores. indizadas en los buscadores.

Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo. desaparecen muchas y la indización no se realiza al mismo ritmo.

Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos). de documentos que se muestran (entre 200 y 1000 documentos).

URL’s desconectados: las generaciones más recientes de buscadores, como URL’s desconectados: las generaciones más recientes de buscadores, como Google, presentan los documentos por relevancia basada en el número de veces Google, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados o ligados en otros. Si un documento no tiene una liga en que aparecen referenciados o ligados en otros. Si un documento no tiene una liga en otro documento será imposible que la página sea descubierta, pues no habrá sido otro documento será imposible que la página sea descubierta, pues no habrá sido indizada. indizada.

Page 10: internet  invisible

WEB PRIVADAWEB PRIVADA

Consiste en las páginas Web que podrían estar indizadas en los motores Consiste en las páginas Web que podrían estar indizadas en los motores de búsqueda pero son excluidas deliberadamente por alguna de estas de búsqueda pero son excluidas deliberadamente por alguna de estas causas:causas:

Las páginas están protegidas por contraseñas (passwords). Las páginas están protegidas por contraseñas (passwords).

Contienen un archivo “robots.txt” para evitar ser indizadas. Contienen un archivo “robots.txt” para evitar ser indizadas.

Contienen un campo “noindex” para evitar que el buscador índice la parte Contienen un campo “noindex” para evitar que el buscador índice la parte correspondiente al cuerpo de la página. correspondiente al cuerpo de la página.

Page 11: internet  invisible

WEB PROPIETARIAWEB PROPIETARIA

Incluye aquellas páginas en las que es necesario registrarse para Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la Web profunda contiene información dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito (Turner, 2003) de acceso público y gratuito (Turner, 2003)

Page 12: internet  invisible

WEB REALMENTE WEB REALMENTE INVISIBLEINVISIBLE

Se compone de páginas que no pueden ser indizadas por limitaciones Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:técnicas de los buscadores, como las siguientes:

Páginas Web que incluyen formatos como PDF, PostScript, Flash, Páginas Web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos. Shockwave, programas ejecutables y archivos comprimidos.

Páginas generadas dinámicamente, es decir, que se generan a partir de Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario. datos que introduce el usuario.

Información almacenada en bases de datos relacionales, que no puede ser Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica. Otra dificultad extraída a menos que se realice una petición específica. Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como consiste en la variable estructura y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda. en los diferentes procedimientos de búsqueda.

Page 13: internet  invisible

CLASIFICACIÒN DE LA CLASIFICACIÒN DE LA WEB INVISIBLEWEB INVISIBLE

Web invisible contiene un gran número de fuentes de información Web invisible contiene un gran número de fuentes de información que no pueden buscarse porque su contenido no ha sido indizado que no pueden buscarse porque su contenido no ha sido indizado ni puede serlo por los principales buscadores.ni puede serlo por los principales buscadores.

Aun cuando recuperemos un sitio que contenga una base de Aun cuando recuperemos un sitio que contenga una base de datos, es improbable que el buscador conduzca a la base de datos datos, es improbable que el buscador conduzca a la base de datos misma, puesto que requiere que se navegue por el sitio Web para misma, puesto que requiere que se navegue por el sitio Web para encontrarla. encontrarla.

Así pues, la Web invisible está constituida por toda esa información Así pues, la Web invisible está constituida por toda esa información accesible vía Web, pero a la que no es posible llegar mediante una accesible vía Web, pero a la que no es posible llegar mediante una

consulta a los buscadores tradicionalesconsulta a los buscadores tradicionales. .

Page 14: internet  invisible

Bases de datos bibliográficasBases de datos bibliográficas: incluidos los catálogos de bibliotecas, : incluidos los catálogos de bibliotecas, las bases de datos de referencias bibliográficas, gratuitas o de pago, etc.las bases de datos de referencias bibliográficas, gratuitas o de pago, etc.

Bases de datos alfanuméricas y a texto completoBases de datos alfanuméricas y a texto completo: que incluyen en : que incluyen en esta categoría las obras de referencia, tipo enciclopedia o diccionarios.esta categoría las obras de referencia, tipo enciclopedia o diccionarios.

Revistas electrónicas y archivos de documentosRevistas electrónicas y archivos de documentos: tanto las de acceso : tanto las de acceso

gratuito, que normalmente exigen registro previo, como los repositorios gratuito, que normalmente exigen registro previo, como los repositorios institucionales; como las de pago (acceso a través de IP o clave institucionales; como las de pago (acceso a través de IP o clave personal), que son invisibles a los motores de búsqueda tradicionales. personal), que son invisibles a los motores de búsqueda tradicionales.

Documentos en formatos no indizablesDocumentos en formatos no indizables, esto es, ficheros no HTML o , esto es, ficheros no HTML o textuales desarrollados con formatos más elaborados (pdf; ppt; doc; etc). textuales desarrollados con formatos más elaborados (pdf; ppt; doc; etc).

Page 15: internet  invisible

EJEMPLOS EJEMPLOS Bibliotecas Digitales

Base de Datos de Bibliotecas

Catálogos de Editoriales

Directorio de publicaciones Periódicas

Directorio de base de Datos

Guías o recopilaciones de sitios.

Page 16: internet  invisible

SITIOS DE INTERNET SITIOS DE INTERNET INVISIBLEINVISIBLE

Page 17: internet  invisible
Page 18: internet  invisible

Motores de BúsquedaMotores de Búsqueda

Buscadores: Buscadores: Especializados- Regionales-Generales.

Ejemplo: Google Youtube Altavista Web crawler

Page 19: internet  invisible

METABUSCADORESMETABUSCADORES Un metabuscador es una clase de buscador que carece de base de datos Un metabuscador es una clase de buscador que carece de base de datos

propia y, en su lugar, usa las de otros buscadores y muestra una propia y, en su lugar, usa las de otros buscadores y muestra una combinación de las mejores páginas que ha devuelto cada buscador.combinación de las mejores páginas que ha devuelto cada buscador.

EJEMPLO: EJEMPLO:

IXQUICKIXQUICK

MAMMAMAMMA

VIVISIMOVIVISIMO

GLUSTYGLUSTY

Page 20: internet  invisible

DIRECTORIODIRECTORIO Es una agrupación de archivos de datos, atendiendo a su contenido, a su Es una agrupación de archivos de datos, atendiendo a su contenido, a su

propósito o a cualquier criterio que decida el usuario. propósito o a cualquier criterio que decida el usuario.

Técnicamente el directorio almacena información acerca de los archivos Técnicamente el directorio almacena información acerca de los archivos que contiene: como los atributos de los archivos o dónde se encuentran que contiene: como los atributos de los archivos o dónde se encuentran físicamente en el dispositivo de almacenamiento. físicamente en el dispositivo de almacenamiento.

EJEMPLO: EJEMPLO:

EXIT EXIT

YAHOOYAHOO

Page 21: internet  invisible

CONCLUSIONESCONCLUSIONES

Calidad y cantidadCalidad y cantidad

Ahorro de tiempoAhorro de tiempo

Ahorro de dineroAhorro de dinero