Internet profunda

Por Javier Areco

Los buscadores se esfuerzan por indexar el mayor volumen de información de internet. Pero, ya sea porque los responsables de los sitios web ocultan la información (por seguridad, privacidad, etc.)
o porque de forma expresa le piden a los robots que no indexen sus sitios (o parte de ellos), la realidad es que la información que recuperamos a través de los principales buscadores es solo la punta del iceberg o las aguas superficiales de todo internet. Las cifras de referencia varían de una fuente a la otra, pero se calcula que
sólo accedemos de forma “visible” a entre un 4 y 20 % de toda la información existente en línea.

Este volumen de información y datos no indexado o indexado en forma parcial se denomina Internet profunda o Internet invisible (también «Web oculta» o «Web invisible», del inglés «Deep web e Invisible web» ).

¿Y qué tipo de información que está en línea, pero es “invisible” a los buscadores, podemos encontrar? Desde sitios web con artículos de revistas científicas hasta documentos de texto en diferentes formatos (PDF, DOC, TXT, etc.) pasando por contenidos multimedia y audiovisual.
Por ejemplo, si ingresamos en el catálogo en línea de la Biblioteca de la Universidad Nacional de Lanús  y buscamos  [Un perro andaluz]

Imagen. Captura de pantalla del catálogo de la biblioteca Rodolfo Puiggrós de la Universidad Nacional de Lanús.
Imagen. Captura de pantalla del catálogo de la biblioteca Rodolfo Puiggrós de la Universidad Nacional de Lanús.

la búsqueda nos arrojará el siguiente resultado:

Imagen. Captura de pantalla de los resultados de la búsqueda de "un perro andaluz", en el catálogo de la biblioteca Rodolfo Puiggrós de la Universidad Nacional de Lanús
Imagen. Captura de pantalla de los resultados de la búsqueda de «un perro andaluz», en el catálogo de la biblioteca Rodolfo Puiggrós de la Universidad Nacional de Lanús

Pero si buscamos en Google Búsqueda a través de la sintaxis  [site:unla.edu.ar » un perro andaluz»] no recuperamos resultados alguno.

Imagen. Captura de pantalla de los resultados de la misma búsqueda en Google búsqueda
Imagen. Captura de pantalla de los resultados de la misma búsqueda en Google búsqueda

¿Cómo puede ser esto posible, si la cadena de textos [Un perro andaluz] figura en algún archivo de los servidores de la UNLa? Internet profunda es la respuesta. Esa información se encuentra bloqueada para los robots indexadores de Google y de otros buscadores. Es “invisible” y por ese motivo, en la búsqueda anterior no obtuvimos resultados.

Veamos otro ejemplo al respecto. Un usuario nos solicita la siguiente información:

Estimados  Biblioteca  UNLa:  para  una  investigación  necesitaría  el  artículo  de José Torre Revello, en formato electrónico: «Los maestros bibliógrafos de América» que alguna vez estuvo colgado del sitio geocities, no recuerdo bien donde, mucho agradecería si pudiera facilitármelo.

Para resolver esta consulta, lo primero que debemos hacer es conocer la dirección exacta, la URL, donde estaba el artículo en cuestión. Buscamos, entonces en Google Búsqueda:

Imagen. Captura de pantalla de la búsqueda "Los maestros bibliógrafos de América" en Google búsqueda
Imagen. Captura de pantalla de la búsqueda «Los maestros bibliógrafos de América» en Google búsqueda

y al recorrer el documento en formato PDF del primer resultado descubrimos:

Imagen. Referncia bibliográfica del documento buscado, con enlace indicado
Imagen. Referncia bibliográfica del documento buscado, con enlace indicado

Una vez que conocemos la dirección web, la URL del recurso buscado, ingresamos a ella

http://ar.geocities.com/bibliotecalista/novedades.htm

Imagen. Captura de pantalla del resultado de la búsqueda en Yahoo, con el mensaje "Lo sentimos, el sitio web de GeoCities al que intentas obtener ya no está disponible
Imagen. Captura de pantalla del resultado de la búsqueda en Yahoo, con el mensaje «Lo sentimos, el sitio web de GeoCities al que intentas obtener ya no está disponible

Lamentablemente, el recurso no se encuentra disponible. Para casos de URL que ayer existieron y hoy ya no están, podemos consultar a la  Wayback Machine  del Internet Archive .

Wayback Machine es un servicio web que guarda copias de páginas y archivos del «pasado» de la web. Utilizando este servicio, se puede acceder a una versión de la página  web  buscada  en [http://web.archive.org/web/20090723103234/http://
ar.geocities.com/bibliotecalista/novedades.htm] y dentro de la misma bajar el texto completo desde el enlace destacado con el recuadro verde  [http://web.archive.org/
web/20090723103234/http://ar.geocities.com/bibliotecalista/ProfZabala.zip]

Imagen. Captura de pantalla del resultado de la búsqueda mencionada, con el enlace al documento
Imagen. Captura de pantalla del resultado de la búsqueda mencionada, con el enlace al documento

Este texto es un fragmento de:

Areco, Javier M. (2013), Módulo 6. Búsqueda de información, en Módulo Orientado I. Gestión administrativa de bibliotecas y búsquedas de información académica, Tecnicatura Superior en Gestión y Administración Universitaria, Departamento de Planificación y Políticas Públicas, UNLa. Virtual / Universidad Nacional de Lanús.

Agradecemos a UNLa Virtual el permiso de compartir este texto.

Un comentario en “Internet profunda”

  1. ¡Excelente ejemplo de web profundo! Me sirve para las clases en el terciario de inicial donde soy profe en Córdoba. Así los pibes no le tienen miedo a la web profunda pues entienden los conceptos dichos anteriormente antes. Gracias por compartir esta información. Saludos.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s