Por Javier Areco
Los buscadores se esfuerzan por indexar el mayor volumen de información de internet. Pero, ya sea porque los responsables de los sitios web ocultan la información (por seguridad, privacidad, etc.)
o porque de forma expresa le piden a los robots que no indexen sus sitios (o parte de ellos), la realidad es que la información que recuperamos a través de los principales buscadores es solo la punta del iceberg o las aguas superficiales de todo internet. Las cifras de referencia varían de una fuente a la otra, pero se calcula que
sólo accedemos de forma “visible” a entre un 4 y 20 % de toda la información existente en línea.
Este volumen de información y datos no indexado o indexado en forma parcial se denomina Internet profunda o Internet invisible (también «Web oculta» o «Web invisible», del inglés «Deep web e Invisible web» ).
¿Y qué tipo de información que está en línea, pero es “invisible” a los buscadores, podemos encontrar? Desde sitios web con artículos de revistas científicas hasta documentos de texto en diferentes formatos (PDF, DOC, TXT, etc.) pasando por contenidos multimedia y audiovisual.
Por ejemplo, si ingresamos en el catálogo en línea de la Biblioteca de la Universidad Nacional de Lanús y buscamos [Un perro andaluz]

la búsqueda nos arrojará el siguiente resultado:

Pero si buscamos en Google Búsqueda a través de la sintaxis [site:unla.edu.ar » un perro andaluz»] no recuperamos resultados alguno.

¿Cómo puede ser esto posible, si la cadena de textos [Un perro andaluz] figura en algún archivo de los servidores de la UNLa? Internet profunda es la respuesta. Esa información se encuentra bloqueada para los robots indexadores de Google y de otros buscadores. Es “invisible” y por ese motivo, en la búsqueda anterior no obtuvimos resultados.
Veamos otro ejemplo al respecto. Un usuario nos solicita la siguiente información:
Estimados Biblioteca UNLa: para una investigación necesitaría el artículo de José Torre Revello, en formato electrónico: «Los maestros bibliógrafos de América» que alguna vez estuvo colgado del sitio geocities, no recuerdo bien donde, mucho agradecería si pudiera facilitármelo.
Para resolver esta consulta, lo primero que debemos hacer es conocer la dirección exacta, la URL, donde estaba el artículo en cuestión. Buscamos, entonces en Google Búsqueda:

y al recorrer el documento en formato PDF del primer resultado descubrimos:

Una vez que conocemos la dirección web, la URL del recurso buscado, ingresamos a ella
http://ar.geocities.com/bibliotecalista/novedades.htm

Lamentablemente, el recurso no se encuentra disponible. Para casos de URL que ayer existieron y hoy ya no están, podemos consultar a la Wayback Machine del Internet Archive .
Wayback Machine es un servicio web que guarda copias de páginas y archivos del «pasado» de la web. Utilizando este servicio, se puede acceder a una versión de la página web buscada en [http://web.archive.org/web/20090723103234/http://
ar.geocities.com/bibliotecalista/novedades.htm] y dentro de la misma bajar el texto completo desde el enlace destacado con el recuadro verde [http://web.archive.org/
web/20090723103234/http://ar.geocities.com/bibliotecalista/ProfZabala.zip]

Este texto es un fragmento de:
Areco, Javier M. (2013), Módulo 6. Búsqueda de información, en Módulo Orientado I. Gestión administrativa de bibliotecas y búsquedas de información académica, Tecnicatura Superior en Gestión y Administración Universitaria, Departamento de Planificación y Políticas Públicas, UNLa. Virtual / Universidad Nacional de Lanús.
Agradecemos a UNLa Virtual el permiso de compartir este texto.
¡Excelente ejemplo de web profundo! Me sirve para las clases en el terciario de inicial donde soy profe en Córdoba. Así los pibes no le tienen miedo a la web profunda pues entienden los conceptos dichos anteriormente antes. Gracias por compartir esta información. Saludos.