La 'búsqueda de Google con esteroides' saca a la luz la Web oscura

La agencia gubernamental que nos trajo Internet ha desarrollado un nuevo y poderoso motor de búsqueda que está arrojando luz sobre el contenido de la llamada Deep Web. 

La Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) comenzó a trabajar en el motor de búsqueda Memex Deep Web hace un año y esta semana dio a conocer sus herramientas a Scientific American y "60 Minutes". 

Memex, que está siendo desarrollado por 17 equipos de contratistas diferentes, tiene como objetivo construir un mejor mapa del contenido de Internet y descubrir patrones en los datos en línea que podrían ayudar a los agentes del orden y otros. Si bien los primeros ensayos se han centrado en mapear los movimientos de los traficantes de personas, la tecnología podría algún día aplicarse a esfuerzos de investigación como el contraterrorismo, las personas desaparecidas, la respuesta a enfermedades y la ayuda en casos de desastre.

Dan Kaufman, director de la oficina de innovación de la información de DARPA, dice que Memex se trata de hacer que lo invisible se vea. "Internet es mucho, mucho más grande de lo que la gente piensa", dijo el gerente del programa DARPA, Chris White, a "60 Minutes". "Según algunas estimaciones, Google, Microsoft Bing y Yahoo solo nos dan acceso a alrededor del 5 por ciento del contenido de la Web".

Google y Bing producen resultados basados ​​en popularidad y clasificación, pero Memex busca contenido que los motores de búsqueda comerciales suelen ignorar, como datos no estructurados, contenido no vinculado, páginas temporales que se eliminan antes de que los motores de búsqueda comerciales puedan rastrearlos y foros de chat. Los motores de búsqueda habituales ignoran estos datos de la Web profunda porque los anunciantes de la Web, donde las empresas de navegadores ganan dinero, no tienen interés en ellos.

Memex también automatiza el mecanismo de rastreo de la Web oscura, o anónima, donde los delincuentes realizan negocios. Estas páginas de servicios ocultos, accesibles solo a través del navegador anónimo TOR, generalmente operan bajo el radar de las fuerzas del orden que venden drogas ilícitas y otro contrabando. Donde alguna vez se pensó que la actividad de la Dark Web consistía en aproximadamente 1.000 páginas, White dijo a Scientific American que podría haber entre 30.000 y 40.000 páginas Dark Web.

Hasta ahora era difícil examinar estos sitios de forma sistémica. Pero Memex, que el fiscal de distrito de Manhattan, Cyrus Vance Jr., llama "búsqueda de esteroides en Google", no solo indexa su contenido, sino que lo analiza para descubrir relaciones ocultas que podrían ser útiles para las fuerzas del orden.

Las herramientas de búsqueda de DARPA se introdujeron el año pasado en determinadas agencias de aplicación de la ley, incluida la nueva Unidad de Respuesta a la Trata de Personas de Manhattan. Memex ahora se utiliza en todos los casos de trata de personas que persigue y ha desempeñado un papel en la generación de al menos 20 investigaciones de tráfico sexual. El rastreador web supercargado puede identificar relaciones entre diferentes piezas de datos y produce mapas de datos que ayudan a los investigadores a detectar patrones.

En una demostración de "60 Minutes", White mostró cómo Memex puede rastrear el movimiento de los traficantes basándose en datos relacionados con anuncios de sexo en línea. "A veces es una función de la dirección IP, pero a veces es una función de un número de teléfono o una dirección en el anuncio o la geolocalización de un dispositivo que publicó el anuncio", dijo White. "A veces hay otros artefactos que contribuyen a la ubicación".

White enfatizó que Memex no recurre a la piratería para recuperar información. "Si algo está protegido con contraseña, no es contenido público y Memex no lo busca", dijo a Scientific American. "No queríamos nublar este trabajo innecesariamente arrastrando el espectro del espionaje y la vigilancia", un tema delicado después de las revelaciones de la NSA de Edward Snowden.

Memex obtuvo su nombre (una combinación de "memoria" e "índice") e inspiración de un dispositivo hipotético descrito por Vannevar Bush en 1945 que presagiaba la invención de las PC, Internet y otros importantes avances de TI de los próximos 70 años. Ahora DARPA y Memex parecen estar dispuestos a acercarnos un paso más al departamento de policía futurista de Philip Dick representado en "Minority Report".

Una nueva ronda de pruebas, que comenzará en unas pocas semanas, incluirá fiscales federales y de distrito, fuerzas del orden regionales y nacionales y varias ONG. Según el informe de Scientific American, su objetivo es "probar nuevas capacidades de búsqueda de imágenes que pueden analizar fotos incluso cuando se ocultan partes que podrían ayudar a los investigadores, incluidos los rostros de los traficantes o una pantalla de televisión en el fondo".

Al inventar mejores formas de interactuar y presentar la información recopilada de un grupo más grande de fuentes, "queremos mejorar la búsqueda para todos. La facilidad de uso para los no programadores es esencial", dijo White.