Web scraping no ético pone a Perplexity en aprietos

El entrenamiento de un modelo de inteligencia artificial consiste de entregarle a la herramienta una enorme cantidad de datos, entre otras fases. Pueden provenir de libros, enciclopedias, canciones o sitios web. En este último caso, pueden ser datos abiertos o los propietarios pueden poner restricciones de acceso al contenido. La técnica para obtener información de esos sitios se llama raspado web (web scraping) y de sus malos usos se acusa a Perplexity.

En concreto, Cloudflare (empresa con una red de servidores distribuidos por todo el mundo permite puedas acceder de forma rápida y segura al contenido de una web) afirma tener “evidencia continua de que Perplexity modifica repetidamente su agente de usuario y cambia sus ASN de origen para ocultar su actividad de rastreo, además de ignorar, o en ocasiones incluso no obtener, los archivos robots.txt”.

Un archivo robots.txt enumera las preferencias de un sitio web para el comportamiento de los bots. Indica a los bots qué páginas web deben y no deben acceder. Los archivos robots.txt son más relevantes para los rastreadores web. Por otra parte, el ASN es el número que identifica a una red con una única política de enrutamiento, explica la propia Cloudflare.

Clientes del servicio alertaron a la empresa que a pesar de establecer restricciones de acceso a Perplexity, esta seguía recopilando información. Ante esa situación, Cloudflare creó un sitio web de prueba, no indexado en buscadores ni hecho público de ninguna forma. Implementaron límites para la herramienta y al hacerle una consulta confirmaron que habían vuelto a sufrir web scraping por parte de Perplexity.

*Conversación de Cloudflare con Perplexity sobre el nuevo sitio de prueba. Foto: Cloudflare*

Cuando el agente rastreador oficial de Perplexity está bloqueado, emplea otro que utiliza IP no declaradas oficialmente por sus creadores, que le permitían burlar el bloqueo de Cloudflare con el uso extra de varios ASN.

Desde la empresa de IA han respondido de esta forma: “Esta controversia revela que los sistemas de Cloudflare son fundamentalmente inadecuados para distinguir entre asistentes de IA legítimos y amenazas reales. Si no se puede distinguir un asistente digital útil de un scraper malicioso, probablemente no se debería tomar decisiones sobre qué constituye tráfico web legítimo”.

Perplexity se ha convertido en una herramienta para hacer búsquedas de información y recibir respuestas en lenguaje natural, ahorrando tiempo al usuario. Con esta polémica, se pone en la escena pública otro problema de las herramientas de IA: la ética en la obtención de datos para su entrenamiento. Si la protección del propio sitio no basta, ¿hay algo que pueda impedir el acceso a información más sensible?

La IA y SEO: cambios en las reglas del juego

Vale aclarar que el web scraping no se considera ilegal, si se trata de datos públicos o cuyo acceso está permitido. La irregularidad vendría al tratarse de información personal de usuarios de Internet, o de sitios que específicamente establecen a través de términos y condiciones o protecciones de seguridad su negativa al raspado de su contenido.

Flash del día

Esta semana, OpenAI lanzó ChatGPT-5. La recepción de los usuarios ha sido mixta, destacando sus capacidades para la creación de códigos y razonamiento lógico. Sin embargo, muestra debilidades en tareas de escritura creativa y búsqueda de información.

En una sesión de preguntas y respuestas de Reddit, Sam Altman explicó a los usuarios que la nueva versión parecía más ineficaz debido a un fallo en el router. Ahora, la herramienta decide qué modelo usar de acuerdo al prompt y los usuarios piden que se deje abierta la posibilidad de emplear GPT-4o, algo en lo que Altman prometió trabajar.

Prompt de la semana

Voy a contarte cómo organicé un maratón de películas con ayuda de IA. Tengo más de setenta películas por ver y no sabía por dónde empezar. Vamos allá.

Haz una captura de pantalla de la carpeta donde tienes tus películas.
Envíale la imagen a Deepseek o ChatGPT con este prompt: “realiza un listado con los nombres de las películas que ves en esta carpeta. Haz una búsqueda y añade al listado el año de estreno y el género de cada filme”.
Una vez tengas (y verifiques) el listado, envía este prompt: “a partir de todas esas películas, hazme una propuesta con un orden para verlas. Debe alternar géneros y épocas diferentes para asegurar variedad, a menos que se trate de películas de una saga. En ese caso, sigue la secuencia para no perder el hilo de la trama”.

Web scraping no ético pone a Perplexity en aprietos

Flash del día

Prompt de la semana

Deja un comentario