Cómo el robot de OpenAI aplastó el sitio web de esta empresa de siete personas “como un ataque DDoS”
El sábado, el director general de Triplegangers, Oleksandr Tomchuk, fue alertado de que el sitio de comercio electrónico de su empresa no funcionaba. Parecía ser algún tipo de ataque distribuido de denegación de servicio.
Pronto descubrió que el culpable era un robot de OpenAI que intentaba incansablemente raspar todo su enorme sitio.
“Tenemos más de 65.000 productos, cada producto tiene una página”, dijo Tomchuk a TechCrunch. “Cada página tiene al menos tres fotografías”.
OpenAI estaba enviando “decenas de miles” de solicitudes al servidor intentando descargarlo todo, cientos de miles de fotos, junto con sus descripciones detalladas.
“OpenAI usó 600 IP para extraer datos, y todavía estamos analizando los registros de la semana pasada, tal vez sean muchas más”, dijo sobre las direcciones IP que usó el robot para intentar consumir su sitio.
“Sus rastreadores estaban aplastando nuestro sitio”, dijo. “Fue básicamente un ataque DDoS”.
El sitio web de Triplegangers es su negocio. La empresa, que cuenta con siete empleados, ha pasado más de una década reuniendo lo que llama la base de datos más grande de “dobles digitales humanos” en la web, es decir, archivos de imágenes en 3D escaneados a partir de modelos humanos reales.
Vende archivos de objetos 3D, así como fotografías (desde manos hasta cabello, piel y cuerpos completos) a artistas 3D, creadores de videojuegos y cualquiera que necesite recrear digitalmente características humanas auténticas.
El equipo de Tomchuk, con sede en Ucrania pero también con licencia en los EE. UU. desde Tampa, Florida, tiene una página de términos de servicio en su sitio que prohíbe a los bots tomar sus imágenes sin permiso. Pero eso por sí solo no hizo nada. Los sitios web deben utilizar un archivo robot.txt configurado correctamente con etiquetas que indiquen específicamente al robot de OpenAI, GPTBot, que deje el sitio en paz. (OpenAI también tiene un par de otros bots, ChatGPT-User y OAI-SearchBot, que tienen sus propias etiquetas, según su página de información sobre sus rastreadores.)
Robot.txt, también conocido como Protocolo de exclusión de robots, se creó para indicar a los sitios de motores de búsqueda qué no rastrear mientras indexan la web. OpenAI dice en su página informativa que respeta dichos archivos cuando se configuran con su propio conjunto de etiquetas de no rastreo, aunque también advierte que sus bots pueden tardar hasta 24 horas en reconocer un archivo robot.txt actualizado.
Como experimentó Tomchuk, si un sitio no utiliza correctamente robot.txt, OpenAI y otros interpretan que eso significa que pueden hacerlo hasta el contenido de sus corazones. No es un sistema de suscripción voluntaria.
Para colmo de males, Triplegangers no solo fue desconectado por el bot de OpenAI durante el horario comercial de EE. UU., sino que Tomchuk espera una factura de AWS aumentada gracias a toda la CPU y la actividad de descarga del bot.
Robot.txt tampoco es a prueba de fallos. Las empresas de IA lo cumplen voluntariamente. Otra startup de IA, Perplexity, fue denunciada el verano pasado por una investigación de Wired cuando alguna evidencia implicaba que la perplejidad no era honrándolo.
No puedo saber con certeza qué se tomó.
El miércoles, después de días del regreso del bot de OpenAI, Triplegangers tenía un archivo robot.txt configurado correctamente y también una cuenta de Cloudflare configurada para bloquear su GPTBot y varios otros bots que descubrió, como Barkrowler (un rastreador de SEO) y Bytespider ( rastreador de TokTok). Tomchuk también tiene la esperanza de haber bloqueado los rastreadores de otras empresas de modelos de IA. El jueves por la mañana, el sitio no colapsó, dijo.
Pero Tomchuk todavía no tiene una forma razonable de descubrir exactamente qué tomó OpenAI con éxito o de eliminar ese material. No encontró forma de contactar a OpenAI y preguntar. OpenAI no respondió a la solicitud de comentarios de TechCrunch. Y OpenAI hasta ahora no logró entregar su herramienta de exclusión voluntaria prometida durante mucho tiempocomo informó recientemente TechCrunch.
Este es un tema especialmente complicado para los Triplegangers. “Estamos en un negocio donde los derechos son un problema serio, porque escaneamos a personas reales”, dijo. Con leyes como el GDPR de Europa, “no pueden simplemente tomar una foto de cualquier persona en la web y usarla”.
El sitio web de Triplegangers también fue un hallazgo especialmente delicioso para los rastreadores de IA. Startups valoradas en miles de millones de dólares, como Scale AIse han creado donde los humanos etiquetan minuciosamente imágenes para entrenar la IA. El sitio de Triplegangers contiene fotografías etiquetadas en detalle: origen étnico, edad, tatuajes versus cicatrices, todo tipo de cuerpo, etc.
La ironía es que la avaricia del robot OpenAI es lo que alertó a Triplegangers sobre lo expuesto que estaba. Si hubiera raspado con más suavidad, Tomchuk nunca lo habría sabido, dijo.
“Da miedo porque parece haber una laguna jurídica que estas empresas están utilizando para rastrear datos al decir “puedes optar por no actualizar tu robot.txt con nuestras etiquetas”, dice Tomchuk, pero eso hace que el propietario de la empresa tenga la responsabilidad de entender cómo bloquearlos.
Quiere que otras pequeñas empresas en línea sepan que la única forma de descubrir si un robot de inteligencia artificial está tomando propiedades protegidas por derechos de autor de un sitio web es mirar activamente. Ciertamente no es el único que se siente aterrorizado por ellos. Los propietarios de otros sitios web dijeron recientemente Información privilegiada sobre negocios cómo los robots de OpenAI bloquearon sus sitios y aumentaron sus facturas de AWS.
El problema creció en magnitud en 2024. Nueva investigación de la empresa de publicidad digital DoubleVerify descubrió que los rastreadores de IA y los scrapers provocaron un aumento del 86 % en el “tráfico general no válido” en 2024, es decir, el tráfico que no proviene de un usuario real.
Aún así, “la mayoría de los sitios no tienen ni idea de que fueron eliminados por estos robots”, advierte Tomchuk. “Ahora tenemos que monitorear diariamente la actividad de los registros para detectar estos robots”.
Si lo piensas bien, todo el modelo funciona un poco como una extorsión mafiosa: los robots de IA tomarán lo que quieran a menos que tengas protección.
“Deberían pedir permiso, no simplemente extraer datos”, dice Tomchuk.