¿Qué sucedió? Anthropic, la compañía de inteligencia artificial responsable de los modelos de Claude que ahora promueve Copilot de Microsoft, ha revelado un descubrimiento sorprendente. El estudio, que se llevó a cabo en cooperación con el Instituto de Seguridad de IA británico, el Instituto Alan Turing y Anthropic, mostró cuán fácil es para los grandes modelos de lenguaje (LLM) contaminarse con datos maliciosos utilizados para su entrenamiento y abrir puertas traseras para toda clase de travesuras y ataques.
- El equipo llevó a cabo pruebas con modelos de diversas escalas, desde 600 millones hasta 13 mil millones de parámetros, con el fin de averiguar cómo los LLM pueden ser susceptibles a generar resultados erróneos si reciben datos incorrectos obtenidos de internet.
- Los atacantes no requieren manipular una fracción considerable de los datos de entrenamiento. Con solamente 250 archivos maliciosos se puede romper un modelo de IA y generar puertas traseras para algo tan trivial como producir respuestas ininteligibles.
- Es una clase de ataque del tipo «puerta trasera de denegación de servicio». Si el modelo detecta un token de activación, como , empieza a producir respuestas que carecen de sentido o que podrían ser engañosas.

Esto es relevante porque: Esta investigación desafía una de las creencias más relevantes de la IA, a saber, que los modelos más extensos son más seguros.
- Según la investigación de Anthropic, el tamaño del modelo no garantiza protección contra la contaminación de datos. En resumen, un modelo de 13 mil millones de parámetros era igual de susceptible que uno más pequeño.
- La cantidad de archivos contaminados, no la suma total de datos usados para entrenar el modelo, determina el éxito del ataque.
- Esto implica que una persona podría manipular de forma realista el comportamiento de un modelo sin tener que manejar conjuntos de datos enormes.
¿A qué se debe que deba interesarme? La amenaza de esta vulnerabilidad es real a medida que los modelos de IA, como Claude de Anthropic y ChatGPT de OpenAI, se incorporan a las aplicaciones diarias. La IA que lo asiste al escribir correos electrónicos, estudiar hojas de cálculo o generar diapositivas de presentación podría ser agredida con un mínimo de 250 ficheros maliciosos.
- La confianza se verá afectada si los modelos no funcionan bien a causa del envenenamiento de datos, y por lo tanto los usuarios empezarán a dudar de todos los resultados de la inteligencia artificial.
- Las compañías que utilizan la inteligencia artificial para actividades sensibles, como el resumen de datos o las predicciones financieras, están expuestas a la posibilidad de ser saboteadas.
- Los métodos de ataque se fortalecerán a la par que los modelos de IA. Es urgente la implementación de procedimientos robustos para detectar y capacitar que tengan la capacidad de reducir el envenenamiento de datos.
