Anthropic Developing Constitutional Classifiers to Safeguard AI Models From Jailbreak Attempts

Antrópico Desarrollo de clasificadores constitucionales para salvaguardar los modelos de IA de los intentos de jailbreak

Antrópico anunció el desarrollo de un nuevo sistema el lunes que puede proteger los modelos de inteligencia artificial (IA) de los intentos de jailbreaking. Clasificadores constitucionales denominados, es una técnica de protección que puede detectar cuando se realiza un intento de jailbreak en el nivel de entrada y evita que la IA genere una respuesta dañina como resultado de la misma. La firma de IA ha probado la robustez del sistema a través de jailbreakers independientes y también ha abierto una demostración temporal en vivo del sistema para permitir que cualquier individuo interesado pruebe sus capacidades.

Antrópico presenta clasificadores constitucionales

La jailbreak en IA generativa se refiere a técnicas de escritura rápidas inusuales que pueden obligar a un modelo de IA a no adherirse a sus pautas de entrenamiento y generar contenido dañino e inapropiado. Jailbreaking no es algo nuevo, y la mayoría de los desarrolladores de IA implementan varias salvaguardas contra él dentro del modelo. Sin embargo, dado que los ingenieros rápidos siguen creando nuevas técnicas, es difícil construir un modelo de lenguaje grande (LLM) que esté completamente protegido de tales ataques.

Algunas técnicas de jailbreak incluyen indicaciones extremadamente largas y enrevesadas que confunden las capacidades de razonamiento de la IA. Otros usan múltiples indicaciones para desglosar las salvaguardas, y algunos incluso usan una capitalización inusual para romper las defensas de IA.

En correo Detallando la investigación, Anthrope anunció que está desarrollando clasificadores constitucionales como una capa protectora para los modelos de IA. Hay dos clasificadores, entrada y salida, que se proporcionan con una lista de principios a los que debe adherirse el modelo. Esta lista de principios se llama constitución. En particular, la firma de IA ya usa constituciones para alinear los modelos Claude.

Cómo funcionan los clasificadores constitucionales
Crédito de la foto: antrópico

Ahora, con clasificadores constitucionales, estos principios definen las clases de contenido que están permitidas y no permitidas. Esta constitución se utiliza para generar una gran cantidad de indicaciones y finalizaciones de modelos de Claude en diferentes clases de contenido. Los datos sintéticos generados también se traducen en diferentes idiomas y se transforman en estilos conocidos de jailbreaking. De esta manera, se crea un gran conjunto de datos de contenido que se puede usar para entrar en un modelo.

Estos datos sintéticos se usan para entrenar los clasificadores de entrada y salida. Anthrope realizó un programa de recompensa de errores, invitando a 183 jailbreakers independientes a intentar pasar por alto los clasificadores constitucionales. Una explicación en profundidad de cómo funciona el sistema se detalla en una investigación papel Publicado en Arxiv. La compañía afirmó que no se descubrió un jailbreak universal (un estilo rápido que funciona en diferentes clases de contenido).

Además, durante una prueba de evaluación automatizada, donde la empresa de IA alcanzó a Claude usando 10,000 indicaciones de jailbreaking, se descubrió que la tasa de éxito era del 4.4 por ciento, en lugar del 86 por ciento para un modelo de IA sin guardia. Anthrope también pudo minimizar las negativas excesivas (rechazo de consultas inofensivas) y requisitos adicionales de potencia de procesamiento de clasificadores constitucionales.

Sin embargo, hay ciertas limitaciones. Anthrope reconoció que los clasificadores constitucionales podrían no ser capaces de prevenir cada jailbreak universal. También podría ser menos resistente a las nuevas técnicas de jailbreaking diseñadas específicamente para superar el sistema. Aquellos interesados ​​en probar la robustez del sistema pueden encontrar la versión de demostración en vivo aquí. Permanecerá activo hasta el 10 de febrero.

Para lo último noticias tecnológicas y reseñasSigue los gadgets 360 en incógnita, Facebook, Whatsapp, Trapos y Google News. Para obtener los últimos videos sobre gadgets y tecnología, suscríbase a nuestro Canal de youtube. Si quieres saber todo sobre las principales personas influyentes, sigue a nuestra interna Quien es that360 en Instagram y YouTube.


WhatsApp para Android comienza la capacidad de prueba para abrir la vista una vez que los medios en dispositivos vinculados



fuente