Anthropic y OpenAI están adoptando enfoques muy diferentes para garantizar la seguridad de sus modelos de inteligencia artificial (IA). Mientras Anthropic utiliza campañas extensas de 200 intentos para probar la resistencia de sus modelos, OpenAI se enfoca en métricas de un solo intento y parcheo iterativo. Estas diferencias metodológicas muestran distintas prioridades en cómo abordan las amenazas de seguridad.
El enfoque de Anthropic con su modelo Opus 4.5 incluye el monitoreo de aproximadamente 10 millones de características neuronales durante la evaluación, lo que permite detectar patrones como engaño o búsqueda de poder. Por otro lado, OpenAI utiliza la monitorización por cadena de pensamiento (CoT), asumiendo que el razonamiento visible refleja el procesamiento interno del modelo. Ambos métodos tienen fortalezas y limitaciones, pero revelan enfoques fundamentales distintos sobre cómo medir y mejorar la seguridad.
De acuerdo con el sitio web VentureBeat, estas diferencias son importantes porque afectan directamente a las empresas que utilizan estos modelos en sus operaciones diarias. Los equipos de seguridad necesitan entender qué mide cada evaluación y dónde están los puntos ciegos para tomar decisiones informadas sobre qué modelo implementar según sus necesidades específicas.
TE PUEDE INTERESAR: Xiaomi podría reducir la memoria RAM en sus teléfonos de 2026
Qué debes saber
- Anthropic utiliza campañas extensas de 200 intentos para evaluar la resistencia de sus modelos.
- OpenAI se enfoca en métricas de un solo intento y mejora iterativa mediante parcheo.
- El modelo Opus 4.5 de Anthropic muestra una mejora significativa en resistencia comparado con versiones anteriores.
- La monitorización de características neuronales de Anthropic detecta patrones internos que CoT no puede identificar.
- Las pruebas independientes muestran que ningún modelo actual resiste ataques persistentes y bien dotados de recursos.
Especificaciones técnicas
- Opus 4.5: Tasa de éxito de ataque (ASR) del 4.7% en un intento, 63% en 100 intentos.
- GPT-5: ASR inicial del 89%, reducido a menos del 1% tras parcheo.
- Defensa contra inyección: Opus 4.5 previene el 96% de ataques, subiendo al 99.4% con salvaguardas adicionales.
- Monitorización de características: Anthropic monitorea ~10M características neuronales; OpenAI utiliza CoT.
Contenido generado con IA y editado por el equipo editorial.
Foto: Copilot AI: