Volver al blog

Claude Mythos: cuando la IA deja de resolver tareas y empieza a descubrir vulnerabilidades reales

No es otro modelo más. Es una señal de que la IA ya está cruzando otra frontera

Martin Alegría
Martin AlegríaPrincipal Data Scientist and AI Specialist
April 14, 2026
Claude Mythos: cuando la IA deja de resolver tareas y empieza a descubrir vulnerabilidades reales

Anthropic Mythos: no es “otro modelo más”. Es una señal de que la frontera ya cambió.

Leí el material oficial de Anthropic sobre Claude Mythos Preview —incluyendo Project Glasswing, la nota técnica del equipo de red teaming y la system card enlazada por Anthropic— y mi lectura, desde ciencia de datos, es esta:

Mythos importa menos por el benchmark aislado y más por el cambio de distribución que revela.
El modelo no solo mejora “un poco” en coding. Parece cruzar un umbral donde capacidad generalista + autonomía + tooling empieza a traducirse en descubrimiento y explotación real de vulnerabilidades. (Anthropic)

Y eso cambia la conversaci├│n.


La tesis corta

Cuando un laboratorio decide no liberar ampliamente su modelo más capaz y, en cambio, lo restringe a un programa defensivo con empresas como AWS, Google, Microsoft, Cisco, CrowdStrike, Apple, NVIDIA y JPMorganChase, no estamos ante una simple jugada de marketing. Estamos ante una señal de gobernanza: el riesgo marginal del modelo ya no se parece al de la generación anterior. (Anthropic)

Anthropic lo dice de forma bastante directa: no planea hacer Mythos Preview generalmente disponible por ahora, y lo está usando dentro de Project Glasswing para asegurar software crítico mientras desarrolla salvaguardas para futuros modelos “Mythos-class”. (Anthropic)


Lo más importante no es el nombre “Mythos”. Es el patrón de datos.

Si uno mira esto con ojos de data scientist, hay tres capas de se├▒al.

1) La se├▒al de benchmark

En los resultados publicados por Anthropic, Mythos mejora con fuerza sobre Opus 4.6 en tareas agentic y de coding:

  • CyberGym: 83.1% vs 66.6%

  • SWE-bench Pro: 77.8% vs 53.4%

  • Terminal-Bench 2.0: 82.0% vs 65.4%

  • SWE-bench Multimodal: 59.0% vs 27.1%

  • SWE-bench Verified: 93.9% vs 80.8%

  • GPQA Diamond: 94.6% vs 91.3%

  • HumanityΓÇÖs Last Exam: 56.8% sin herramientas y 64.7% con herramientas, frente a 40.0% y 53.1% para Opus 4.6. (Anthropic)

Eso ya es fuerte.
Pero, sinceramente, no es lo más importante.

2) La se├▒al de comportamiento real

Lo que me parece verdaderamente serio es que Anthropic no se queda en ΓÇ£resuelve benchmarksΓÇ¥. Reporta que Mythos Preview identific├│ miles de vulnerabilidades high-severity, incluidas en todos los sistemas operativos principales y todos los navegadores principales, y que en varios casos pudo desarrollar exploits de forma aut├│noma o casi aut├│noma. (Anthropic)

Algunos ejemplos oficiales:

  • una vulnerabilidad de 27 a├▒os en OpenBSD;

  • una vulnerabilidad de 16 a├▒os en FFmpeg en una l├¡nea golpeada millones de veces por tests automatizados sin detectar el fallo;

  • varias cadenas de explotaci├│n en Linux kernel para escalar privilegios;

  • una RCE en FreeBSD que, seg├║n Anthropic, Mythos identific├│ y explot├│ de manera completamente aut├│noma tras el prompt inicial. (Anthropic)

Como científico de datos, aquí la diferencia metodológica es clave:

benchmark score no es igual a impacto operativo
pero en Mythos ya empezamos a ver benchmark → capacidad agentic → resultado ofensivo/defensivo verificable. (Red Anthropic)

3) La se├▒al de validaci├│n humana

Hay un dato que me parece especialmente importante porque reduce la sospecha de ΓÇ£hallazgos inflados por el propio laboratorioΓÇ¥.

Anthropic afirma que, entre 198 reportes de vulnerabilidad revisados manualmente, sus validadores expertos coincidieron exactamente con la severidad asignada por Claude en 89% de los casos, y en 98% quedaron dentro de un nivel de severidad. (Red Anthropic)

Eso no prueba perfecci├│n.
Pero sí sugiere que la señal del modelo no es puro ruido.


Mi lectura desde ciencia de datos: esto parece un cambio de régimen, no solo una mejora lineal

Hay una idea que me parece central.

Anthropic dice que no entrenó explícitamente Mythos para estas capacidades ofensivas; más bien, emergieron como consecuencia de mejoras generales en code, reasoning y autonomy. (Red Anthropic)

Eso importa muchísimo.

Porque si la capacidad cyber emerge como subproducto de mejorar razonamiento, coding agentic y uso de herramientas, entonces el fenómeno no está acotado a “un modelo especializado en seguridad”. Lo que estamos viendo podría ser algo más estructural:

mejor reasoning
+ mejor coding
+ más autonomía
+ mejor uso de herramientas
= mayor capacidad para encontrar, validar y encadenar fallos complejos

Desde modelado, esto se parece menos a una curva suave y más a una transición de fase: el sistema cruza cierto umbral y de repente empieza a resolver una clase de problemas que antes quedaba mayormente fuera de alcance.

Ese es el punto que, en mi opini├│n, hace a Mythos realmente interesante.


Lo que más me llamó la atención: la asimetría entre defensa y ataque

Anthropic enmarca Mythos dentro de una narrativa defensiva, y tiene sentido: por eso creó Project Glasswing, comprometió hasta $100M en créditos de uso y amplió acceso a más de 40 organizaciones adicionales que mantienen infraestructura crítica y software open source. (Anthropic)

Pero el propio material oficial deja ver la tensi├│n:

  • el mismo sistema que ayuda a encontrar y corregir fallos tambi├⌐n puede encontrarlos y explotarlos;

  • la misma mejora que da ventaja al defensor tambi├⌐n reduce el costo del atacante;

  • Anthropic reconoce que el progreso de estos modelos puede hacer los ciberataques m├ís frecuentes y m├ís destructivos si las capacidades proliferan sin salvaguardas. (Anthropic)

Mi lectura aquí es simple:

Mythos no es solo una historia de producto. Es una historia de dual use en estado puro.

Y eso obliga a salir del análisis simplista de “¿es mejor que Opus?” para pasar a otra pregunta:

¿qué tareas de ciberseguridad ya cruzaron el punto en que la automatización útil para defender también es automatización peligrosa para atacar?


Dónde veo la señal más fuerte como data scientist

No la veo en una cifra aislada.
La veo en la combinaci├│n de cuatro hechos:

  1. salto consistente en benchmarks agentic/coding, no solo en uno; (Anthropic)

  2. evidencia de hallazgos reales en sistemas y browsers ampliamente usados; (Anthropic)

  3. evidencia de autonomía creciente, incluyendo generación de exploits sin steering humano fino; (Anthropic)

  4. decisión de despliegue restringido, que es en sí misma una señal institucional de riesgo percibido. (Anthropic)

Cuando juntas esas cuatro cosas, deja de parecer una release más.
Empieza a parecer una señal temprana de que la frontera de modelos generalistas ya está entrando en un territorio donde la capacidad bruta tiene consecuencias de seguridad muy concretas.


Mi crítica: dónde hay que leer esto con cabeza fría

También hay que evitar el hype.

Hay cosas que todavía no sabemos bien:

  • cu├ínto de este rendimiento generaliza fuera de los scaffolds y entornos usados por Anthropic;

  • qu├⌐ proporci├│n de los ΓÇ£milesΓÇ¥ de hallazgos acabar├í siendo realmente explotable en condiciones de campo;

  • cu├ínto tarda la industria en convertir esta ventaja defensiva en pipelines reales y no solo demos impresionantes;

  • y, sobre todo, si las salvaguardas futuras van a escalar al ritmo de la capacidad. (Red Anthropic)

O sea: sí, la señal es fuerte.
Pero todavía no estamos viendo el equilibrio final entre capacidad, control y despliegue.


Mi conclusi├│n personal

Después de revisar el material oficial, mi impresión es esta:

Claude Mythos Preview no me parece importante porque ΓÇ£gane benchmarksΓÇ¥.
Me parece importante porque muestra que ya entramos en una etapa donde un modelo generalista puede convertir mejoras de reasoning y coding en capacidades cyber ofensivas y defensivas con relevancia operativa real. (Red Anthropic)

Y desde el punto de vista de ciencia de datos, esa es exactamente la clase de cambio que más importa:
no el que produce el titular más ruidoso, sino el que cambia la naturaleza de la variable que estamos midiendo.

Antes medíamos “qué tan bien programa”.
Ahora empezamos a medir “qué tan cerca está de encontrar y encadenar fallos críticos en el mundo real”.

Ese cambio de métrica, para mí, es el verdadero post.


Fuentes oficiales que revisé

  • Anthropic ΓÇö Project Glasswing (Anthropic)

  • Anthropic Frontier Red Team ΓÇö Assessing Claude Mythos PreviewΓÇÖs cybersecurity capabilities (Red Anthropic)

  • Anthropic ΓÇö Model System Cards (donde Anthropic enlaza la system card de Mythos Preview) (Anthropic)

#Anthropic #ClaudeMythos #Cybersecurity #AI #DataScience #LLM #AIResearch #ModelEvaluation #AIForSecurity #ProjectGlasswing

"He aquí, yo estoy a la puerta y llamo; si alguno oye mi voz y abre la puerta, entraré a él, y cenaré con él, y él conmigo. [Apo. 3:20]"

© 2026 Martin AlegríaResume Version 3.5.0