Anthropic dio a conocer Claude Sonnet 5, su nueva inteligencia artificial enfocada en tareas agénticas, diseñada para mejorar la planificación, el uso de navegadores y la ejecución autónoma. Este modelo se presenta como una evolución respecto a Sonnet 4.6 y una opción más asequible en comparación con Opus 4.8.
Mejoras en comparación con versiones anteriores
Claude Sonnet 5 muestra avances significativos sobre Sonnet 4.6 en diversas evaluaciones. Supera a su predecesor en codificación, razonamiento multidisciplinario, uso de computador y trabajo de conocimiento. Sin embargo, aunque se acerca a Opus 4.8 en evaluaciones como Terminal-Bench 2.1 y OSWorld-Verified, todavía queda rezagado en SWE-bench Pro y en Humanity’s Last Exam sin herramientas.
En la evaluación GDPval-AA v2, Sonnet 5 logró 1618 puntos, ligeramente por encima de los 1615 de Opus 4.8. Este resultado se refiere a un trabajo de conocimiento específico, pero no modifica la comparación general, donde Opus 4.8 sigue siendo la referencia de mayor capacidad.
Análisis de costo y rendimiento
Anthropic analizó el rendimiento de Sonnet 5, Sonnet 4.6 y Opus 4.8 en tareas de búsqueda autónoma en internet. Las comparaciones se realizaron bajo distintos niveles de esfuerzo, usando el precio estándar futuro de Sonnet 5: 3 dólares por millón de tokens de entrada y 15 dólares por millón de tokens de salida. Este precio no incluye las tarifas iniciales vigentes hasta el 31 de agosto.
El gráfico de rendimiento muestra cómo cada modelo busca información por su cuenta, completando tareas de investigación sin intervención humana. Se evaluó el porcentaje de tareas completadas correctamente en relación al costo por tarea.
Rendimiento en uso de computador
En la evaluación de BrowseComp, Sonnet 5 presenta una curva de costo y rendimiento más amplia que Sonnet 4.6, acercándose a Opus 4.8 en niveles altos. En OSWorld-Verified, Opus 4.8 mantiene la puntuación más alta, mientras que Sonnet 5 supera a Sonnet 4.6 en los tramos analizados.
Esta evaluación mide la capacidad de la IA para operar un computador por sí sola, incluyendo acciones como abrir programas y completar tareas. El gráfico indica el porcentaje de tareas realizadas correctamente y el costo por tarea.
Seguridad y comportamiento
Las evaluaciones previas al lanzamiento indican que Sonnet 5 presenta mejoras en comparación con Sonnet 4.6 en cuanto al rechazo de solicitudes maliciosas y resistencia a inyecciones de prompt. En la auditoría conductual automatizada, Sonnet 5 obtuvo 2.53 puntos, un rendimiento inferior al de Opus 4.8, que obtuvo 2.10 puntos, pero mejor que Sonnet 4.6, que alcanzó 2.89.
“Este gráfico mide la frecuencia con la que cada modelo muestra comportamiento desalineado, es decir, cuando realiza acciones inapropiadas o responde a solicitudes maliciosas”.
En el ámbito de la ciberseguridad, Anthropic aclara que Sonnet 5 no fue diseñado específicamente para estas tareas, aunque puede realizar acciones rutinarias no peligrosas. En una evaluación de desarrollo de exploits en Firefox, ambos modelos Sonnet mostraron 0.0% de exploits funcionales, mientras que Sonnet 5 obtuvo 13.2% de éxito parcial, frente al 8.8% de Sonnet 4.6.
Este análisis busca entender cómo cada modelo puede llegar a crear un exploit, es decir, un programa que aprovecha una vulnerabilidad para atacar un sistema, asegurando que los nuevos modelos no se conviertan en herramientas peligrosas.
Fuente: Pisapapeles

Discussion about this post