lo esencial del nuevo modelo de Anthropic

0
2


Todo lo que debes saber sobre Claude 4 (Opus 4 y Sonnet 4): ventajas, precios, contexto de 200 k tokens, modo “extended thinking”, nueva seguridad ASL‑3 y sus límites.

Claude 4 de Anthropic llegó hace pocos días atrás con dos rostros muy definidos: Opus 4, pensado para quienes necesitan la máxima potencia, y Sonnet 4, destinado a un uso cotidiano más asequible. Anthropic presenta esta generación como un salto importante en razonamiento, codificación y capacidad para funcionar como agente autónomo durante horas, todo ello sin exigir al usuario conocimientos técnicos profundos.

Anthropic Claude 4

Aquí tienes todo lo que necesitas saber sobre este nuevo modelo de Inteligencia Artificial de Anthropic:

1. ¿Qué es Claude 4?

Claude 4 es la cuarta generación de modelos de lenguaje de Anthropic. Como ya les comenté antes, llega en dos versiones —Opus 4 y Sonnet 4— orientadas respectivamente al máximo rendimiento y a un equilibrio entre potencia y coste.

Ambas sustituyen a la familia Claude 3 y, según Anthropic, suponen un salto en razonamiento, codificación y tareas “agentic” (ejecución de acciones complejas y prolongadas en el tiempo).

2. Dos variantes, dos perfiles

Opus 4 se sitúa en la cúspide de la oferta de Anthropic. En la API cuesta 15 dólares por millón de tokens de entrada y 75 dólares por millón de tokens de salida, un precio elevado que subraya su enfoque premium. A cambio, ofrece el mejor desempeño en la prueba SWE‑bench (72,5 %), incorpora una memoria de archivos que le permite sostener sesiones de varias horas y está pensado para trabajos de gran complejidad. El principal sacrificio es doble: es más lento y sensiblemente más caro que la mayoría de alternativas, y solo puede usarse desde los planes de pago.

Sonnet 4, en cambio, busca el equilibrio entre rapidez y presupuesto. Su tarifa baja a 3 dólares por millón de tokens entrantes y 15 dólares por millón de tokens salientes, lo que lo hace asequible e incluso accesible para usuarios gratuitos en claude.ai. Rinde un 72,7 % en SWE‑bench—muy cercano al modelo tope—y se perfila como la opción diaria para empresas pequeñas, creadores y estudiantes. Sin embargo, su techo de rendimiento es más bajo que el de Opus 4 y la salida se limita a 64 000 tokens, un punto a considerar en proyectos que requieran respuestas extremadamente largas.

3. Novedades técnicas más importantes

  • Contexto de 200 k tokens (≈150 000 palabras). Maneja documentos o historiales muy extensos sin perder coherencia.
  • Extended thinking con tool use (beta): el modelo puede pausar su generación, lanzar herramientas externas (por ejemplo, una búsqueda web o bash) y continuar razonando con los resultados. Soporta ejecución paralela de herramientas.
  • Memoria persistente bajo control del desarrollador: Opus 4 es capaz de crear “archivos de memoria” locales para guardar hechos que necesitará más adelante y mantener un hilo de trabajo durante horas.
  • Thinking summaries: para proteger la propiedad intelectual, el modelo muestra resúmenes de su cadena de pensamiento cuando es muy extensa, aunque los clientes Enterprise pueden solicitar el modo completo.
  • Claude Code general availability: extensiones para VS Code y JetBrains, SDK propio y conector GitHub para revisar PRs o corregir CI.

4. Rendimiento en benchmarks

Opus 4 supera a Google Gemini 2.5 Pro y GPT‑4.1 en SWE‑bench Verified (72,5 %) y Terminal‑bench (43,2 %), pero sigue por debajo de o3 en evaluaciones multimodales como MMMU y GPQA Diamond. Esto confirma que lidera en código, no en todos los dominios.

5. Seguridad: debut de ASL‑3

Para Opus 4, Anthropic activó el nivel de seguridad AI Safety Level 3, diseñado para mitigar riesgos de proliferación CBRN (química, biológica, radiológica y nuclear) y endurecer la protección de pesos del modelo.

Son medidas preventivas: la empresa aún evalúa si Opus 4 rebasa el umbral de capacidades que haría obligatorio ASL‑3.

6. Disponibilidad y planes

  • Claude.ai: Sonnet 4 está abierto (menor límite diario) y Opus 4 requiere plan Pro, Max, Team o Enterprise.
  • API / Bedrock / Vertex AI: ambos modelos disponibles desde el 22 de mayo de 2025.

7. Críticas y puntos a vigilar

Opus 4 sigue siendo caro; en usos masivos quizá convenga un modelo open‑source o un rival más barato.  El modo “extended thinking” aporta calidad, pero puede retrasar la respuesta varios segundos o minutos, algo delicado en chats en tiempo real.

Además, Anthropic no libera los pesos ni sus datos de entrenamiento, lo que complica auditorías externas completas y si bien las alucinaciones se reducen, no desaparecen, así que cualquier dato crítico debe verificarse.

Por último Claude 4 solo admite imágenes como entrada; no genera audio, vídeo ni gráficos, un límite frente a competidores multimodales.

8. ¿Para quién es cada modelo?

  • Opus 4 → empresas que necesitan agentes autónomos de larga duración, refactorizaciones de código masivo o I+D con alta complejidad y cuentan con presupuesto.
  • Sonnet 4 → start‑ups, medios y equipos de producto que buscan saltar de modelos Sonnet 3.x sin reescribir prompts, equilibrando coste y calidad en tareas cotidianas.
  • Usuarios individuales → Sonnet 4 gratuito ofrece el sabor base de la nueva generación; ideal para probar el contexto 200 k y razonamiento extendido con límites diarios.

En conclusión, Claude 4 se centra en profundizar (tareas largas, memoria, herramientas) más que en impresionar con contextos gigantes o pruebas sintéticas. Opus 4 lidera en código y proyectos de varias horas; Sonnet 4 traslada gran parte del salto al plan gratuito.

Las mejoras de seguridad y el enfoque en actualizaciones frecuentes muestran una Anthropic que intenta madurar rápido sin aumentar precios.

En 2025, la elección entre Claude, o3/GPT‑4.1 y Gemini 2.5 dependerá de presupuesto, latencia aceptable y casos de uso concretos, más que de quién sume un punto extra en el próximo benchmark.

Siguenos por Twitter a través de @Geeksroom y no te pierdas todas las noticias, cursos gratuitos y demás artículos. También puedes seguirnos a través de nuestro canal de Youtube para ver nuestros vídeos, a través de Instagram para ver nuestras imágenes! O vía Bluesky si ya estás cansado de Twitter





Enlace de la Fuente