Costes y Rendimiento

Optimización de Costos de Claude Code: Precios, Caching y Gestión de Tokens

Charles Krzentowski24 de marzo de 20268 min read

Resumir este artículo con

Hablemos de dinero. Claude Code puede volverse caro rápido — o costar menos que tu café diario. La diferencia está en un puñado de decisiones que tomas una vez y unos pocos hábitos que construyes con el tiempo.

El top 10% de los setups en nuestro análisis (puntuación 8+/10) gastan unos 8$/día en Claude Code. Sus ganancias de productividad superan con creces el costo, pero llegan ahí entendiendo a dónde van los tokens y cómo desperdiciar menos.

Esto es lo que ellos saben y tú probablemente no.

Las dos opciones de precios (y cómo elegir)

Claude Code ofrece dos modelos de facturación. Elegir el equivocado es el error de costos más común que vemos.

Plan Max: tarifa mensual fija

Max 5x (100$/mes) — aproximadamente 2-3 horas de sesiones activas al día
Max 20x (200$/mes) — diseñado para quienes programan con Claude la mayor parte del día

Si usas Claude Code cada día laboral 2+ horas, el plan Max te ahorra dinero frente al pago por token. Además, las facturas son predecibles — nada de "¿qué pasó el mes pasado?".

Precios API: paga lo que uses

Modelo	Tokens de entrada	Tokens de salida
Sonnet 4	3$ / 1M tokens	15$ / 1M tokens
Opus 4	15$ / 1M tokens	75$ / 1M tokens
Input cacheado (cache hit)	90% descuento	Mismo precio de salida

Una sesión típica genera 50,000-200,000 tokens por hora. Con tarifas Sonnet:

Sesión ligera (preguntas rápidas, ediciones pequeñas): ~0.30$/hora
Sesión media (trabajo en features, cambios multi-archivo): ~0.90$/hora
Sesión intensa (refactorizaciones grandes, mucha lectura de archivos): ~2.25$/hora

Con Opus, multiplica por 5. Una sesión Opus intensa sale a unos 11.25$/hora. Por eso la elección de modelo importa tanto (más abajo).

Las cuentas del punto de equilibrio

A intensidad media con Sonnet (~0.90$/hora):

Max 5x (100$/mes) alcanza equilibrio a ~111 horas/mes, unas ~5.5 horas/día laboral
Max 20x (200$/mes) a ~222 horas/mes

Para la mayoría de usuarios diarios, Max 5x es el punto óptimo. Si usas Claude Code solo unas veces por semana, los precios API son más baratos.

A dónde van realmente tus tokens

No puedes optimizar lo que no entiendes. Así se distribuye una sesión típica:

Qué	Porcentaje de tokens	Qué incluye
System prompt + CLAUDE.md	5-15%	Se carga una vez, cacheado después del primer turno
Lectura de archivos	30-50%	Cada archivo que Claude lee vía Grep, Read, Glob
Historial de conversación	15-25%	Todos los mensajes previos de la sesión
Llamadas de herramientas (entrada + salida)	10-20%	Comandos Bash, ediciones, llamadas MCP
Respuestas de Claude	10-15%	El texto y código que Claude genera

Dos cosas saltan a la vista: la lectura de archivos y el historial de conversación dominan. Ahí es donde la optimización tiene mayor impacto.

El truco /compact (reduce tu consumo de tokens drásticamente)

Un comando que la mayoría no conoce: /compact.

Cuando tu sesión se alarga — 15+ turnos, mucho ir y venir — el historial se infla. Cada mensaje nuevo incluye todo el historial anterior. Tus tokens se acumulan.

/compact resume la conversación en una representación más corta. Después de compactar:

Los turnos siguientes cuestan menos (menos historial que enviar)
Las respuestas llegan más rápido (menos para que Claude procese)
Evitas alcanzar el límite de la ventana de contexto

Cuándo compactar

Tu sesión lleva 15+ turnos
Claude empieza a repetir cosas que ya te dijo
Las respuestas se vuelven notablemente más lentas
Estás cambiando a una tarea diferente en la misma sesión

Cuándo NO compactar

Estás en medio de una operación multi-paso que requiere memoria precisa
Claude necesita referir código específico de 2-3 turnos atrás
Estás a punto de hacer commit — compacta DESPUÉS del commit, no antes

Compact vs nueva sesión

A veces empezar de cero es mejor que compactar:

	Compact	Nueva sesión
Conserva	Resumen de la conversación	Nada
Pierde	Detalles, matices	Todo
Ideal para	Continuar misma tarea	Cambiar de tarea
Costo de tokens	Reducido 40-60%	Reiniciado a baseline

Mi regla: ¿Cambias de tarea? Nueva sesión. ¿Misma tarea pero lleva rato? Compact. Y siempre haz commit antes de cualquiera de los dos — git preserva los detalles que la compactación pierde.

Opus vs Sonnet: la pregunta del 5x

Opus cuesta 5x más que Sonnet por token. ¿Vale la pena? A veces. Así decides.

Sonnet (por defecto) para la mayoría del trabajo

Sonnet maneja la gran mayoría de tareas de desarrollo bien:

Escribir funciones y componentes
Corregir bugs directos
Ejecutar tests e interpretar resultados
Explorar y buscar en archivos
Refactorizar con instrucciones claras
Revisar código

Eso cubre probablemente el 90% de lo que haces en un día.

Opus para lo difícil

Opus justifica su precio en situaciones específicas:

Decisiones de arquitectura — diseñar sistemas con múltiples componentes que interactúan
Diagnóstico de bugs sutiles — bugs que cruzan múltiples rutas de código y capas de abstracción
Refactorizaciones grandes — cambios en muchos archivos que necesitan consistencia
Resolución de problemas nuevos — tareas donde la respuesta no es un patrón estándar

El workflow híbrido

El enfoque que mejor funciona: Sonnet por defecto, Opus cuando necesitas potencia extra.

# Trabajo diario (Sonnet)
claude

# Problema difícil (Opus)
claude --model opus

# O cambiar durante la sesión
> /model opus

Algunos desarrolladores van más allá — Opus para planificar, Sonnet para ejecutar:

1. Empezar con Opus: "Planifica la arquitectura del sistema de notificaciones"
2. Revisar el plan, ajustarlo
3. Cambiar a Sonnet: "Implementa el plan que discutimos"

Pensamiento de calidad Opus en las decisiones difíciles, velocidad de ejecución Sonnet en la implementación. Lo mejor de ambos mundos.

Cuatro hábitos que mantienen los costos bajos

1. Sesiones enfocadas (el mayor ahorro individual)

En lugar de una sesión maratón que acumula contexto durante horas:

Sesión 1: "Agregar la migración de BD para notificaciones"
  → Completar, commit, cerrar

Sesión 2: "Implementar los endpoints API"
  → Completar, commit, cerrar

Sesión 3: "Construir la UI de notificación"
  → Completar, commit, cerrar

Cada sesión arranca limpia con caché totalmente eficiente. Sin contexto irrelevante de tareas previas pesando en cada turno.

2. Apunta a Claude a archivos específicos

Cada archivo que Claude lee cuesta tokens. Un archivo de 500 líneas son unos 500 tokens de entrada. Leer 50 archivos en una sesión de exploración suma 25,000 tokens — unos 0.08$ en Sonnet pero 0.38$ en Opus.

Ayuda a Claude a leer menos:

"Mira las líneas 45-80 de src/api/route.ts" en vez de "lee el archivo route"
Apunta a archivos específicos en lugar de dejar que Claude busque ampliamente
Mantén tu documentación de arquitectura actualizada para que Claude no tenga que explorar

3. Mueve rules fuera de CLAUDE.md

Sutil pero se acumula. Cada línea de CLAUDE.md se carga en cada turno. Las rules en .claude/rules/ solo cuando sus patrones glob coinciden.

200 líneas de convenciones frontend, 150 de reglas backend y 100 de estándares de BD en CLAUDE.md? Claude carga las 450 líneas en cada turno — incluso cuando solo editas un archivo CSS.

Mueve instrucciones específicas de archivos a archivos de rules. Tu CLAUDE.md queda ligero (20-30 líneas de esenciales), y ahorras ~100 líneas de tokens en la mayoría de turnos.

4. Haz commit antes de compactar

Patrón de nuestros mejores setups. Siempre commit antes de /compact o cerrar sesión.

1. Terminar la unidad de trabajo actual
2. git add + git commit
3. /compact (o nueva sesión)
4. Continuar con la siguiente unidad

La compactación pierde detalles. Git los preserva. Si necesitas retomar una tarea después, el mensaje de commit y el diff son mucho más confiables que un resumen compactado.

Números de costos reales

Lo que cuestan diferentes perfiles de uso, basado en datos de setups analizados:

Perfil	Modelo	Horas/día	Costo mensual	Cómo
Usuario ligero	Sonnet	1-2	20-40$ (API)	Pago por token, sesiones enfocadas
Desarrollador diario	Sonnet	3-5	100$ (Max 5x)	Plan Max, /compact regular
Power user	Sonnet + Opus	4-6	200$ (Max 20x)	Plan Max, Opus solo para arquitectura
Equipo (5 devs)	Sonnet	2-4 c/u	500$ (5x Max 5x)	Planes Max individuales, CLAUDE.md compartido
Automatización CI/CD	Sonnet	N/A	50-150$ (API)	Precios API, modo headless

El promedio de 8$/día de los mejores setups sale a ~160-180$/mes — cerca del plan Max 20x. Son usuarios intensivos que trabajan con Claude Code como herramienta principal.

Monitorear tus gastos

En el plan Max

Anthropic ofrece dashboards de uso. Monitorea semanalmente. Si llegas al techo constantemente, necesitas un tier más alto. Si apenas usas la mitad, podrías bajar o cambiar a API.

En precios API

Configura alertas:

Settings > Billing > Alerts en la consola de Anthropic
Alerta diaria (ej. 15$/día)
Presupuesto mensual tope

Para automatización CI/CD, limita los turnos:

claude -p "Revisa este PR" --max-turns 10 --output-format json

Lo que sigue

La optimización de costos no es algo de una vez. Las estrategias aquí — elección de modelo, sesiones enfocadas, /compact, rules en lugar de CLAUDE.md inflado — se acumulan con el tiempo. Un desarrollador que aplica todas gasta 40-60% menos que alguien usando Claude Code con las opciones por defecto.

Para las bases sobre las que estas estrategias se apoyan:

Configurar tu proyecto correctamente — un buen CLAUDE.md reduce tokens desperdiciados en malentendidos
Usar rules en lugar de inflar CLAUDE.md — rules con alcance por ruta ahorran tokens en cada turno
Analiza tu setup para ver qué optimizaciones tendrían mayor impacto

Preguntas frecuentes

¿Vale la pena el plan Max si solo uso Claude Code 3-4 días por semana?

Depende de la intensidad. Si esos 3-4 días son de 4+ horas cada uno, Max 5x a 100$/mes probablemente es más barato que API. Si son 1-2 horas esos días, la API gana. Rastrea tu consumo un mes en API, multiplica por las tarifas y compara.

¿El prompt caching funciona automáticamente?

Sí. No necesitas configurar nada. La API reconoce cuando requests consecutivos comparten el mismo prefijo (system prompt, CLAUDE.md, rules cargadas) y cobra 90% menos por la porción cacheada. Puedes ayudar al caching manteniendo CLAUDE.md estable durante una sesión — cada edición invalida el caché y fuerza una relectura al precio completo.

¿Cuándo usar /compact vs iniciar nueva sesión?

Menos de 10 turnos y misma tarea: sigue. 15-20 turnos y misma tarea: compacta. Cambio de tarea: nueva sesión. Si Claude empieza a "olvidar" cosas de antes en la conversación, es una señal fuerte para compactar o reiniciar.

¿Puedo usar Sonnet para todo e ignorar Opus?

Muchos desarrolladores hacen exactamente eso. Sonnet maneja 90%+ de las tareas bien. Opus realmente supera solo en casos estrechos: razonamiento arquitectural profundo, refactorizaciones multi-archivo con necesidades sutiles de consistencia, y depuración compleja que cruza múltiples capas de abstracción. Si tu trabajo es principalmente desarrollo de features, corrección de bugs y revisiones, Sonnet solo es 5x más barato y generalmente suficiente.

¿Cómo gestionan los equipos los costos de Claude Code?

La mayoría usa planes Max individuales — uno por desarrollador. Para costos compartidos (CI/CD, revisiones automatizadas), una sola clave API con alertas de gasto. El tech lead monitorea gastos mensuales y ajusta la frecuencia de automatización si los costos suben. Un CLAUDE.md compartido bien optimizado también ayuda — reduce el desperdicio de tokens por exploración del proyecto por desarrollador.

FAQ