Optimización de Costos de Claude Code: Precios, Caching y Gestión de Tokens
Hablemos de dinero. Claude Code puede volverse caro rápido — o costar menos que tu café diario. La diferencia está en un puñado de decisiones que tomas una vez y unos pocos hábitos que construyes con el tiempo.
El top 10% de los setups en nuestro análisis (puntuación 8+/10) gastan unos 8$/día en Claude Code. Sus ganancias de productividad superan con creces el costo, pero llegan ahí entendiendo a dónde van los tokens y cómo desperdiciar menos.
Esto es lo que ellos saben y tú probablemente no.
Las dos opciones de precios (y cómo elegir)
Claude Code ofrece dos modelos de facturación. Elegir el equivocado es el error de costos más común que vemos.
Plan Max: tarifa mensual fija
- Max 5x (100$/mes) — aproximadamente 2-3 horas de sesiones activas al día
- Max 20x (200$/mes) — diseñado para quienes programan con Claude la mayor parte del día
Si usas Claude Code cada día laboral 2+ horas, el plan Max te ahorra dinero frente al pago por token. Además, las facturas son predecibles — nada de "¿qué pasó el mes pasado?".
Precios API: paga lo que uses
| Modelo | Tokens de entrada | Tokens de salida |
|---|---|---|
| Sonnet 4 | 3$ / 1M tokens | 15$ / 1M tokens |
| Opus 4 | 15$ / 1M tokens | 75$ / 1M tokens |
| Input cacheado (cache hit) | 90% descuento | Mismo precio de salida |
Una sesión típica genera 50,000-200,000 tokens por hora. Con tarifas Sonnet:
- Sesión ligera (preguntas rápidas, ediciones pequeñas): ~0.30$/hora
- Sesión media (trabajo en features, cambios multi-archivo): ~0.90$/hora
- Sesión intensa (refactorizaciones grandes, mucha lectura de archivos): ~2.25$/hora
Con Opus, multiplica por 5. Una sesión Opus intensa sale a unos 11.25$/hora. Por eso la elección de modelo importa tanto (más abajo).
Las cuentas del punto de equilibrio
A intensidad media con Sonnet (~0.90$/hora):
- Max 5x (100$/mes) alcanza equilibrio a ~111 horas/mes, unas ~5.5 horas/día laboral
- Max 20x (200$/mes) a ~222 horas/mes
Para la mayoría de usuarios diarios, Max 5x es el punto óptimo. Si usas Claude Code solo unas veces por semana, los precios API son más baratos.
A dónde van realmente tus tokens
No puedes optimizar lo que no entiendes. Así se distribuye una sesión típica:
| Qué | Porcentaje de tokens | Qué incluye |
|---|---|---|
| System prompt + CLAUDE.md | 5-15% | Se carga una vez, cacheado después del primer turno |
| Lectura de archivos | 30-50% | Cada archivo que Claude lee vía Grep, Read, Glob |
| Historial de conversación | 15-25% | Todos los mensajes previos de la sesión |
| Llamadas de herramientas (entrada + salida) | 10-20% | Comandos Bash, ediciones, llamadas MCP |
| Respuestas de Claude | 10-15% | El texto y código que Claude genera |
Dos cosas saltan a la vista: la lectura de archivos y el historial de conversación dominan. Ahí es donde la optimización tiene mayor impacto.
El truco /compact (reduce tu consumo de tokens drásticamente)
Un comando que la mayoría no conoce: /compact.
Cuando tu sesión se alarga — 15+ turnos, mucho ir y venir — el historial se infla. Cada mensaje nuevo incluye todo el historial anterior. Tus tokens se acumulan.
/compact resume la conversación en una representación más corta. Después de compactar:
- Los turnos siguientes cuestan menos (menos historial que enviar)
- Las respuestas llegan más rápido (menos para que Claude procese)
- Evitas alcanzar el límite de la ventana de contexto
Cuándo compactar
- Tu sesión lleva 15+ turnos
- Claude empieza a repetir cosas que ya te dijo
- Las respuestas se vuelven notablemente más lentas
- Estás cambiando a una tarea diferente en la misma sesión
Cuándo NO compactar
- Estás en medio de una operación multi-paso que requiere memoria precisa
- Claude necesita referir código específico de 2-3 turnos atrás
- Estás a punto de hacer commit — compacta DESPUÉS del commit, no antes
Compact vs nueva sesión
A veces empezar de cero es mejor que compactar:
| Compact | Nueva sesión | |
|---|---|---|
| Conserva | Resumen de la conversación | Nada |
| Pierde | Detalles, matices | Todo |
| Ideal para | Continuar misma tarea | Cambiar de tarea |
| Costo de tokens | Reducido 40-60% | Reiniciado a baseline |
Mi regla: ¿Cambias de tarea? Nueva sesión. ¿Misma tarea pero lleva rato? Compact. Y siempre haz commit antes de cualquiera de los dos — git preserva los detalles que la compactación pierde.
Opus vs Sonnet: la pregunta del 5x
Opus cuesta 5x más que Sonnet por token. ¿Vale la pena? A veces. Así decides.
Sonnet (por defecto) para la mayoría del trabajo
Sonnet maneja la gran mayoría de tareas de desarrollo bien:
- Escribir funciones y componentes
- Corregir bugs directos
- Ejecutar tests e interpretar resultados
- Explorar y buscar en archivos
- Refactorizar con instrucciones claras
- Revisar código
Eso cubre probablemente el 90% de lo que haces en un día.
Opus para lo difícil
Opus justifica su precio en situaciones específicas:
- Decisiones de arquitectura — diseñar sistemas con múltiples componentes que interactúan
- Diagnóstico de bugs sutiles — bugs que cruzan múltiples rutas de código y capas de abstracción
- Refactorizaciones grandes — cambios en muchos archivos que necesitan consistencia
- Resolución de problemas nuevos — tareas donde la respuesta no es un patrón estándar
El workflow híbrido
El enfoque que mejor funciona: Sonnet por defecto, Opus cuando necesitas potencia extra.
# Trabajo diario (Sonnet)
claude
# Problema difícil (Opus)
claude --model opus
# O cambiar durante la sesión
> /model opus
Algunos desarrolladores van más allá — Opus para planificar, Sonnet para ejecutar:
1. Empezar con Opus: "Planifica la arquitectura del sistema de notificaciones"
2. Revisar el plan, ajustarlo
3. Cambiar a Sonnet: "Implementa el plan que discutimos"
Pensamiento de calidad Opus en las decisiones difíciles, velocidad de ejecución Sonnet en la implementación. Lo mejor de ambos mundos.
Cuatro hábitos que mantienen los costos bajos
1. Sesiones enfocadas (el mayor ahorro individual)
En lugar de una sesión maratón que acumula contexto durante horas:
Sesión 1: "Agregar la migración de BD para notificaciones"
→ Completar, commit, cerrar
Sesión 2: "Implementar los endpoints API"
→ Completar, commit, cerrar
Sesión 3: "Construir la UI de notificación"
→ Completar, commit, cerrar
Cada sesión arranca limpia con caché totalmente eficiente. Sin contexto irrelevante de tareas previas pesando en cada turno.
2. Apunta a Claude a archivos específicos
Cada archivo que Claude lee cuesta tokens. Un archivo de 500 líneas son unos 500 tokens de entrada. Leer 50 archivos en una sesión de exploración suma 25,000 tokens — unos 0.08$ en Sonnet pero 0.38$ en Opus.
Ayuda a Claude a leer menos:
- "Mira las líneas 45-80 de src/api/route.ts" en vez de "lee el archivo route"
- Apunta a archivos específicos en lugar de dejar que Claude busque ampliamente
- Mantén tu documentación de arquitectura actualizada para que Claude no tenga que explorar
3. Mueve rules fuera de CLAUDE.md
Sutil pero se acumula. Cada línea de CLAUDE.md se carga en cada turno. Las rules en .claude/rules/ solo cuando sus patrones glob coinciden.
200 líneas de convenciones frontend, 150 de reglas backend y 100 de estándares de BD en CLAUDE.md? Claude carga las 450 líneas en cada turno — incluso cuando solo editas un archivo CSS.
Mueve instrucciones específicas de archivos a archivos de rules. Tu CLAUDE.md queda ligero (20-30 líneas de esenciales), y ahorras ~100 líneas de tokens en la mayoría de turnos.
4. Haz commit antes de compactar
Patrón de nuestros mejores setups. Siempre commit antes de /compact o cerrar sesión.
1. Terminar la unidad de trabajo actual
2. git add + git commit
3. /compact (o nueva sesión)
4. Continuar con la siguiente unidad
La compactación pierde detalles. Git los preserva. Si necesitas retomar una tarea después, el mensaje de commit y el diff son mucho más confiables que un resumen compactado.
Números de costos reales
Lo que cuestan diferentes perfiles de uso, basado en datos de setups analizados:
| Perfil | Modelo | Horas/día | Costo mensual | Cómo |
|---|---|---|---|---|
| Usuario ligero | Sonnet | 1-2 | 20-40$ (API) | Pago por token, sesiones enfocadas |
| Desarrollador diario | Sonnet | 3-5 | 100$ (Max 5x) | Plan Max, /compact regular |
| Power user | Sonnet + Opus | 4-6 | 200$ (Max 20x) | Plan Max, Opus solo para arquitectura |
| Equipo (5 devs) | Sonnet | 2-4 c/u | 500$ (5x Max 5x) | Planes Max individuales, CLAUDE.md compartido |
| Automatización CI/CD | Sonnet | N/A | 50-150$ (API) | Precios API, modo headless |
El promedio de 8$/día de los mejores setups sale a ~160-180$/mes — cerca del plan Max 20x. Son usuarios intensivos que trabajan con Claude Code como herramienta principal.
Monitorear tus gastos
En el plan Max
Anthropic ofrece dashboards de uso. Monitorea semanalmente. Si llegas al techo constantemente, necesitas un tier más alto. Si apenas usas la mitad, podrías bajar o cambiar a API.
En precios API
Configura alertas:
- Settings > Billing > Alerts en la consola de Anthropic
- Alerta diaria (ej. 15$/día)
- Presupuesto mensual tope
Para automatización CI/CD, limita los turnos:
claude -p "Revisa este PR" --max-turns 10 --output-format json
Lo que sigue
La optimización de costos no es algo de una vez. Las estrategias aquí — elección de modelo, sesiones enfocadas, /compact, rules en lugar de CLAUDE.md inflado — se acumulan con el tiempo. Un desarrollador que aplica todas gasta 40-60% menos que alguien usando Claude Code con las opciones por defecto.
Para las bases sobre las que estas estrategias se apoyan:
- Configurar tu proyecto correctamente — un buen CLAUDE.md reduce tokens desperdiciados en malentendidos
- Usar rules en lugar de inflar CLAUDE.md — rules con alcance por ruta ahorran tokens en cada turno
- Analiza tu setup para ver qué optimizaciones tendrían mayor impacto
Preguntas frecuentes
¿Vale la pena el plan Max si solo uso Claude Code 3-4 días por semana?
Depende de la intensidad. Si esos 3-4 días son de 4+ horas cada uno, Max 5x a 100$/mes probablemente es más barato que API. Si son 1-2 horas esos días, la API gana. Rastrea tu consumo un mes en API, multiplica por las tarifas y compara.
¿El prompt caching funciona automáticamente?
Sí. No necesitas configurar nada. La API reconoce cuando requests consecutivos comparten el mismo prefijo (system prompt, CLAUDE.md, rules cargadas) y cobra 90% menos por la porción cacheada. Puedes ayudar al caching manteniendo CLAUDE.md estable durante una sesión — cada edición invalida el caché y fuerza una relectura al precio completo.
¿Cuándo usar /compact vs iniciar nueva sesión?
Menos de 10 turnos y misma tarea: sigue. 15-20 turnos y misma tarea: compacta. Cambio de tarea: nueva sesión. Si Claude empieza a "olvidar" cosas de antes en la conversación, es una señal fuerte para compactar o reiniciar.
¿Puedo usar Sonnet para todo e ignorar Opus?
Muchos desarrolladores hacen exactamente eso. Sonnet maneja 90%+ de las tareas bien. Opus realmente supera solo en casos estrechos: razonamiento arquitectural profundo, refactorizaciones multi-archivo con necesidades sutiles de consistencia, y depuración compleja que cruza múltiples capas de abstracción. Si tu trabajo es principalmente desarrollo de features, corrección de bugs y revisiones, Sonnet solo es 5x más barato y generalmente suficiente.
¿Cómo gestionan los equipos los costos de Claude Code?
La mayoría usa planes Max individuales — uno por desarrollador. Para costos compartidos (CI/CD, revisiones automatizadas), una sola clave API con alertas de gasto. El tech lead monitorea gastos mensuales y ajusta la frecuencia de automatización si los costos suben. Un CLAUDE.md compartido bien optimizado también ayuda — reduce el desperdicio de tokens por exploración del proyecto por desarrollador.