Puede que hayas notado que muchos usuarios experimentados hablan de API, Token, Temperatura y otros términos que suenan técnicos y confusos. Este capítulo explica estos conceptos clave en un lenguaje sencillo. Entenderlos te ayudará a comprender realmente cómo funciona la IA y a usarla de manera más efectiva.
¿Qué es una API?
API en lenguaje sencillo
API = Interfaz de Programación de Aplicaciones
Esa definición suena técnica, así que vamos a plantearlo de otra forma.
Piensa en la IA como un restaurante:
- Versión web = Comes en el restaurante
- Bonita decoración (interfaz web)
- Camareros (botones, campos de entrada)
- Pides, el cocinero prepara, el camarero sirve
- API = Pides comida para llevar
- Sin decoración, hablas directamente con la cocina
- Sin camarero, hablas directamente con el chef
- Dices lo que quieres, el chef lo prepara y te lo entrega
Diferencia clave:
- Versión web: tiene interfaz, conveniente para humanos
- API: sin interfaz, conveniente para programas
¿Por qué usar una API?
Si la versión web es tan conveniente, ¿para qué molestarse con la API?
Razón 1: Automatización
Supón que necesitas que la IA procese 1.000 documentos y escriba 1.000 resúmenes:
- Versión web: Copias y pegas 1.000 veces y haces clic en enviar 1.000 veces
- API: Escribes un script que procesa todo automáticamente mientras tú te tomas un café
Razón 2: Integración en tus propias aplicaciones
Quieres construir un bot de respuestas automáticas, un generador de contenido o un agente de atención al cliente inteligente:
- Versión web: No es posible
- API: Puedes integrar la IA directamente en tus propios programas
Razón 3: Menor costo
- Suscripción web: ChatGPT Plus $20/mes, Claude Pro $20/mes
- API de pago por uso: Pagas solo por lo que usas; un uso ligero puede costar solo unos pocos dólares al mes
Razón 4: Más flexibilidad
- Ajustar parámetros de la IA (Temperatura, longitud máxima, etc.)
- Procesamiento por lotes
- Formatos de entrada/salida personalizados
¿Cómo se ve una llamada a la API?
Aquí tienes un ejemplo sencillo (no te preocupes si te resulta desconocido, lo veremos en detalle más adelante):
# Call the latest GPT-5.2 API with Python
response = openai.chat.completions.create(
model="gpt-5.2",
messages=[
{"role": "user", "content": "Hello,Introduce yourself"}
]
)
print(response.choices[0].message.content)
Solo unas pocas líneas de código, y la IA responde a tu pregunta, sin necesidad de navegador.
Identificadores oficiales de modelos API a partir del 30 de enero de 2026:
- OpenAI:
gpt-5.2,gpt-5.2-chat-latest,gpt-5.2-pro - Anthropic Claude:
claude-opus-4-5,claude-sonnet-4-5 - Google Gemini:
gemini-3-pro-preview,gemini-3-flash-preview
Comparación entre versión web y API
| Aspecto | Versión Web | API |
|---|---|---|
| Cómo se usa | Navegar y hacer clic en un navegador | Escribir código para llamarla |
| Curva de aprendizaje | Baja, cualquiera puede usarla | Alta, requiere algo de programación |
| Mejor para | Chat diario, redacción de artículos | Automatización, procesamiento por lotes, integración en apps |
| Costo | Suscripción mensual ($20/mes) | Pago por uso (pagas por lo que usas) |
| Flexibilidad | Limitada por las funciones web | Altamente personalizable |
| Velocidad | Media | Generalmente más rápida (sin renderizado de interfaz) |
¿Qué es un Token?
El concepto de Token
Token = La unidad de texto más pequeña que la IA entiende
A diferencia de los humanos, que leemos palabras y oraciones directamente, la IA necesita dividir el texto en pequeñas piezas. Cada pieza se llama token.
Ejemplos:
Chino:
- “你好” ≈ 1–2 tokens
- “今天天气不错” ≈ 4–8 tokens, según el modelo
Inglés:
- “Hello” = 1 token
- “How are you today?” ≈ 5 tokens
Reglas generales simples:
- Inglés: 1 palabra ≈ 1 token (aproximadamente 4 caracteres)
- Chino: 1 carácter ≈ 0.5–2 tokens (depende del modelo de IA)
- Números, puntuación: normalmente 1 símbolo = 1 token
Descubrimiento importante: ¡Diferentes modelos de IA definen los tokens de manera diferente!
Aquí hay un secreto poco conocido: El mismo texto puede tener un recuento de tokens completamente diferente en distintos modelos de IA.
¿Por qué? Porque cada empresa de IA tiene su propio tokenizador, y dividen el texto de manera diferente.
Ejemplo real:
La misma frase: “AI is revolutionizing market research.”
- GPT-3: 11 tokens
- GPT-3.5 y GPT-4: 9 tokens
- GPT-4o y GPT-5.2: 8 tokens
¿Ves? ¡La misma frase difiere en 3 tokens entre modelos!
Otro ejemplo en chino:
La frase “人工智能正在改变世界” (“La inteligencia artificial está cambiando el mundo”):
- GPT-4o: quizás 10 tokens
- Claude Sonnet 4.5: quizás 12 tokens
- Gemini 3: quizás 8 tokens
¿Por qué la diferencia?
Cada empresa utiliza un método de tokenización diferente al entrenar sus modelos:
- OpenAI (serie GPT): usa BPE (Codificación por Pares de Bytes)
- Anthropic (Claude): usa su propio tokenizador optimizado
- Google (Gemini): la documentación de Gemini dice “1 token ≈ 4 caracteres”
- DeepSeek: un tokenizador optimizado para chino
¿Cómo te afecta esto?
1. Las comparaciones de costos no son directas
Supón que tienes 1.000 caracteres chinos:
- Con GPT-5.2 podrían ser 1.500 tokens
- Con Claude Sonnet 4.5 podrían ser 1.600 tokens
- Con Gemini 3 podrían ser 1.400 tokens
Aunque cada uno diga “entrada $X/1M tokens”, ¡el costo real puede diferir entre un 10 y un 20%!
2. No puedes usar la misma calculadora de tokens para todos los modelos
- El tokenizador oficial de OpenAI (https://platform.openai.com/tokenizer) solo funciona para la serie GPT
- Los tokens de Claude necesitan el método de cálculo de Anthropic
- Los tokens de Gemini necesitan el método de cálculo de Google
3. Los idiomas no ingleses muestran diferencias aún mayores
Para chino, japonés, árabe y otros idiomas no ingleses, la eficiencia de tokenización puede variar entre un 30 y un 40%. La mayoría de los modelos de IA se entrenan principalmente en inglés, por lo que sus tokenizadores están mejor optimizados para el inglés.
Por qué importa el Token
1. El token determina el costo
El precio de la API se basa en tokens, no en el número de caracteres.
Ejemplo (precios oficiales a partir del 30 de enero de 2026):
- GPT-5.2: entrada $1.75/1M tokens, salida $14/1M tokens
- Claude Opus 4.5: entrada $5/1M tokens, salida $25/1M tokens
- Gemini 3 Flash: entrada $0.50/1M tokens, salida $3/1M tokens (nivel estándar)
Envías 500 tokens y la IA responde con 1.000 tokens:
- Con GPT-5.2: (500 × 1.75 + 1000 × 14) / 1.000.000 = $0.01488 (aproximadamente 1.5 centavos USD)
- Con Gemini 3 Flash: (500 × 0.50 + 1000 × 3) / 1.000.000 = $0.00325 (aproximadamente 0.3 centavos USD)
2. El token determina la longitud del contexto
Cada modelo de IA tiene un límite de tokens:
- GPT-5.2 (API): hasta 400.000 tokens
- GPT-5.2-chat-latest: hasta 128.000 tokens
- Claude Sonnet 4.5: hasta 200.000 tokens
- Gemini 3 Pro Preview: hasta 1.048.576 tokens (aproximadamente 1M)
Este límite incluye: tu prompt + respuesta de la IA + historial de la conversación.
¿Qué sucede si superas el límite?
- La IA “olvida” las partes más antiguas de la conversación
- O da un error y no continúa
Cómo contar tokens
Método 1: Estimar (rápido pero no preciso)
- Chino: número de caracteres × 1.5
- Inglés: número de palabras × 1.3
Método 2: Usar la herramienta en línea correspondiente
- OpenAI (serie GPT): https://platform.openai.com/tokenizer
- Contador de tokens general: https://token-counter.app (admite múltiples modelos para comparar)
- Gemini: usa el método
count_tokensen Google AI Studio
Recordatorio importante: Al estimar entre modelos, usa siempre la herramienta específica de ese modelo. ¡No uses el recuento de tokens de GPT para estimar el costo de Claude!
Tokens de entrada, tokens de salida, tokens en caché
La facturación de la API divide los tokens en tres tipos:
1. Tokens de entrada
- El contenido que envías a la IA
- Incluye tu prompt, documentos subidos
- Relativamente baratos
2. Tokens de salida
- El contenido que la IA te devuelve
- Incluye la respuesta de la IA
- Suelen ser de 2 a 10 veces más caros que los tokens de entrada
¿Por qué la salida es más cara? Porque la IA “piensa” (genera texto) usando más recursos informáticos que “leer” (procesar entrada).
Ejemplo (GPT-5.2):
- Entrada: $1.75/1M tokens
- Salida: $14/1M tokens (¡8 veces el precio de entrada!)
3. Tokens en caché
¡Este es un truco para ahorrar costos!
Si usas repetidamente el mismo prompt, la IA puede almacenarlo en caché y evitar procesarlo de nuevo la próxima vez.
Ejemplo: Tienes un prompt de 1.000 tokens y haces 10 preguntas:
- Sin caché: cada vez procesa 1.000 tokens → total 10.000 tokens
- Con caché: primera vez 1.000 tokens (precio normal), las siguientes 9 veces 1.000 tokens (precio de caché, 90% más barato)
Modelos que admiten caché:
- Anthropic Claude (Prompt Caching)
- OpenAI GPT-5.2 (admite caché, 90% de descuento)
Reglas de facturación de caché:
- Primera lectura: precio normal
- Acierto de caché: precio reducido entre un 50 y un 90%
- Validez de la caché: normalmente de 5 a 10 minutos
¿Qué es la Temperatura?
El concepto de Temperatura
Temperatura = Controla la “aleatoriedad” o “creatividad” de las respuestas de la IA
Recuerda que la IA esencialmente “calcula probabilidades”. Cuando preguntas “¿De qué color es el cielo?”, la IA ve:
- Probabilidad de “Azul” 80%
- Probabilidad de “Gris” 10%
- Probabilidad de “Rojo” 5%
La temperatura ajusta cómo la IA elige entre estas opciones.
Valores de Temperatura
La temperatura generalmente varía de 0 a 2 (o de 0 a 1, según la plataforma):
Temperatura = 0 (la más conservadora)
- La IA siempre elige la respuesta de mayor probabilidad
- Respuestas muy estables y predecibles
- Misma pregunta → respuesta casi idéntica cada vez
- Mejor para: preguntas factuales, generación de código, análisis de datos
Temperatura = 1 (equilibrada)
- La IA elige aleatoriamente según las probabilidades
- Las respuestas varían un poco pero siguen siendo razonables
- Valor predeterminado en la mayoría de las plataformas
- Mejor para: conversación cotidiana, uso general
Temperatura = 2 (la más agresiva)
- La IA prueba muchas posibilidades
- Respuestas muy diversas y creativas
- Puede ser inexacta o incluso sin sentido
- Mejor para: escritura creativa, lluvia de ideas, trabajo artístico
Un ejemplo práctico
Pregunta: Ponle nombre a mi cafetería
Temperatura = 0:
- “Starbucks Coffee” (la respuesta más común y segura)
- Casi siempre la misma
Temperatura = 1:
- “Morning Light Café”
- “Aroma Time”
- “Bean & Cozy”
- Varía, pero todas son razonables
Temperatura = 2:
- “Quantum Coffee Dimension”
- “Space‑Time Foam Lab”
- “Cosmic Latte Terminal”
- Muy creativo, pero posiblemente demasiado extraño
Cuándo ajustar la Temperatura
Temperatura más baja (0–0.5):
- Escribir código, depurar
- Análisis de datos, problemas matemáticos
- Traducción, resumen
- Cualquier tarea que necesite precisión
Temperatura más alta (1.5–2):
- Escribir novelas, poesía
- Nombrar cosas, crear eslóganes
- Lluvia de ideas
- Cualquier tarea que necesite creatividad
Diferentes modelos enumeran sus temperaturas recomendadas en sus sitios oficiales. Por ejemplo, el sitio web de DeepSeek muestra:
| Escenario | Temperatura |
|---|---|
| Generación de código / resolución de problemas matemáticos | 0.0 |
| Extracción / análisis de datos | 1.0 |
| Conversación general | 1.3 |
| Traducción | 1.3 |
| Escritura creativa / poesía | 1.5 |
¿Puedes ajustarlo en la versión web?
- La mayoría de las versiones web no permiten el ajuste directo
- Pero la API te da un control preciso
Longitud del Contexto
¿Qué es la Longitud del Contexto?
Longitud del Contexto = Cuánto contenido puede “recordar” la IA a la vez
A diferencia de los humanos, la IA no tiene memoria a largo plazo. En cada conversación, la IA solo puede recordar una cantidad limitada de contenido. Este límite se llama longitud del contexto y se mide en tokens.
¿Por qué la IA “olvida”?
Puede que hayas experimentado esto:
- Chateas con la IA durante mucho tiempo
- De repente la IA no recuerda lo que se dijo al principio
- Parece que tiene amnesia
Razón: Superaste el límite de longitud del contexto.
Ejemplo:
- Longitud del contexto de GPT-5.2 = 128.000 tokens
- Tú y la IA tienen 50 rondas de conversación, usando 130.000 tokens en total
- Más allá del límite, la IA “olvida” las partes más antiguas
Impacto práctico de la Longitud del Contexto
1. Afecta la duración de la conversación
- Contexto corto: solo unas pocas docenas de rondas
- Contexto largo: cientos de rondas
2. Afecta el procesamiento de documentos
- Contexto corto: solo documentos breves
- Contexto largo: libros completos
3. Afecta el costo
- Contexto más largo → procesamiento más lento
- Más tokens → mayor costo
Cómo lidiar con los límites del contexto
Método 1: Limpiar la conversación regularmente
- Guarda información importante
- Inicia una nueva conversación
- Vuelve a contarle el contexto a la IA
Método 2: Resumir el historial de la conversación
- Pide a la IA que resuma el contenido anterior
- Usa ese resumen como inicio de una nueva conversación
- Ahorra tokens
Método 3: Elegir un modelo con un contexto grande
- Para documentos largos: usa Gemini 3 Pro
- Para conversaciones largas: usa Claude Sonnet 4.5
Otros Conceptos Importantes
Max Tokens
Max Tokens = Limita la longitud máxima de una sola respuesta de la IA
- Establecer Max Tokens = 100: la IA responde con un máximo de 100 tokens
- Establecer Max Tokens = 2000: la IA responde con un máximo de 2000 tokens
¿Por qué limitarlo?
- Controlar el costo (los tokens de salida son más caros)
- Evitar respuestas demasiado extensas
- Algunos escenarios solo necesitan respuestas cortas
Top P (Muestreo del Núcleo)
Top P = Otra forma de controlar la aleatoriedad
Similar a la Temperatura, pero funciona de manera diferente:
- Top P = 0.1: solo considera el 10% superior de las opciones más probables
- Top P = 0.9: considera el 90% superior de las opciones más probables
Generalmente:
- Ajusta Temperatura o Top P, uno es suficiente
- En la mayoría de los casos, la Temperatura es más intuitiva
Penalización por Frecuencia y Penalización por Presencia
Se usan para reducir la repetición
- Penalización por Frecuencia: penaliza las palabras usadas con frecuencia, reduciendo la repetición de la misma palabra
- Penalización por Presencia: penaliza las palabras que ya han aparecido, animando a la IA a introducir nuevos temas
Rango: -2.0 a 2.0
- Valores positivos: reducen la repetición
- Valores negativos: permiten más repetición
- 0: sin intervención
Resumen: ¿Cómo usar estos conceptos?
Uso diario (versión web)
Si solo usas la versión web, no necesitas preocuparte por estos parámetros; los valores predeterminados funcionan bien.
Pero entender estos conceptos te ayuda a:
- Comprender por qué la IA a veces “olvida” partes anteriores de la conversación (límite de contexto)
- Entender por qué los usuarios de la API pueden hacer cosas que tú no puedes (control de parámetros)
- Prepararte para usar la API en el futuro
Al usar la API
Si decides usar la API, estos parámetros se vuelven muy importantes:
Configuración básica (cada vez):
model: elige el modelo (por ejemplo,gpt-5.2,claude-sonnet-4-5)max_tokens: limita la longitud de la respuesta
Ajusta según tus necesidades:
temperature: 0–0.5 para tareas factuales, 1–2 para tareas creativastop_p: generalmente bien con el valor predeterminadofrequency_penalty: si la IA se repite demasiado, ajústalo a 0.5–1
Optimización de costos:
- Usa caché para ahorrar dinero
- Controla
max_tokenspara evitar desperdicios - Elige el modelo adecuado (no siempre necesitas el más caro)
- Recuerda que diferentes modelos definen los tokens de manera diferente