Conceptos básicos de API y Token explicados

Puede que hayas notado que muchos usuarios experimentados hablan de API, Token, Temperatura y otros términos que suenan técnicos y confusos. Este capítulo explica estos conceptos clave en un lenguaje sencillo. Entenderlos te ayudará a comprender realmente cómo funciona la IA y a usarla de manera más efectiva.

¿Qué es una API?

API en lenguaje sencillo

API = Interfaz de Programación de Aplicaciones

Esa definición suena técnica, así que vamos a plantearlo de otra forma.

Piensa en la IA como un restaurante:

Versión web = Comes en el restaurante
- Bonita decoración (interfaz web)
- Camareros (botones, campos de entrada)
- Pides, el cocinero prepara, el camarero sirve
API = Pides comida para llevar
- Sin decoración, hablas directamente con la cocina
- Sin camarero, hablas directamente con el chef
- Dices lo que quieres, el chef lo prepara y te lo entrega

Diferencia clave:

Versión web: tiene interfaz, conveniente para humanos
API: sin interfaz, conveniente para programas

¿Por qué usar una API?

Si la versión web es tan conveniente, ¿para qué molestarse con la API?

Razón 1: Automatización

Supón que necesitas que la IA procese 1.000 documentos y escriba 1.000 resúmenes:

Versión web: Copias y pegas 1.000 veces y haces clic en enviar 1.000 veces
API: Escribes un script que procesa todo automáticamente mientras tú te tomas un café

Razón 2: Integración en tus propias aplicaciones

Quieres construir un bot de respuestas automáticas, un generador de contenido o un agente de atención al cliente inteligente:

Versión web: No es posible
API: Puedes integrar la IA directamente en tus propios programas

Razón 3: Menor costo

Suscripción web: ChatGPT Plus $20/mes, Claude Pro $20/mes
API de pago por uso: Pagas solo por lo que usas; un uso ligero puede costar solo unos pocos dólares al mes

Razón 4: Más flexibilidad

Ajustar parámetros de la IA (Temperatura, longitud máxima, etc.)
Procesamiento por lotes
Formatos de entrada/salida personalizados

¿Cómo se ve una llamada a la API?

Aquí tienes un ejemplo sencillo (no te preocupes si te resulta desconocido, lo veremos en detalle más adelante):

# Call the latest GPT-5.2 API with Python
response = openai.chat.completions.create(
    model="gpt-5.2",
    messages=[
        {"role": "user", "content": "Hello，Introduce yourself"}
    ]
)
print(response.choices[0].message.content)

Solo unas pocas líneas de código, y la IA responde a tu pregunta, sin necesidad de navegador.

Identificadores oficiales de modelos API a partir del 30 de enero de 2026:

OpenAI: gpt-5.2, gpt-5.2-chat-latest, gpt-5.2-pro
Anthropic Claude: claude-opus-4-5, claude-sonnet-4-5
Google Gemini: gemini-3-pro-preview, gemini-3-flash-preview

Comparación entre versión web y API

Aspecto	Versión Web	API
Cómo se usa	Navegar y hacer clic en un navegador	Escribir código para llamarla
Curva de aprendizaje	Baja, cualquiera puede usarla	Alta, requiere algo de programación
Mejor para	Chat diario, redacción de artículos	Automatización, procesamiento por lotes, integración en apps
Costo	Suscripción mensual ($20/mes)	Pago por uso (pagas por lo que usas)
Flexibilidad	Limitada por las funciones web	Altamente personalizable
Velocidad	Media	Generalmente más rápida (sin renderizado de interfaz)

¿Qué es un Token?

El concepto de Token

Token = La unidad de texto más pequeña que la IA entiende

A diferencia de los humanos, que leemos palabras y oraciones directamente, la IA necesita dividir el texto en pequeñas piezas. Cada pieza se llama token.

Ejemplos:

Chino:

“你好” ≈ 1–2 tokens
“今天天气不错” ≈ 4–8 tokens, según el modelo

Inglés:

“Hello” = 1 token
“How are you today?” ≈ 5 tokens

Reglas generales simples:

Inglés: 1 palabra ≈ 1 token (aproximadamente 4 caracteres)
Chino: 1 carácter ≈ 0.5–2 tokens (depende del modelo de IA)
Números, puntuación: normalmente 1 símbolo = 1 token

Descubrimiento importante: ¡Diferentes modelos de IA definen los tokens de manera diferente!

Aquí hay un secreto poco conocido: El mismo texto puede tener un recuento de tokens completamente diferente en distintos modelos de IA.

¿Por qué? Porque cada empresa de IA tiene su propio tokenizador, y dividen el texto de manera diferente.

Ejemplo real:

La misma frase: “AI is revolutionizing market research.”

GPT-3: 11 tokens
GPT-3.5 y GPT-4: 9 tokens
GPT-4o y GPT-5.2: 8 tokens

¿Ves? ¡La misma frase difiere en 3 tokens entre modelos!

Otro ejemplo en chino:

La frase “人工智能正在改变世界” (“La inteligencia artificial está cambiando el mundo”):

GPT-4o: quizás 10 tokens
Claude Sonnet 4.5: quizás 12 tokens
Gemini 3: quizás 8 tokens

¿Por qué la diferencia?

Cada empresa utiliza un método de tokenización diferente al entrenar sus modelos:

OpenAI (serie GPT): usa BPE (Codificación por Pares de Bytes)
Anthropic (Claude): usa su propio tokenizador optimizado
Google (Gemini): la documentación de Gemini dice “1 token ≈ 4 caracteres”
DeepSeek: un tokenizador optimizado para chino

¿Cómo te afecta esto?

1. Las comparaciones de costos no son directas

Supón que tienes 1.000 caracteres chinos:

Con GPT-5.2 podrían ser 1.500 tokens
Con Claude Sonnet 4.5 podrían ser 1.600 tokens
Con Gemini 3 podrían ser 1.400 tokens

Aunque cada uno diga “entrada $X/1M tokens”, ¡el costo real puede diferir entre un 10 y un 20%!

2. No puedes usar la misma calculadora de tokens para todos los modelos

El tokenizador oficial de OpenAI (https://platform.openai.com/tokenizer) solo funciona para la serie GPT
Los tokens de Claude necesitan el método de cálculo de Anthropic
Los tokens de Gemini necesitan el método de cálculo de Google

3. Los idiomas no ingleses muestran diferencias aún mayores

Para chino, japonés, árabe y otros idiomas no ingleses, la eficiencia de tokenización puede variar entre un 30 y un 40%. La mayoría de los modelos de IA se entrenan principalmente en inglés, por lo que sus tokenizadores están mejor optimizados para el inglés.

Por qué importa el Token

1. El token determina el costo

El precio de la API se basa en tokens, no en el número de caracteres.

Ejemplo (precios oficiales a partir del 30 de enero de 2026):

GPT-5.2: entrada $1.75/1M tokens, salida $14/1M tokens
Claude Opus 4.5: entrada $5/1M tokens, salida $25/1M tokens
Gemini 3 Flash: entrada $0.50/1M tokens, salida $3/1M tokens (nivel estándar)

Envías 500 tokens y la IA responde con 1.000 tokens:

Con GPT-5.2: (500 × 1.75 + 1000 × 14) / 1.000.000 = $0.01488 (aproximadamente 1.5 centavos USD)
Con Gemini 3 Flash: (500 × 0.50 + 1000 × 3) / 1.000.000 = $0.00325 (aproximadamente 0.3 centavos USD)

2. El token determina la longitud del contexto

Cada modelo de IA tiene un límite de tokens:

GPT-5.2 (API): hasta 400.000 tokens
GPT-5.2-chat-latest: hasta 128.000 tokens
Claude Sonnet 4.5: hasta 200.000 tokens
Gemini 3 Pro Preview: hasta 1.048.576 tokens (aproximadamente 1M)

Este límite incluye: tu prompt + respuesta de la IA + historial de la conversación.

¿Qué sucede si superas el límite?

La IA “olvida” las partes más antiguas de la conversación
O da un error y no continúa

Cómo contar tokens

Método 1: Estimar (rápido pero no preciso)

Chino: número de caracteres × 1.5
Inglés: número de palabras × 1.3

Método 2: Usar la herramienta en línea correspondiente

OpenAI (serie GPT): https://platform.openai.com/tokenizer
Contador de tokens general: https://token-counter.app (admite múltiples modelos para comparar)
Gemini: usa el método count_tokens en Google AI Studio

Recordatorio importante: Al estimar entre modelos, usa siempre la herramienta específica de ese modelo. ¡No uses el recuento de tokens de GPT para estimar el costo de Claude!

Tokens de entrada, tokens de salida, tokens en caché

La facturación de la API divide los tokens en tres tipos:

1. Tokens de entrada

El contenido que envías a la IA
Incluye tu prompt, documentos subidos
Relativamente baratos

2. Tokens de salida

El contenido que la IA te devuelve
Incluye la respuesta de la IA
Suelen ser de 2 a 10 veces más caros que los tokens de entrada

¿Por qué la salida es más cara? Porque la IA “piensa” (genera texto) usando más recursos informáticos que “leer” (procesar entrada).

Ejemplo (GPT-5.2):

Entrada: $1.75/1M tokens
Salida: $14/1M tokens (¡8 veces el precio de entrada!)

3. Tokens en caché

¡Este es un truco para ahorrar costos!

Si usas repetidamente el mismo prompt, la IA puede almacenarlo en caché y evitar procesarlo de nuevo la próxima vez.

Ejemplo: Tienes un prompt de 1.000 tokens y haces 10 preguntas:

Sin caché: cada vez procesa 1.000 tokens → total 10.000 tokens
Con caché: primera vez 1.000 tokens (precio normal), las siguientes 9 veces 1.000 tokens (precio de caché, 90% más barato)

Modelos que admiten caché:

Anthropic Claude (Prompt Caching)
OpenAI GPT-5.2 (admite caché, 90% de descuento)

Reglas de facturación de caché:

Primera lectura: precio normal
Acierto de caché: precio reducido entre un 50 y un 90%
Validez de la caché: normalmente de 5 a 10 minutos

¿Qué es la Temperatura?

El concepto de Temperatura

Temperatura = Controla la “aleatoriedad” o “creatividad” de las respuestas de la IA

Recuerda que la IA esencialmente “calcula probabilidades”. Cuando preguntas “¿De qué color es el cielo?”, la IA ve:

Probabilidad de “Azul” 80%
Probabilidad de “Gris” 10%
Probabilidad de “Rojo” 5%

La temperatura ajusta cómo la IA elige entre estas opciones.

Valores de Temperatura

La temperatura generalmente varía de 0 a 2 (o de 0 a 1, según la plataforma):

Temperatura = 0 (la más conservadora)

La IA siempre elige la respuesta de mayor probabilidad
Respuestas muy estables y predecibles
Misma pregunta → respuesta casi idéntica cada vez
Mejor para: preguntas factuales, generación de código, análisis de datos

Temperatura = 1 (equilibrada)

La IA elige aleatoriamente según las probabilidades
Las respuestas varían un poco pero siguen siendo razonables
Valor predeterminado en la mayoría de las plataformas
Mejor para: conversación cotidiana, uso general

Temperatura = 2 (la más agresiva)

La IA prueba muchas posibilidades
Respuestas muy diversas y creativas
Puede ser inexacta o incluso sin sentido
Mejor para: escritura creativa, lluvia de ideas, trabajo artístico

Un ejemplo práctico

Pregunta: Ponle nombre a mi cafetería

Temperatura = 0:

“Starbucks Coffee” (la respuesta más común y segura)
Casi siempre la misma

Temperatura = 1:

“Morning Light Café”
“Aroma Time”
“Bean & Cozy”
Varía, pero todas son razonables

Temperatura = 2:

“Quantum Coffee Dimension”
“Space‑Time Foam Lab”
“Cosmic Latte Terminal”
Muy creativo, pero posiblemente demasiado extraño

Cuándo ajustar la Temperatura

Temperatura más baja (0–0.5):

Escribir código, depurar
Análisis de datos, problemas matemáticos
Traducción, resumen
Cualquier tarea que necesite precisión

Temperatura más alta (1.5–2):

Escribir novelas, poesía
Nombrar cosas, crear eslóganes
Lluvia de ideas
Cualquier tarea que necesite creatividad

Diferentes modelos enumeran sus temperaturas recomendadas en sus sitios oficiales. Por ejemplo, el sitio web de DeepSeek muestra:

Escenario	Temperatura
Generación de código / resolución de problemas matemáticos	0.0
Extracción / análisis de datos	1.0
Conversación general	1.3
Traducción	1.3
Escritura creativa / poesía	1.5

¿Puedes ajustarlo en la versión web?

La mayoría de las versiones web no permiten el ajuste directo
Pero la API te da un control preciso

Longitud del Contexto

¿Qué es la Longitud del Contexto?

Longitud del Contexto = Cuánto contenido puede “recordar” la IA a la vez

A diferencia de los humanos, la IA no tiene memoria a largo plazo. En cada conversación, la IA solo puede recordar una cantidad limitada de contenido. Este límite se llama longitud del contexto y se mide en tokens.

¿Por qué la IA “olvida”?

Puede que hayas experimentado esto:

Chateas con la IA durante mucho tiempo
De repente la IA no recuerda lo que se dijo al principio
Parece que tiene amnesia

Razón: Superaste el límite de longitud del contexto.

Ejemplo:

Longitud del contexto de GPT-5.2 = 128.000 tokens
Tú y la IA tienen 50 rondas de conversación, usando 130.000 tokens en total
Más allá del límite, la IA “olvida” las partes más antiguas

Impacto práctico de la Longitud del Contexto

1. Afecta la duración de la conversación

Contexto corto: solo unas pocas docenas de rondas
Contexto largo: cientos de rondas

2. Afecta el procesamiento de documentos

Contexto corto: solo documentos breves
Contexto largo: libros completos

3. Afecta el costo

Contexto más largo → procesamiento más lento
Más tokens → mayor costo

Cómo lidiar con los límites del contexto

Método 1: Limpiar la conversación regularmente

Guarda información importante
Inicia una nueva conversación
Vuelve a contarle el contexto a la IA

Método 2: Resumir el historial de la conversación

Pide a la IA que resuma el contenido anterior
Usa ese resumen como inicio de una nueva conversación
Ahorra tokens

Método 3: Elegir un modelo con un contexto grande

Para documentos largos: usa Gemini 3 Pro
Para conversaciones largas: usa Claude Sonnet 4.5

Otros Conceptos Importantes

Max Tokens

Max Tokens = Limita la longitud máxima de una sola respuesta de la IA

Establecer Max Tokens = 100: la IA responde con un máximo de 100 tokens
Establecer Max Tokens = 2000: la IA responde con un máximo de 2000 tokens

¿Por qué limitarlo?

Controlar el costo (los tokens de salida son más caros)
Evitar respuestas demasiado extensas
Algunos escenarios solo necesitan respuestas cortas

Top P (Muestreo del Núcleo)

Top P = Otra forma de controlar la aleatoriedad

Similar a la Temperatura, pero funciona de manera diferente:

Top P = 0.1: solo considera el 10% superior de las opciones más probables
Top P = 0.9: considera el 90% superior de las opciones más probables

Generalmente:

Ajusta Temperatura o Top P, uno es suficiente
En la mayoría de los casos, la Temperatura es más intuitiva

Penalización por Frecuencia y Penalización por Presencia

Se usan para reducir la repetición

Penalización por Frecuencia: penaliza las palabras usadas con frecuencia, reduciendo la repetición de la misma palabra
Penalización por Presencia: penaliza las palabras que ya han aparecido, animando a la IA a introducir nuevos temas

Rango: -2.0 a 2.0

Valores positivos: reducen la repetición
Valores negativos: permiten más repetición
0: sin intervención

Resumen: ¿Cómo usar estos conceptos?

Uso diario (versión web)

Si solo usas la versión web, no necesitas preocuparte por estos parámetros; los valores predeterminados funcionan bien.

Pero entender estos conceptos te ayuda a:

Comprender por qué la IA a veces “olvida” partes anteriores de la conversación (límite de contexto)
Entender por qué los usuarios de la API pueden hacer cosas que tú no puedes (control de parámetros)
Prepararte para usar la API en el futuro

Al usar la API

Si decides usar la API, estos parámetros se vuelven muy importantes:

Configuración básica (cada vez):

model: elige el modelo (por ejemplo, gpt-5.2, claude-sonnet-4-5)
max_tokens: limita la longitud de la respuesta

Ajusta según tus necesidades:

temperature: 0–0.5 para tareas factuales, 1–2 para tareas creativas
top_p: generalmente bien con el valor predeterminado
frequency_penalty: si la IA se repite demasiado, ajústalo a 0.5–1

Optimización de costos:

Usa caché para ahorrar dinero
Controla max_tokens para evitar desperdicios
Elige el modelo adecuado (no siempre necesitas el más caro)
Recuerda que diferentes modelos definen los tokens de manera diferente