Explication des bases de l'API et des tokens

Vous avez peut-être remarqué que de nombreux utilisateurs expérimentés parlent d’API, de Token, de Temperature et d’autres termes qui semblent techniques et déroutants. Ce chapitre explique ces concepts fondamentaux en langage simple. Les comprendre vous aidera à vraiment saisir le fonctionnement de l’IA et à l’utiliser plus efficacement.

Qu’est-ce qu’une API ?

L’API en termes simples

API = Interface de Programmation Applicative (Application Programming Interface)

Cette définition semble technique, alors reformulons-la différemment.

Imaginez l’IA comme un restaurant :

Version web = Vous mangez sur place au restaurant
- Belle décoration (interface web)
- Serveurs (boutons, champs de saisie)
- Vous commandez, le chef cuisine, le serveur apporte
API = Vous commandez à emporter
- Pas de décoration, vous parlez directement à la cuisine
- Pas de serveur, vous parlez directement au chef
- Vous dites ce que vous voulez, le chef le prépare et vous le donne

Différence clé :

Version web : a une interface, pratique pour les humains
API : pas d’interface, pratique pour les programmes

Pourquoi utiliser une API ?

Si la version web est si pratique, pourquoi se donner la peine d’utiliser une API ?

Raison 1 : Automatisation

Supposons que vous ayez besoin que l’IA traite 1 000 documents et rédige 1 000 résumés :

Version web : Vous copiez-collez 1 000 fois et cliquez sur envoyer 1 000 fois
API : Écrivez un script qui traite tout automatiquement pendant que vous buvez un café

Raison 2 : Intégration dans vos propres applications

Vous voulez créer un bot de réponse automatique, un générateur de contenu ou un agent de service client intelligent :

Version web : Impossible
API : Vous pouvez intégrer l’IA directement dans vos propres programmes

Raison 3 : Coût réduit

Abonnement web : ChatGPT Plus 20 $/mois, Claude Pro 20 $/mois
API à l’utilisation : Payez uniquement ce que vous utilisez ; une utilisation légère peut coûter seulement quelques dollars par mois

Raison 4 : Plus de flexibilité

Paramètres fins de l’IA (Temperature, longueur maximale, etc.)
Traitement par lots
Formats d’entrée/sortie personnalisés

À quoi ressemble un appel API ?

Voici un exemple simple (ne vous inquiétez pas s’il vous semble inconnu – nous le verrons en détail plus tard) :

# Call the latest GPT-5.2 API with Python
response = openai.chat.completions.create(
    model="gpt-5.2",
    messages=[
        {"role": "user", "content": "Hello，Introduce yourself"}
    ]
)
print(response.choices[0].message.content)

Juste quelques lignes de code, et l’IA répond à votre question – pas besoin de navigateur.

Identifiants officiels des modèles API au 30 janvier 2026 :

OpenAI : gpt-5.2, gpt-5.2-chat-latest, gpt-5.2-pro
Anthropic Claude : claude-opus-4-5, claude-sonnet-4-5
Google Gemini : gemini-3-pro-preview, gemini-3-flash-preview

Comparaison version web vs API

Aspect	Version web	API
Utilisation	Cliquer dans un navigateur	Écrire du code pour l’appeler
Courbe d’apprentissage	Faible, tout le monde peut l’utiliser	Élevée, nécessite des notions de programmation
Idéal pour	Chat quotidien, rédaction d’articles	Automatisation, traitement par lots, intégration d’applications
Coût	Abonnement mensuel (20 $/mois)	Paiement à l’utilisation (payez ce que vous utilisez)
Flexibilité	Limitée par les fonctionnalités web	Hautement personnalisable
Vitesse	Moyenne	Généralement plus rapide (pas de rendu d’interface)

Qu’est-ce qu’un Token ?

Le concept de Token

Token = La plus petite unité de texte que l’IA comprend

Contrairement aux humains, qui lisent directement les mots et les phrases, l’IA doit décomposer le texte en petits morceaux. Chaque morceau s’appelle un token.

Exemples :

Chinois :

« 你好 » ≈ 1–2 tokens
« 今天天气不错 » ≈ 4–8 tokens, selon le modèle

Anglais :

« Hello » = 1 token
« How are you today? » ≈ 5 tokens

Règles empiriques simples :

Anglais : 1 mot ≈ 1 token (environ 4 caractères)
Chinois : 1 caractère ≈ 0,5–2 tokens (selon le modèle d’IA)
Chiffres, ponctuation : généralement 1 symbole = 1 token

Découverte importante : différents modèles d’IA définissent les tokens différemment !

Voici un secret peu connu : Le même texte peut avoir un nombre de tokens complètement différent selon les modèles d’IA !

Pourquoi ? Parce que chaque entreprise d’IA a son propre tokenizer, et ils divisent le texte différemment.

Exemple réel :

La même phrase : « AI is revolutionizing market research. »

GPT-3 : 11 tokens
GPT-3.5 et GPT-4 : 9 tokens
GPT-4o et GPT-5.2 : 8 tokens

Vous voyez ? La même phrase diffère de 3 tokens selon les modèles !

Autre exemple en chinois :

La phrase « 人工智能正在改变世界 » (« L’intelligence artificielle change le monde ») :

GPT-4o : peut-être 10 tokens
Claude Sonnet 4.5 : peut-être 12 tokens
Gemini 3 : peut-être 8 tokens

Pourquoi cette différence ?

Chaque entreprise utilise une méthode de tokenisation différente lors de l’entraînement de ses modèles :

OpenAI (série GPT) : utilise BPE (Byte-Pair Encoding)
Anthropic (Claude) : utilise son propre tokenizer optimisé
Google (Gemini) : la documentation de Gemini dit « 1 token ≈ 4 caractères »
DeepSeek : un tokenizer optimisé pour le chinois

Comment cela vous affecte-t-il ?

1. Les comparaisons de coûts ne sont pas directes

Supposons que vous ayez 1 000 caractères chinois :

Avec GPT-5.2, cela pourrait être 1 500 tokens
Avec Claude Sonnet 4.5, cela pourrait être 1 600 tokens
Avec Gemini 3, cela pourrait être 1 400 tokens

Même si chacun dit « entrée X $/1M de tokens », le coût réel peut différer de 10 à 20 % !

2. Vous ne pouvez pas utiliser le même calculateur de tokens pour tous les modèles

Le tokenizer officiel d’OpenAI (https://platform.openai.com/tokenizer) ne fonctionne que pour la série GPT
Les tokens Claude nécessitent la méthode de calcul d’Anthropic
Les tokens Gemini nécessitent la méthode de calcul de Google

3. Les langues non anglaises montrent des différences encore plus grandes

Pour le chinois, le japonais, l’arabe et d’autres langues non anglaises, l’efficacité des tokens peut varier de 30 à 40 %. La plupart des modèles d’IA sont principalement entraînés sur l’anglais, donc leurs tokenizers sont mieux optimisés pour l’anglais.

Pourquoi le Token est important

1. Le token détermine le coût

La tarification de l’API est basée sur les tokens, pas sur le nombre de caractères.

Exemple (prix officiels au 30 janvier 2026) :

GPT-5.2 : entrée 1,75 $/1M tokens, sortie 14 $/1M tokens
Claude Opus 4.5 : entrée 5 $/1M tokens, sortie 25 $/1M tokens
Gemini 3 Flash : entrée 0,50 $/1M tokens, sortie 3 $/1M tokens (niveau standard)

Vous envoyez 500 tokens et l’IA répond avec 1 000 tokens :

Avec GPT-5.2 : (500 × 1,75 + 1000 × 14) / 1 000 000 = 0,01488 $ (environ 1,5 centime USD)
Avec Gemini 3 Flash : (500 × 0,50 + 1000 × 3) / 1 000 000 = 0,00325 $ (environ 0,3 centime USD)

2. Le token détermine la longueur du contexte

Chaque modèle d’IA a une limite de tokens :

GPT-5.2 (API) : jusqu’à 400 000 tokens
GPT-5.2-chat-latest : jusqu’à 128 000 tokens
Claude Sonnet 4.5 : jusqu’à 200 000 tokens
Gemini 3 Pro Preview : jusqu’à 1 048 576 tokens (environ 1M)

Cette limite inclut : votre prompt + la réponse de l’IA + l’historique de la conversation.

Que se passe-t-il si vous dépassez la limite ?

L’IA « oublie » les parties les plus anciennes de la conversation
Ou elle génère une erreur et ne continue pas

Comment compter les tokens

Méthode 1 : Estimation (rapide mais pas précise)

Chinois : nombre de caractères × 1,5
Anglais : nombre de mots × 1,3

Méthode 2 : Utiliser l’outil en ligne correspondant

OpenAI (série GPT) : https://platform.openai.com/tokenizer
Compteur de tokens général : https://token-counter.app (prend en charge plusieurs modèles pour comparaison)
Gemini : utilisez la méthode count_tokens dans Google AI Studio

Rappel important : Lors de l’estimation entre modèles, utilisez toujours l’outil spécifique à ce modèle. N’utilisez pas le nombre de tokens de GPT pour estimer le coût de Claude !

Tokens d’entrée, tokens de sortie, tokens en cache

La facturation de l’API divise les tokens en trois types :

1. Tokens d’entrée (Input Tokens)

Le contenu que vous envoyez à l’IA
Inclut votre prompt, les documents téléchargés
Relativement bon marché

2. Tokens de sortie (Output Tokens)

Le contenu que l’IA vous renvoie
Inclut la réponse de l’IA
Généralement 2 à 10 fois plus chers que les tokens d’entrée

Pourquoi la sortie est-elle plus chère ? Parce que l’IA « réfléchit » (génère du texte) en utilisant plus de ressources de calcul que pour « lire » (traiter l’entrée).

Exemple (GPT-5.2) :

Entrée : 1,75 $/1M tokens
Sortie : 14 $/1M tokens (8 fois le prix d’entrée !)

3. Tokens en cache (Cached Tokens)

C’est une astuce pour économiser de l’argent !

Si vous utilisez le même prompt à plusieurs reprises, l’IA peut le mettre en cache et éviter de le retraiter la prochaine fois.

Exemple : Vous avez un prompt de 1 000 tokens et posez 10 questions :

Sans cache : chaque fois traite 1 000 tokens → total 10 000 tokens
Avec cache : première fois 1 000 tokens (prix normal), les 9 fois suivantes 1 000 tokens (prix du cache, 90 % moins cher)

Modèles prenant en charge la mise en cache :

Anthropic Claude (Prompt Caching)
OpenAI GPT-5.2 (prend en charge la mise en cache, 90 % de réduction)

Règles de facturation du cache :

Première lecture : prix normal
Cache hit : prix réduit de 50 à 90 %
Validité du cache : généralement 5 à 10 minutes

Qu’est-ce que la Temperature ?

Le concept de Temperature

Temperature = Contrôle le « caractère aléatoire » ou la « créativité » des réponses de l’IA

Rappelez-vous que l’IA « calcule essentiellement des probabilités ». Lorsque vous demandez « De quelle couleur est le ciel ? », l’IA voit :

Probabilité « Bleu » 80 %
Probabilité « Gris » 10 %
Probabilité « Rouge » 5 %

La Temperature ajuste la façon dont l’IA choisit parmi ces options.

Valeurs de Temperature

La Temperature va généralement de 0 à 2 (ou 0 à 1, selon la plateforme) :

Temperature = 0 (la plus conservatrice)

L’IA choisit toujours la réponse avec la probabilité la plus élevée
Réponses très stables et prévisibles
Même question → réponse presque identique à chaque fois
Idéal pour : questions factuelles, génération de code, analyse de données

Temperature = 1 (équilibrée)

L’IA choisit aléatoirement en fonction des probabilités
Les réponses varient un peu mais restent raisonnables
Valeur par défaut sur la plupart des plateformes
Idéal pour : conversation quotidienne, usage général

Temperature = 2 (la plus agressive)

L’IA essaie de nombreuses possibilités
Réponses très diverses et créatives
Peut être inexacte ou même absurde
Idéal pour : écriture créative, brainstorming, travail artistique

Un exemple pratique

Question : Nommez mon café

Temperature = 0 :

« Starbucks Coffee » (la réponse la plus courante, la plus sûre)
Presque la même à chaque fois

Temperature = 1 :

« Morning Light Café »
« Aroma Time »
« Bean & Cozy »
Varie, mais tous raisonnables

Temperature = 2 :

« Quantum Coffee Dimension »
« Space‑Time Foam Lab »
« Cosmic Latte Terminal »
Très créatif, mais peut-être trop étrange

Quand ajuster la Temperature

Temperature plus basse (0–0,5) :

Écrire du code, déboguer
Analyse de données, problèmes mathématiques
Traduction, résumé
Toute tâche nécessitant de la précision

Temperature plus élevée (1,5–2) :

Écrire des romans, de la poésie
Nommer des choses, créer des slogans
Brainstorming
Toute tâche nécessitant de la créativité

Différents modèles listent leurs temperatures recommandées sur leurs sites officiels. Par exemple, le site de DeepSeek indique :

Scénario	Temperature
Génération de code / résolution de problèmes mathématiques	0,0
Extraction / analyse de données	1,0
Conversation générale	1,3
Traduction	1,3
Écriture créative / poésie	1,5

Pouvez-vous l’ajuster dans la version web ?

La plupart des versions web ne permettent pas un réglage direct
Mais l’API vous donne un contrôle précis

Longueur du contexte

Qu’est-ce que la longueur du contexte ?

Longueur du contexte = Quantité de contenu que l’IA peut « mémoriser » à la fois

Contrairement aux humains, l’IA n’a pas de mémoire à long terme. Dans chaque conversation, l’IA ne peut se souvenir que d’une quantité limitée de contenu. Cette limite s’appelle la longueur du contexte, mesurée en tokens.

Pourquoi l’IA « oublie »-t-elle ?

Vous avez peut-être déjà vécu cela :

Vous discutez avec l’IA pendant longtemps
Soudain, l’IA ne se souvient plus de ce qui a été dit au début
Elle semble avoir une amnésie

Raison : Vous avez dépassé la limite de longueur du contexte.

Exemple :

Longueur du contexte de GPT-5.2 = 128 000 tokens
Vous et l’IA avez 50 tours de conversation, utilisant 130 000 tokens au total
Au-delà de la limite, l’IA « oublie » les parties les plus anciennes

Impact pratique de la longueur du contexte

1. Affecte la durée de la conversation

Contexte court : seulement quelques dizaines de tours
Contexte long : des centaines de tours

2. Affecte le traitement des documents

Contexte court : seulement des documents courts
Contexte long : des livres entiers

3. Affecte le coût

Contexte plus long → traitement plus lent
Plus de tokens → coût plus élevé

Comment gérer les limites de contexte

Méthode 1 : Effacer régulièrement la conversation

Sauvegarder les informations importantes
Démarrer une nouvelle conversation
Redonner le contexte à l’IA

Méthode 2 : Résumer l’historique de la conversation

Demander à l’IA de résumer le contenu précédent
Utiliser ce résumé comme point de départ d’une nouvelle conversation
Économise des tokens

Méthode 3 : Choisir un modèle avec un grand contexte

Pour les longs documents : utilisez Gemini 3 Pro
Pour les longues conversations : utilisez Claude Sonnet 4.5

Autres concepts importants

Max Tokens

Max Tokens = Limite la longueur maximale d’une seule réponse de l’IA

Définir Max Tokens = 100 : l’IA répond avec au plus 100 tokens
Définir Max Tokens = 2000 : l’IA répond avec au plus 2000 tokens

Pourquoi limiter ?

Contrôler le coût (les tokens de sortie sont plus chers)
Éviter des réponses trop verbeuses
Certains scénarios ne nécessitent que des réponses courtes

Top P (Nucleus Sampling)

Top P = Une autre façon de contrôler le caractère aléatoire

Similaire à la Temperature, mais fonctionne différemment :

Top P = 0,1 : ne considère que les 10 % d’options les plus probables
Top P = 0,9 : considère les 90 % d’options les plus probables

Généralement :

Ajustez soit la Temperature, soit le Top P – un seul suffit
Dans la plupart des cas, la Temperature est plus intuitive

Frequency Penalty et Presence Penalty

Utilisés pour réduire la répétition

Frequency Penalty : pénalise les mots fréquemment utilisés, réduisant la répétition du même mot
Presence Penalty : pénalise les mots déjà apparus, encourageant l’IA à introduire de nouveaux sujets

Plage : -2,0 à 2,0

Valeurs positives : réduisent la répétition
Valeurs négatives : permettent plus de répétition
0 : aucune intervention

Résumé : Comment utiliser ces concepts ?

Utilisation quotidienne (version web)

Si vous utilisez uniquement la version web, vous n’avez pas à vous soucier de ces paramètres – les valeurs par défaut fonctionnent très bien.

Mais comprendre ces concepts vous aide à :

Comprendre pourquoi l’IA « oublie » parfois les parties antérieures de la conversation (limite de contexte)
Comprendre pourquoi les utilisateurs de l’API peuvent faire des choses que vous ne pouvez pas faire (contrôle des paramètres)
Vous préparer à utiliser l’API à l’avenir

Lors de l’utilisation de l’API

Si vous décidez d’utiliser l’API, ces paramètres deviennent très importants :

Paramètres de base (à chaque fois) :

model : choisir le modèle (par exemple gpt-5.2, claude-sonnet-4-5)
max_tokens : limiter la longueur de la réponse

Ajustez selon vos besoins :

temperature : 0–0,5 pour les tâches factuelles, 1–2 pour les tâches créatives
top_p : généralement correct avec la valeur par défaut
frequency_penalty : si l’IA se répète trop, réglez-le sur 0,5–1

Optimisation des coûts :

Utilisez la mise en cache pour économiser de l’argent
Contrôlez max_tokens pour éviter le gaspillage
Choisissez le bon modèle (vous n’avez pas toujours besoin du plus cher)
N’oubliez pas que différents modèles définissent les tokens différemment