RL RanceLee Tutorials
← Retour aux tutoriels

Explication des bases de l'API et des tokens

Vous avez peut-être remarqué que de nombreux utilisateurs expérimentés parlent d’API, de Token, de Temperature et d’autres termes qui semblent techniques et déroutants. Ce chapitre explique ces concepts fondamentaux en langage simple. Les comprendre vous aidera à vraiment saisir le fonctionnement de l’IA et à l’utiliser plus efficacement.


Qu’est-ce qu’une API ?

L’API en termes simples

API = Interface de Programmation Applicative (Application Programming Interface)

Cette définition semble technique, alors reformulons-la différemment.

Imaginez l’IA comme un restaurant :

  • Version web = Vous mangez sur place au restaurant
    • Belle décoration (interface web)
    • Serveurs (boutons, champs de saisie)
    • Vous commandez, le chef cuisine, le serveur apporte
  • API = Vous commandez à emporter
    • Pas de décoration, vous parlez directement à la cuisine
    • Pas de serveur, vous parlez directement au chef
    • Vous dites ce que vous voulez, le chef le prépare et vous le donne

Différence clé :

  • Version web : a une interface, pratique pour les humains
  • API : pas d’interface, pratique pour les programmes

Pourquoi utiliser une API ?

Si la version web est si pratique, pourquoi se donner la peine d’utiliser une API ?

Raison 1 : Automatisation

Supposons que vous ayez besoin que l’IA traite 1 000 documents et rédige 1 000 résumés :

  • Version web : Vous copiez-collez 1 000 fois et cliquez sur envoyer 1 000 fois
  • API : Écrivez un script qui traite tout automatiquement pendant que vous buvez un café

Raison 2 : Intégration dans vos propres applications

Vous voulez créer un bot de réponse automatique, un générateur de contenu ou un agent de service client intelligent :

  • Version web : Impossible
  • API : Vous pouvez intégrer l’IA directement dans vos propres programmes

Raison 3 : Coût réduit

  • Abonnement web : ChatGPT Plus 20 $/mois, Claude Pro 20 $/mois
  • API à l’utilisation : Payez uniquement ce que vous utilisez ; une utilisation légère peut coûter seulement quelques dollars par mois

Raison 4 : Plus de flexibilité

  • Paramètres fins de l’IA (Temperature, longueur maximale, etc.)
  • Traitement par lots
  • Formats d’entrée/sortie personnalisés

À quoi ressemble un appel API ?

Voici un exemple simple (ne vous inquiétez pas s’il vous semble inconnu – nous le verrons en détail plus tard) :

# Call the latest GPT-5.2 API with Python
response = openai.chat.completions.create(
    model="gpt-5.2",
    messages=[
        {"role": "user", "content": "Hello,Introduce yourself"}
    ]
)
print(response.choices[0].message.content)

Juste quelques lignes de code, et l’IA répond à votre question – pas besoin de navigateur.

Identifiants officiels des modèles API au 30 janvier 2026 :

  • OpenAI : gpt-5.2, gpt-5.2-chat-latest, gpt-5.2-pro
  • Anthropic Claude : claude-opus-4-5, claude-sonnet-4-5
  • Google Gemini : gemini-3-pro-preview, gemini-3-flash-preview

Comparaison version web vs API

Aspect Version web API
Utilisation Cliquer dans un navigateur Écrire du code pour l’appeler
Courbe d’apprentissage Faible, tout le monde peut l’utiliser Élevée, nécessite des notions de programmation
Idéal pour Chat quotidien, rédaction d’articles Automatisation, traitement par lots, intégration d’applications
Coût Abonnement mensuel (20 $/mois) Paiement à l’utilisation (payez ce que vous utilisez)
Flexibilité Limitée par les fonctionnalités web Hautement personnalisable
Vitesse Moyenne Généralement plus rapide (pas de rendu d’interface)

Qu’est-ce qu’un Token ?

Le concept de Token

Token = La plus petite unité de texte que l’IA comprend

Contrairement aux humains, qui lisent directement les mots et les phrases, l’IA doit décomposer le texte en petits morceaux. Chaque morceau s’appelle un token.

Exemples :

Chinois :

  • « 你好 » ≈ 1–2 tokens
  • « 今天天气不错 » ≈ 4–8 tokens, selon le modèle

Anglais :

  • « Hello » = 1 token
  • « How are you today? » ≈ 5 tokens

Règles empiriques simples :

  • Anglais : 1 mot ≈ 1 token (environ 4 caractères)
  • Chinois : 1 caractère ≈ 0,5–2 tokens (selon le modèle d’IA)
  • Chiffres, ponctuation : généralement 1 symbole = 1 token

Découverte importante : différents modèles d’IA définissent les tokens différemment !

Voici un secret peu connu : Le même texte peut avoir un nombre de tokens complètement différent selon les modèles d’IA !

Pourquoi ? Parce que chaque entreprise d’IA a son propre tokenizer, et ils divisent le texte différemment.

Exemple réel :

La même phrase : « AI is revolutionizing market research. »

  • GPT-3 : 11 tokens
  • GPT-3.5 et GPT-4 : 9 tokens
  • GPT-4o et GPT-5.2 : 8 tokens

Vous voyez ? La même phrase diffère de 3 tokens selon les modèles !

Autre exemple en chinois :

La phrase « 人工智能正在改变世界 » (« L’intelligence artificielle change le monde ») :

  • GPT-4o : peut-être 10 tokens
  • Claude Sonnet 4.5 : peut-être 12 tokens
  • Gemini 3 : peut-être 8 tokens

Pourquoi cette différence ?

Chaque entreprise utilise une méthode de tokenisation différente lors de l’entraînement de ses modèles :

  • OpenAI (série GPT) : utilise BPE (Byte-Pair Encoding)
  • Anthropic (Claude) : utilise son propre tokenizer optimisé
  • Google (Gemini) : la documentation de Gemini dit « 1 token ≈ 4 caractères »
  • DeepSeek : un tokenizer optimisé pour le chinois

Comment cela vous affecte-t-il ?

1. Les comparaisons de coûts ne sont pas directes

Supposons que vous ayez 1 000 caractères chinois :

  • Avec GPT-5.2, cela pourrait être 1 500 tokens
  • Avec Claude Sonnet 4.5, cela pourrait être 1 600 tokens
  • Avec Gemini 3, cela pourrait être 1 400 tokens

Même si chacun dit « entrée X $/1M de tokens », le coût réel peut différer de 10 à 20 % !

2. Vous ne pouvez pas utiliser le même calculateur de tokens pour tous les modèles

  • Le tokenizer officiel d’OpenAI (https://platform.openai.com/tokenizer) ne fonctionne que pour la série GPT
  • Les tokens Claude nécessitent la méthode de calcul d’Anthropic
  • Les tokens Gemini nécessitent la méthode de calcul de Google

3. Les langues non anglaises montrent des différences encore plus grandes

Pour le chinois, le japonais, l’arabe et d’autres langues non anglaises, l’efficacité des tokens peut varier de 30 à 40 %. La plupart des modèles d’IA sont principalement entraînés sur l’anglais, donc leurs tokenizers sont mieux optimisés pour l’anglais.

Pourquoi le Token est important

1. Le token détermine le coût

La tarification de l’API est basée sur les tokens, pas sur le nombre de caractères.

Exemple (prix officiels au 30 janvier 2026) :

  • GPT-5.2 : entrée 1,75 $/1M tokens, sortie 14 $/1M tokens
  • Claude Opus 4.5 : entrée 5 $/1M tokens, sortie 25 $/1M tokens
  • Gemini 3 Flash : entrée 0,50 $/1M tokens, sortie 3 $/1M tokens (niveau standard)

Vous envoyez 500 tokens et l’IA répond avec 1 000 tokens :

  • Avec GPT-5.2 : (500 × 1,75 + 1000 × 14) / 1 000 000 = 0,01488 $ (environ 1,5 centime USD)
  • Avec Gemini 3 Flash : (500 × 0,50 + 1000 × 3) / 1 000 000 = 0,00325 $ (environ 0,3 centime USD)

2. Le token détermine la longueur du contexte

Chaque modèle d’IA a une limite de tokens :

  • GPT-5.2 (API) : jusqu’à 400 000 tokens
  • GPT-5.2-chat-latest : jusqu’à 128 000 tokens
  • Claude Sonnet 4.5 : jusqu’à 200 000 tokens
  • Gemini 3 Pro Preview : jusqu’à 1 048 576 tokens (environ 1M)

Cette limite inclut : votre prompt + la réponse de l’IA + l’historique de la conversation.

Que se passe-t-il si vous dépassez la limite ?

  • L’IA « oublie » les parties les plus anciennes de la conversation
  • Ou elle génère une erreur et ne continue pas

Comment compter les tokens

Méthode 1 : Estimation (rapide mais pas précise)

  • Chinois : nombre de caractères × 1,5
  • Anglais : nombre de mots × 1,3

Méthode 2 : Utiliser l’outil en ligne correspondant

Rappel important : Lors de l’estimation entre modèles, utilisez toujours l’outil spécifique à ce modèle. N’utilisez pas le nombre de tokens de GPT pour estimer le coût de Claude !

Tokens d’entrée, tokens de sortie, tokens en cache

La facturation de l’API divise les tokens en trois types :

1. Tokens d’entrée (Input Tokens)

  • Le contenu que vous envoyez à l’IA
  • Inclut votre prompt, les documents téléchargés
  • Relativement bon marché

2. Tokens de sortie (Output Tokens)

  • Le contenu que l’IA vous renvoie
  • Inclut la réponse de l’IA
  • Généralement 2 à 10 fois plus chers que les tokens d’entrée

Pourquoi la sortie est-elle plus chère ? Parce que l’IA « réfléchit » (génère du texte) en utilisant plus de ressources de calcul que pour « lire » (traiter l’entrée).

Exemple (GPT-5.2) :

  • Entrée : 1,75 $/1M tokens
  • Sortie : 14 $/1M tokens (8 fois le prix d’entrée !)

3. Tokens en cache (Cached Tokens)

C’est une astuce pour économiser de l’argent !

Si vous utilisez le même prompt à plusieurs reprises, l’IA peut le mettre en cache et éviter de le retraiter la prochaine fois.

Exemple : Vous avez un prompt de 1 000 tokens et posez 10 questions :

  • Sans cache : chaque fois traite 1 000 tokens → total 10 000 tokens
  • Avec cache : première fois 1 000 tokens (prix normal), les 9 fois suivantes 1 000 tokens (prix du cache, 90 % moins cher)

Modèles prenant en charge la mise en cache :

  • Anthropic Claude (Prompt Caching)
  • OpenAI GPT-5.2 (prend en charge la mise en cache, 90 % de réduction)

Règles de facturation du cache :

  • Première lecture : prix normal
  • Cache hit : prix réduit de 50 à 90 %
  • Validité du cache : généralement 5 à 10 minutes

Qu’est-ce que la Temperature ?

Le concept de Temperature

Temperature = Contrôle le « caractère aléatoire » ou la « créativité » des réponses de l’IA

Rappelez-vous que l’IA « calcule essentiellement des probabilités ». Lorsque vous demandez « De quelle couleur est le ciel ? », l’IA voit :

  • Probabilité « Bleu » 80 %
  • Probabilité « Gris » 10 %
  • Probabilité « Rouge » 5 %

La Temperature ajuste la façon dont l’IA choisit parmi ces options.

Valeurs de Temperature

La Temperature va généralement de 0 à 2 (ou 0 à 1, selon la plateforme) :

Temperature = 0 (la plus conservatrice)

  • L’IA choisit toujours la réponse avec la probabilité la plus élevée
  • Réponses très stables et prévisibles
  • Même question → réponse presque identique à chaque fois
  • Idéal pour : questions factuelles, génération de code, analyse de données

Temperature = 1 (équilibrée)

  • L’IA choisit aléatoirement en fonction des probabilités
  • Les réponses varient un peu mais restent raisonnables
  • Valeur par défaut sur la plupart des plateformes
  • Idéal pour : conversation quotidienne, usage général

Temperature = 2 (la plus agressive)

  • L’IA essaie de nombreuses possibilités
  • Réponses très diverses et créatives
  • Peut être inexacte ou même absurde
  • Idéal pour : écriture créative, brainstorming, travail artistique

Un exemple pratique

Question : Nommez mon café

Temperature = 0 :

  • « Starbucks Coffee » (la réponse la plus courante, la plus sûre)
  • Presque la même à chaque fois

Temperature = 1 :

  • « Morning Light Café »
  • « Aroma Time »
  • « Bean & Cozy »
  • Varie, mais tous raisonnables

Temperature = 2 :

  • « Quantum Coffee Dimension »
  • « Space‑Time Foam Lab »
  • « Cosmic Latte Terminal »
  • Très créatif, mais peut-être trop étrange

Quand ajuster la Temperature

Temperature plus basse (0–0,5) :

  • Écrire du code, déboguer
  • Analyse de données, problèmes mathématiques
  • Traduction, résumé
  • Toute tâche nécessitant de la précision

Temperature plus élevée (1,5–2) :

  • Écrire des romans, de la poésie
  • Nommer des choses, créer des slogans
  • Brainstorming
  • Toute tâche nécessitant de la créativité

Différents modèles listent leurs temperatures recommandées sur leurs sites officiels. Par exemple, le site de DeepSeek indique :

Scénario Temperature
Génération de code / résolution de problèmes mathématiques 0,0
Extraction / analyse de données 1,0
Conversation générale 1,3
Traduction 1,3
Écriture créative / poésie 1,5

Pouvez-vous l’ajuster dans la version web ?

  • La plupart des versions web ne permettent pas un réglage direct
  • Mais l’API vous donne un contrôle précis

Longueur du contexte

Qu’est-ce que la longueur du contexte ?

Longueur du contexte = Quantité de contenu que l’IA peut « mémoriser » à la fois

Contrairement aux humains, l’IA n’a pas de mémoire à long terme. Dans chaque conversation, l’IA ne peut se souvenir que d’une quantité limitée de contenu. Cette limite s’appelle la longueur du contexte, mesurée en tokens.

Pourquoi l’IA « oublie »-t-elle ?

Vous avez peut-être déjà vécu cela :

  • Vous discutez avec l’IA pendant longtemps
  • Soudain, l’IA ne se souvient plus de ce qui a été dit au début
  • Elle semble avoir une amnésie

Raison : Vous avez dépassé la limite de longueur du contexte.

Exemple :

  • Longueur du contexte de GPT-5.2 = 128 000 tokens
  • Vous et l’IA avez 50 tours de conversation, utilisant 130 000 tokens au total
  • Au-delà de la limite, l’IA « oublie » les parties les plus anciennes

Impact pratique de la longueur du contexte

1. Affecte la durée de la conversation

  • Contexte court : seulement quelques dizaines de tours
  • Contexte long : des centaines de tours

2. Affecte le traitement des documents

  • Contexte court : seulement des documents courts
  • Contexte long : des livres entiers

3. Affecte le coût

  • Contexte plus long → traitement plus lent
  • Plus de tokens → coût plus élevé

Comment gérer les limites de contexte

Méthode 1 : Effacer régulièrement la conversation

  • Sauvegarder les informations importantes
  • Démarrer une nouvelle conversation
  • Redonner le contexte à l’IA

Méthode 2 : Résumer l’historique de la conversation

  • Demander à l’IA de résumer le contenu précédent
  • Utiliser ce résumé comme point de départ d’une nouvelle conversation
  • Économise des tokens

Méthode 3 : Choisir un modèle avec un grand contexte

  • Pour les longs documents : utilisez Gemini 3 Pro
  • Pour les longues conversations : utilisez Claude Sonnet 4.5

Autres concepts importants

Max Tokens

Max Tokens = Limite la longueur maximale d’une seule réponse de l’IA

  • Définir Max Tokens = 100 : l’IA répond avec au plus 100 tokens
  • Définir Max Tokens = 2000 : l’IA répond avec au plus 2000 tokens

Pourquoi limiter ?

  • Contrôler le coût (les tokens de sortie sont plus chers)
  • Éviter des réponses trop verbeuses
  • Certains scénarios ne nécessitent que des réponses courtes

Top P (Nucleus Sampling)

Top P = Une autre façon de contrôler le caractère aléatoire

Similaire à la Temperature, mais fonctionne différemment :

  • Top P = 0,1 : ne considère que les 10 % d’options les plus probables
  • Top P = 0,9 : considère les 90 % d’options les plus probables

Généralement :

  • Ajustez soit la Temperature, soit le Top P – un seul suffit
  • Dans la plupart des cas, la Temperature est plus intuitive

Frequency Penalty et Presence Penalty

Utilisés pour réduire la répétition

  • Frequency Penalty : pénalise les mots fréquemment utilisés, réduisant la répétition du même mot
  • Presence Penalty : pénalise les mots déjà apparus, encourageant l’IA à introduire de nouveaux sujets

Plage : -2,0 à 2,0

  • Valeurs positives : réduisent la répétition
  • Valeurs négatives : permettent plus de répétition
  • 0 : aucune intervention

Résumé : Comment utiliser ces concepts ?

Utilisation quotidienne (version web)

Si vous utilisez uniquement la version web, vous n’avez pas à vous soucier de ces paramètres – les valeurs par défaut fonctionnent très bien.

Mais comprendre ces concepts vous aide à :

  • Comprendre pourquoi l’IA « oublie » parfois les parties antérieures de la conversation (limite de contexte)
  • Comprendre pourquoi les utilisateurs de l’API peuvent faire des choses que vous ne pouvez pas faire (contrôle des paramètres)
  • Vous préparer à utiliser l’API à l’avenir

Lors de l’utilisation de l’API

Si vous décidez d’utiliser l’API, ces paramètres deviennent très importants :

Paramètres de base (à chaque fois) :

  • model : choisir le modèle (par exemple gpt-5.2, claude-sonnet-4-5)
  • max_tokens : limiter la longueur de la réponse

Ajustez selon vos besoins :

  • temperature : 0–0,5 pour les tâches factuelles, 1–2 pour les tâches créatives
  • top_p : généralement correct avec la valeur par défaut
  • frequency_penalty : si l’IA se répète trop, réglez-le sur 0,5–1

Optimisation des coûts :

  • Utilisez la mise en cache pour économiser de l’argent
  • Contrôlez max_tokens pour éviter le gaspillage
  • Choisissez le bon modèle (vous n’avez pas toujours besoin du plus cher)
  • N’oubliez pas que différents modèles définissent les tokens différemment