Vous avez peut-être remarqué que de nombreux utilisateurs expérimentés parlent d’API, de Token, de Temperature et d’autres termes qui semblent techniques et déroutants. Ce chapitre explique ces concepts fondamentaux en langage simple. Les comprendre vous aidera à vraiment saisir le fonctionnement de l’IA et à l’utiliser plus efficacement.
Qu’est-ce qu’une API ?
L’API en termes simples
API = Interface de Programmation Applicative (Application Programming Interface)
Cette définition semble technique, alors reformulons-la différemment.
Imaginez l’IA comme un restaurant :
- Version web = Vous mangez sur place au restaurant
- Belle décoration (interface web)
- Serveurs (boutons, champs de saisie)
- Vous commandez, le chef cuisine, le serveur apporte
- API = Vous commandez à emporter
- Pas de décoration, vous parlez directement à la cuisine
- Pas de serveur, vous parlez directement au chef
- Vous dites ce que vous voulez, le chef le prépare et vous le donne
Différence clé :
- Version web : a une interface, pratique pour les humains
- API : pas d’interface, pratique pour les programmes
Pourquoi utiliser une API ?
Si la version web est si pratique, pourquoi se donner la peine d’utiliser une API ?
Raison 1 : Automatisation
Supposons que vous ayez besoin que l’IA traite 1 000 documents et rédige 1 000 résumés :
- Version web : Vous copiez-collez 1 000 fois et cliquez sur envoyer 1 000 fois
- API : Écrivez un script qui traite tout automatiquement pendant que vous buvez un café
Raison 2 : Intégration dans vos propres applications
Vous voulez créer un bot de réponse automatique, un générateur de contenu ou un agent de service client intelligent :
- Version web : Impossible
- API : Vous pouvez intégrer l’IA directement dans vos propres programmes
Raison 3 : Coût réduit
- Abonnement web : ChatGPT Plus 20 $/mois, Claude Pro 20 $/mois
- API à l’utilisation : Payez uniquement ce que vous utilisez ; une utilisation légère peut coûter seulement quelques dollars par mois
Raison 4 : Plus de flexibilité
- Paramètres fins de l’IA (Temperature, longueur maximale, etc.)
- Traitement par lots
- Formats d’entrée/sortie personnalisés
À quoi ressemble un appel API ?
Voici un exemple simple (ne vous inquiétez pas s’il vous semble inconnu – nous le verrons en détail plus tard) :
# Call the latest GPT-5.2 API with Python
response = openai.chat.completions.create(
model="gpt-5.2",
messages=[
{"role": "user", "content": "Hello,Introduce yourself"}
]
)
print(response.choices[0].message.content)
Juste quelques lignes de code, et l’IA répond à votre question – pas besoin de navigateur.
Identifiants officiels des modèles API au 30 janvier 2026 :
- OpenAI :
gpt-5.2,gpt-5.2-chat-latest,gpt-5.2-pro - Anthropic Claude :
claude-opus-4-5,claude-sonnet-4-5 - Google Gemini :
gemini-3-pro-preview,gemini-3-flash-preview
Comparaison version web vs API
| Aspect | Version web | API |
|---|---|---|
| Utilisation | Cliquer dans un navigateur | Écrire du code pour l’appeler |
| Courbe d’apprentissage | Faible, tout le monde peut l’utiliser | Élevée, nécessite des notions de programmation |
| Idéal pour | Chat quotidien, rédaction d’articles | Automatisation, traitement par lots, intégration d’applications |
| Coût | Abonnement mensuel (20 $/mois) | Paiement à l’utilisation (payez ce que vous utilisez) |
| Flexibilité | Limitée par les fonctionnalités web | Hautement personnalisable |
| Vitesse | Moyenne | Généralement plus rapide (pas de rendu d’interface) |
Qu’est-ce qu’un Token ?
Le concept de Token
Token = La plus petite unité de texte que l’IA comprend
Contrairement aux humains, qui lisent directement les mots et les phrases, l’IA doit décomposer le texte en petits morceaux. Chaque morceau s’appelle un token.
Exemples :
Chinois :
- « 你好 » ≈ 1–2 tokens
- « 今天天气不错 » ≈ 4–8 tokens, selon le modèle
Anglais :
- « Hello » = 1 token
- « How are you today? » ≈ 5 tokens
Règles empiriques simples :
- Anglais : 1 mot ≈ 1 token (environ 4 caractères)
- Chinois : 1 caractère ≈ 0,5–2 tokens (selon le modèle d’IA)
- Chiffres, ponctuation : généralement 1 symbole = 1 token
Découverte importante : différents modèles d’IA définissent les tokens différemment !
Voici un secret peu connu : Le même texte peut avoir un nombre de tokens complètement différent selon les modèles d’IA !
Pourquoi ? Parce que chaque entreprise d’IA a son propre tokenizer, et ils divisent le texte différemment.
Exemple réel :
La même phrase : « AI is revolutionizing market research. »
- GPT-3 : 11 tokens
- GPT-3.5 et GPT-4 : 9 tokens
- GPT-4o et GPT-5.2 : 8 tokens
Vous voyez ? La même phrase diffère de 3 tokens selon les modèles !
Autre exemple en chinois :
La phrase « 人工智能正在改变世界 » (« L’intelligence artificielle change le monde ») :
- GPT-4o : peut-être 10 tokens
- Claude Sonnet 4.5 : peut-être 12 tokens
- Gemini 3 : peut-être 8 tokens
Pourquoi cette différence ?
Chaque entreprise utilise une méthode de tokenisation différente lors de l’entraînement de ses modèles :
- OpenAI (série GPT) : utilise BPE (Byte-Pair Encoding)
- Anthropic (Claude) : utilise son propre tokenizer optimisé
- Google (Gemini) : la documentation de Gemini dit « 1 token ≈ 4 caractères »
- DeepSeek : un tokenizer optimisé pour le chinois
Comment cela vous affecte-t-il ?
1. Les comparaisons de coûts ne sont pas directes
Supposons que vous ayez 1 000 caractères chinois :
- Avec GPT-5.2, cela pourrait être 1 500 tokens
- Avec Claude Sonnet 4.5, cela pourrait être 1 600 tokens
- Avec Gemini 3, cela pourrait être 1 400 tokens
Même si chacun dit « entrée X $/1M de tokens », le coût réel peut différer de 10 à 20 % !
2. Vous ne pouvez pas utiliser le même calculateur de tokens pour tous les modèles
- Le tokenizer officiel d’OpenAI (https://platform.openai.com/tokenizer) ne fonctionne que pour la série GPT
- Les tokens Claude nécessitent la méthode de calcul d’Anthropic
- Les tokens Gemini nécessitent la méthode de calcul de Google
3. Les langues non anglaises montrent des différences encore plus grandes
Pour le chinois, le japonais, l’arabe et d’autres langues non anglaises, l’efficacité des tokens peut varier de 30 à 40 %. La plupart des modèles d’IA sont principalement entraînés sur l’anglais, donc leurs tokenizers sont mieux optimisés pour l’anglais.
Pourquoi le Token est important
1. Le token détermine le coût
La tarification de l’API est basée sur les tokens, pas sur le nombre de caractères.
Exemple (prix officiels au 30 janvier 2026) :
- GPT-5.2 : entrée 1,75 $/1M tokens, sortie 14 $/1M tokens
- Claude Opus 4.5 : entrée 5 $/1M tokens, sortie 25 $/1M tokens
- Gemini 3 Flash : entrée 0,50 $/1M tokens, sortie 3 $/1M tokens (niveau standard)
Vous envoyez 500 tokens et l’IA répond avec 1 000 tokens :
- Avec GPT-5.2 : (500 × 1,75 + 1000 × 14) / 1 000 000 = 0,01488 $ (environ 1,5 centime USD)
- Avec Gemini 3 Flash : (500 × 0,50 + 1000 × 3) / 1 000 000 = 0,00325 $ (environ 0,3 centime USD)
2. Le token détermine la longueur du contexte
Chaque modèle d’IA a une limite de tokens :
- GPT-5.2 (API) : jusqu’à 400 000 tokens
- GPT-5.2-chat-latest : jusqu’à 128 000 tokens
- Claude Sonnet 4.5 : jusqu’à 200 000 tokens
- Gemini 3 Pro Preview : jusqu’à 1 048 576 tokens (environ 1M)
Cette limite inclut : votre prompt + la réponse de l’IA + l’historique de la conversation.
Que se passe-t-il si vous dépassez la limite ?
- L’IA « oublie » les parties les plus anciennes de la conversation
- Ou elle génère une erreur et ne continue pas
Comment compter les tokens
Méthode 1 : Estimation (rapide mais pas précise)
- Chinois : nombre de caractères × 1,5
- Anglais : nombre de mots × 1,3
Méthode 2 : Utiliser l’outil en ligne correspondant
- OpenAI (série GPT) : https://platform.openai.com/tokenizer
- Compteur de tokens général : https://token-counter.app (prend en charge plusieurs modèles pour comparaison)
- Gemini : utilisez la méthode
count_tokensdans Google AI Studio
Rappel important : Lors de l’estimation entre modèles, utilisez toujours l’outil spécifique à ce modèle. N’utilisez pas le nombre de tokens de GPT pour estimer le coût de Claude !
Tokens d’entrée, tokens de sortie, tokens en cache
La facturation de l’API divise les tokens en trois types :
1. Tokens d’entrée (Input Tokens)
- Le contenu que vous envoyez à l’IA
- Inclut votre prompt, les documents téléchargés
- Relativement bon marché
2. Tokens de sortie (Output Tokens)
- Le contenu que l’IA vous renvoie
- Inclut la réponse de l’IA
- Généralement 2 à 10 fois plus chers que les tokens d’entrée
Pourquoi la sortie est-elle plus chère ? Parce que l’IA « réfléchit » (génère du texte) en utilisant plus de ressources de calcul que pour « lire » (traiter l’entrée).
Exemple (GPT-5.2) :
- Entrée : 1,75 $/1M tokens
- Sortie : 14 $/1M tokens (8 fois le prix d’entrée !)
3. Tokens en cache (Cached Tokens)
C’est une astuce pour économiser de l’argent !
Si vous utilisez le même prompt à plusieurs reprises, l’IA peut le mettre en cache et éviter de le retraiter la prochaine fois.
Exemple : Vous avez un prompt de 1 000 tokens et posez 10 questions :
- Sans cache : chaque fois traite 1 000 tokens → total 10 000 tokens
- Avec cache : première fois 1 000 tokens (prix normal), les 9 fois suivantes 1 000 tokens (prix du cache, 90 % moins cher)
Modèles prenant en charge la mise en cache :
- Anthropic Claude (Prompt Caching)
- OpenAI GPT-5.2 (prend en charge la mise en cache, 90 % de réduction)
Règles de facturation du cache :
- Première lecture : prix normal
- Cache hit : prix réduit de 50 à 90 %
- Validité du cache : généralement 5 à 10 minutes
Qu’est-ce que la Temperature ?
Le concept de Temperature
Temperature = Contrôle le « caractère aléatoire » ou la « créativité » des réponses de l’IA
Rappelez-vous que l’IA « calcule essentiellement des probabilités ». Lorsque vous demandez « De quelle couleur est le ciel ? », l’IA voit :
- Probabilité « Bleu » 80 %
- Probabilité « Gris » 10 %
- Probabilité « Rouge » 5 %
La Temperature ajuste la façon dont l’IA choisit parmi ces options.
Valeurs de Temperature
La Temperature va généralement de 0 à 2 (ou 0 à 1, selon la plateforme) :
Temperature = 0 (la plus conservatrice)
- L’IA choisit toujours la réponse avec la probabilité la plus élevée
- Réponses très stables et prévisibles
- Même question → réponse presque identique à chaque fois
- Idéal pour : questions factuelles, génération de code, analyse de données
Temperature = 1 (équilibrée)
- L’IA choisit aléatoirement en fonction des probabilités
- Les réponses varient un peu mais restent raisonnables
- Valeur par défaut sur la plupart des plateformes
- Idéal pour : conversation quotidienne, usage général
Temperature = 2 (la plus agressive)
- L’IA essaie de nombreuses possibilités
- Réponses très diverses et créatives
- Peut être inexacte ou même absurde
- Idéal pour : écriture créative, brainstorming, travail artistique
Un exemple pratique
Question : Nommez mon café
Temperature = 0 :
- « Starbucks Coffee » (la réponse la plus courante, la plus sûre)
- Presque la même à chaque fois
Temperature = 1 :
- « Morning Light Café »
- « Aroma Time »
- « Bean & Cozy »
- Varie, mais tous raisonnables
Temperature = 2 :
- « Quantum Coffee Dimension »
- « Space‑Time Foam Lab »
- « Cosmic Latte Terminal »
- Très créatif, mais peut-être trop étrange
Quand ajuster la Temperature
Temperature plus basse (0–0,5) :
- Écrire du code, déboguer
- Analyse de données, problèmes mathématiques
- Traduction, résumé
- Toute tâche nécessitant de la précision
Temperature plus élevée (1,5–2) :
- Écrire des romans, de la poésie
- Nommer des choses, créer des slogans
- Brainstorming
- Toute tâche nécessitant de la créativité
Différents modèles listent leurs temperatures recommandées sur leurs sites officiels. Par exemple, le site de DeepSeek indique :
| Scénario | Temperature |
|---|---|
| Génération de code / résolution de problèmes mathématiques | 0,0 |
| Extraction / analyse de données | 1,0 |
| Conversation générale | 1,3 |
| Traduction | 1,3 |
| Écriture créative / poésie | 1,5 |
Pouvez-vous l’ajuster dans la version web ?
- La plupart des versions web ne permettent pas un réglage direct
- Mais l’API vous donne un contrôle précis
Longueur du contexte
Qu’est-ce que la longueur du contexte ?
Longueur du contexte = Quantité de contenu que l’IA peut « mémoriser » à la fois
Contrairement aux humains, l’IA n’a pas de mémoire à long terme. Dans chaque conversation, l’IA ne peut se souvenir que d’une quantité limitée de contenu. Cette limite s’appelle la longueur du contexte, mesurée en tokens.
Pourquoi l’IA « oublie »-t-elle ?
Vous avez peut-être déjà vécu cela :
- Vous discutez avec l’IA pendant longtemps
- Soudain, l’IA ne se souvient plus de ce qui a été dit au début
- Elle semble avoir une amnésie
Raison : Vous avez dépassé la limite de longueur du contexte.
Exemple :
- Longueur du contexte de GPT-5.2 = 128 000 tokens
- Vous et l’IA avez 50 tours de conversation, utilisant 130 000 tokens au total
- Au-delà de la limite, l’IA « oublie » les parties les plus anciennes
Impact pratique de la longueur du contexte
1. Affecte la durée de la conversation
- Contexte court : seulement quelques dizaines de tours
- Contexte long : des centaines de tours
2. Affecte le traitement des documents
- Contexte court : seulement des documents courts
- Contexte long : des livres entiers
3. Affecte le coût
- Contexte plus long → traitement plus lent
- Plus de tokens → coût plus élevé
Comment gérer les limites de contexte
Méthode 1 : Effacer régulièrement la conversation
- Sauvegarder les informations importantes
- Démarrer une nouvelle conversation
- Redonner le contexte à l’IA
Méthode 2 : Résumer l’historique de la conversation
- Demander à l’IA de résumer le contenu précédent
- Utiliser ce résumé comme point de départ d’une nouvelle conversation
- Économise des tokens
Méthode 3 : Choisir un modèle avec un grand contexte
- Pour les longs documents : utilisez Gemini 3 Pro
- Pour les longues conversations : utilisez Claude Sonnet 4.5
Autres concepts importants
Max Tokens
Max Tokens = Limite la longueur maximale d’une seule réponse de l’IA
- Définir Max Tokens = 100 : l’IA répond avec au plus 100 tokens
- Définir Max Tokens = 2000 : l’IA répond avec au plus 2000 tokens
Pourquoi limiter ?
- Contrôler le coût (les tokens de sortie sont plus chers)
- Éviter des réponses trop verbeuses
- Certains scénarios ne nécessitent que des réponses courtes
Top P (Nucleus Sampling)
Top P = Une autre façon de contrôler le caractère aléatoire
Similaire à la Temperature, mais fonctionne différemment :
- Top P = 0,1 : ne considère que les 10 % d’options les plus probables
- Top P = 0,9 : considère les 90 % d’options les plus probables
Généralement :
- Ajustez soit la Temperature, soit le Top P – un seul suffit
- Dans la plupart des cas, la Temperature est plus intuitive
Frequency Penalty et Presence Penalty
Utilisés pour réduire la répétition
- Frequency Penalty : pénalise les mots fréquemment utilisés, réduisant la répétition du même mot
- Presence Penalty : pénalise les mots déjà apparus, encourageant l’IA à introduire de nouveaux sujets
Plage : -2,0 à 2,0
- Valeurs positives : réduisent la répétition
- Valeurs négatives : permettent plus de répétition
- 0 : aucune intervention
Résumé : Comment utiliser ces concepts ?
Utilisation quotidienne (version web)
Si vous utilisez uniquement la version web, vous n’avez pas à vous soucier de ces paramètres – les valeurs par défaut fonctionnent très bien.
Mais comprendre ces concepts vous aide à :
- Comprendre pourquoi l’IA « oublie » parfois les parties antérieures de la conversation (limite de contexte)
- Comprendre pourquoi les utilisateurs de l’API peuvent faire des choses que vous ne pouvez pas faire (contrôle des paramètres)
- Vous préparer à utiliser l’API à l’avenir
Lors de l’utilisation de l’API
Si vous décidez d’utiliser l’API, ces paramètres deviennent très importants :
Paramètres de base (à chaque fois) :
model: choisir le modèle (par exemplegpt-5.2,claude-sonnet-4-5)max_tokens: limiter la longueur de la réponse
Ajustez selon vos besoins :
temperature: 0–0,5 pour les tâches factuelles, 1–2 pour les tâches créativestop_p: généralement correct avec la valeur par défautfrequency_penalty: si l’IA se répète trop, réglez-le sur 0,5–1
Optimisation des coûts :
- Utilisez la mise en cache pour économiser de l’argent
- Contrôlez
max_tokenspour éviter le gaspillage - Choisissez le bon modèle (vous n’avez pas toujours besoin du plus cher)
- N’oubliez pas que différents modèles définissent les tokens différemment