API und Token Grundlagen erklärt

Dir ist vielleicht aufgefallen, dass viele erfahrene Nutzer über API, Token, Temperature und andere Begriffe sprechen, die technisch klingen und verwirrend sein können. Dieses Kapitel erklärt diese Kernkonzepte in einfacher Sprache. Wenn du sie verstehst, kannst du besser nachvollziehen, wie KI funktioniert und sie effektiver einsetzen.

Was ist eine API?

API einfach erklärt

API = Application Programming Interface (Schnittstelle zur Anwendungsprogrammierung)

Diese Definition klingt technisch, also lass es uns anders formulieren.

Stell dir KI wie ein Restaurant vor:

Web-Version = Du isst im Restaurant
- Schöne Einrichtung (Web-Oberfläche)
- Kellner (Buttons, Eingabefelder)
- Du bestellst, der Koch kocht, der Kellner serviert
API = Du bestellst zum Mitnehmen
- Keine Einrichtung, du sprichst direkt mit der Küche
- Kein Kellner, du sprichst direkt mit dem Koch
- Du sagst, was du willst, der Koch bereitet es zu und gibt es dir

Hauptunterschied:

Web-Version: hat eine Oberfläche, bequem für Menschen
API: keine Oberfläche, bequem für Programme

Warum API nutzen?

Wenn die Web-Version so bequem ist, warum dann die Mühe mit der API?

Grund 1: Automatisierung

Angenommen, du möchtest, dass KI 1.000 Dokumente verarbeitet und 1.000 Zusammenfassungen schreibt:

Web-Version: Du kopierst und fügst 1.000 Mal ein und klickst 1.000 Mal auf „Senden“
API: Du schreibst ein Skript, das alles automatisch erledigt, während du einen Kaffee trinkst

Grund 2: Integration in eigene Apps

Du möchtest einen Auto-Antwort-Bot, einen Content-Generator oder einen intelligenten Kundenservice-Agenten bauen:

Web-Version: Nicht möglich
API: Du kannst KI direkt in deine eigenen Programme einbetten

Grund 3: Geringere Kosten

Web-Abo: ChatGPT Plus 20 $/Monat, Claude Pro 20 $/Monat
API Pay-as-you-go: Du zahlst nur für das, was du nutzt; bei geringer Nutzung können es nur ein paar Dollar pro Monat sein

Grund 4: Mehr Flexibilität

Feinabstimmung der KI-Parameter (Temperature, maximale Länge usw.)
Stapelverarbeitung
Benutzerdefinierte Ein-/Ausgabeformate

Wie sieht ein API-Aufruf aus?

Hier ist ein einfaches Beispiel (keine Sorge, wenn es dir unbekannt vorkommt – wir werden es später im Detail behandeln):

# Call the latest GPT-5.2 API with Python
response = openai.chat.completions.create(
    model="gpt-5.2",
    messages=[
        {"role": "user", "content": "Hello，Introduce yourself"}
    ]
)
print(response.choices[0].message.content)

Nur ein paar Zeilen Code, und die KI beantwortet deine Frage – kein Browser nötig.

Offizielle API-Modellkennungen (Stand 30.01.2026):

OpenAI: gpt-5.2, gpt-5.2-chat-latest, gpt-5.2-pro
Anthropic Claude: claude-opus-4-5, claude-sonnet-4-5
Google Gemini: gemini-3-pro-preview, gemini-3-flash-preview

Web-Version vs. API im Vergleich

Aspekt	Web-Version	API
Nutzung	Klicken im Browser	Code schreiben und aufrufen
Lernkurve	Niedrig, jeder kann es nutzen	Hoch, erfordert Programmierkenntnisse
Am besten geeignet für	Tägliches Chatten, Artikel schreiben	Automatisierung, Stapelverarbeitung, App-Integration
Kosten	Monatsabo (20 $/Monat)	Pay-as-you-go (Zahlung pro Nutzung)
Flexibilität	Eingeschränkt durch Web-Funktionen	Hochgradig anpassbar
Geschwindigkeit	Durchschnittlich	Meist schneller (keine UI-Rendering)

Was ist ein Token?

Das Konzept des Tokens

Token = Die kleinste Texteinheit, die KI versteht

Im Gegensatz zu Menschen, die Wörter und Sätze direkt lesen, muss KI Text in kleine Stücke zerlegen. Jedes Stück wird als Token bezeichnet.

Beispiele:

Chinesisch:

„你好“ ≈ 1–2 Tokens
„今天天气不错“ ≈ 4–8 Tokens, je nach Modell

Englisch:

„Hello“ = 1 Token
„How are you today?“ ≈ 5 Tokens

Einfache Faustregeln:

Englisch: 1 Wort ≈ 1 Token (ca. 4 Zeichen)
Chinesisch: 1 Zeichen ≈ 0,5–2 Tokens (abhängig vom KI-Modell)
Zahlen, Satzzeichen: normalerweise 1 Symbol = 1 Token

Wichtige Erkenntnis: Verschiedene KI-Modelle definieren Tokens unterschiedlich!

Hier ist ein wenig bekanntes Geheimnis: Derselbe Text kann in verschiedenen KI-Modellen eine völlig unterschiedliche Token-Anzahl haben!

Warum? Weil jedes KI-Unternehmen seinen eigenen Tokenizer hat und Text anders aufteilt.

Reales Beispiel:

Derselbe Satz: „AI is revolutionizing market research.“

GPT-3: 11 Tokens
GPT-3.5 und GPT-4: 9 Tokens
GPT-4o und GPT-5.2: 8 Tokens

Siehst du? Derselbe Satz unterscheidet sich um 3 Tokens zwischen den Modellen!

Ein weiteres chinesisches Beispiel:

Der Satz „人工智能正在改变世界“ („Künstliche Intelligenz verändert die Welt“):

GPT-4o: vielleicht 10 Tokens
Claude Sonnet 4.5: vielleicht 12 Tokens
Gemini 3: vielleicht 8 Tokens

Warum der Unterschied?

Jedes Unternehmen verwendet beim Training seiner Modelle eine andere Tokenisierungsmethode:

OpenAI (GPT-Serie): verwendet BPE (Byte-Pair-Encoding)
Anthropic (Claude): verwendet einen eigenen optimierten Tokenizer
Google (Gemini): Geminis Dokumentation sagt „1 Token ≈ 4 Zeichen“
DeepSeek: ein für Chinesisch optimierter Tokenizer

Wie wirkt sich das auf dich aus?

1. Kostenvergleiche sind nicht direkt

Angenommen, du hast 1.000 chinesische Zeichen:

Mit GPT-5.2 könnten es 1.500 Tokens sein
Mit Claude Sonnet 4.5 könnten es 1.600 Tokens sein
Mit Gemini 3 könnten es 1.400 Tokens sein

Auch wenn jedes Modell „Eingabe X $/1M Tokens“ angibt, können die tatsächlichen Kosten um 10–20 % abweichen!

2. Du kannst nicht denselben Token-Rechner für alle Modelle verwenden

OpenAIs offizieller Tokenizer (https://platform.openai.com/tokenizer) funktioniert nur für die GPT-Serie
Claude-Tokens benötigen die Berechnungsmethode von Anthropic
Gemini-Tokens benötigen die Berechnungsmethode von Google

3. Nicht-englische Sprachen zeigen noch größere Unterschiede

Bei Chinesisch, Japanisch, Arabisch und anderen nicht-englischen Sprachen kann die Token-Effizienz um 30–40 % variieren. Die meisten KI-Modelle werden hauptsächlich mit Englisch trainiert, daher sind ihre Tokenizer besser für Englisch optimiert.

Warum Tokens wichtig sind

1. Tokens bestimmen die Kosten

Die API-Abrechnung basiert auf Tokens, nicht auf der Zeichenanzahl.

Beispiel (offizielle Preise Stand 30.01.2026):

GPT-5.2: Eingabe 1,75 $/1M Tokens, Ausgabe 14 $/1M Tokens
Claude Opus 4.5: Eingabe 5 $/1M Tokens, Ausgabe 25 $/1M Tokens
Gemini 3 Flash: Eingabe 0,50 $/1M Tokens, Ausgabe 3 $/1M Tokens (Standard-Tarif)

Du sendest 500 Tokens und die KI antwortet mit 1.000 Tokens:

Mit GPT-5.2: (500 × 1,75 + 1000 × 14) / 1.000.000 = 0,01488 $ (ca. 1,5 US-Cent)
Mit Gemini 3 Flash: (500 × 0,50 + 1000 × 3) / 1.000.000 = 0,00325 $ (ca. 0,3 US-Cent)

2. Tokens bestimmen die Kontextlänge

Jedes KI-Modell hat ein Token-Limit:

GPT-5.2 (API): bis zu 400.000 Tokens
GPT-5.2-chat-latest: bis zu 128.000 Tokens
Claude Sonnet 4.5: bis zu 200.000 Tokens
Gemini 3 Pro Preview: bis zu 1.048.576 Tokens (ca. 1M)

Dieses Limit umfasst: deinen Prompt + die Antwort der KI + den Gesprächsverlauf.

Was passiert, wenn du das Limit überschreitest?

Die KI „vergisst“ die frühesten Teile des Gesprächs
Oder sie gibt einen Fehler aus und macht nicht weiter

Wie man Tokens zählt

Methode 1: Schätzen (schnell, aber nicht präzise)

Chinesisch: Anzahl der Zeichen × 1,5
Englisch: Anzahl der Wörter × 1,3

Methode 2: Das entsprechende Online-Tool verwenden

OpenAI (GPT-Serie): https://platform.openai.com/tokenizer
Allgemeiner Token-Zähler: https://token-counter.app (unterstützt mehrere Modelle zum Vergleich)
Gemini: Verwende die Methode count_tokens in Google AI Studio

Wichtiger Hinweis: Wenn du modelübergreifend schätzt, verwende immer das für das jeweilige Modell spezifische Tool. Verwende nicht die Token-Anzahl von GPT, um die Kosten von Claude zu schätzen!

Eingabe-Tokens, Ausgabe-Tokens, gecachte Tokens

Die API-Abrechnung unterteilt Tokens in drei Typen:

1. Eingabe-Tokens (Input Tokens)

Der Inhalt, den du an die KI sendest
Beinhaltet deinen Prompt, hochgeladene Dokumente
Relativ günstig

2. Ausgabe-Tokens (Output Tokens)

Der Inhalt, den die KI an dich zurückgibt
Beinhaltet die Antwort der KI
Normalerweise 2–10 Mal teurer als Eingabe-Tokens

Warum ist die Ausgabe teurer? Weil die KI beim „Denken“ (Texterzeugung) mehr Rechenressourcen verbraucht als beim „Lesen“ (Eingabeverarbeitung).

Beispiel (GPT-5.2):

Eingabe: 1,75 $/1M Tokens
Ausgabe: 14 $/1M Tokens (8× der Eingabepreis!)

3. Gecachte Tokens (Cached Tokens)

Das ist ein Trick, um Kosten zu sparen!

Wenn du denselben Prompt wiederholt verwendest, kann die KI ihn zwischenspeichern und beim nächsten Mal nicht erneut verarbeiten.

Beispiel: Du hast einen 1.000-Token-Prompt und stellst 10 Fragen:

Ohne Caching: jedes Mal 1.000 Tokens verarbeitet → insgesamt 10.000 Tokens
Mit Caching: erstes Mal 1.000 Tokens (normaler Preis), die nächsten 9 Male 1.000 Tokens (Cache-Preis, 90 % günstiger)

Modelle, die Caching unterstützen:

Anthropic Claude (Prompt Caching)
OpenAI GPT-5.2 (unterstützt Caching, 90 % Rabatt)

Abrechnungsregeln für Caching:

Erstes Lesen: normaler Preis
Cache-Treffer: Preis um 50–90 % reduziert
Cache-Gültigkeit: normalerweise 5–10 Minuten

Was ist Temperature?

Das Konzept von Temperature

Temperature = Steuert die „Zufälligkeit“ oder „Kreativität“ der KI-Antworten

Zur Erinnerung: KI berechnet im Wesentlichen „Wahrscheinlichkeiten“. Wenn du fragst „Welche Farbe hat der Himmel?“, sieht die KI:

„Blau“ Wahrscheinlichkeit 80 %
„Grau“ Wahrscheinlichkeit 10 %
„Rot“ Wahrscheinlichkeit 5 %

Temperature passt an, wie die KI zwischen diesen Optionen wählt.

Temperature-Werte

Temperature liegt typischerweise zwischen 0 und 2 (oder 0 und 1, je nach Plattform):

Temperature = 0 (am konservativsten)

Die KI wählt immer die Antwort mit der höchsten Wahrscheinlichkeit
Sehr stabile, vorhersagbare Antworten
Gleiche Frage → fast identische Antwort jedes Mal
Am besten geeignet für: Faktenfragen, Code-Generierung, Datenanalyse

Temperature = 1 (ausgewogen)

Die KI wählt zufällig entsprechend den Wahrscheinlichkeiten
Antworten variieren etwas, bleiben aber vernünftig
Standardeinstellung der meisten Plattformen
Am besten geeignet für: alltägliche Konversation, allgemeine Nutzung

Temperature = 2 (am aggressivsten)

Die KI probiert viele Möglichkeiten aus
Sehr vielfältige, kreative Antworten
Kann ungenau oder sogar unsinnig sein
Am besten geeignet für: kreatives Schreiben, Brainstorming, künstlerische Arbeiten

Ein praktisches Beispiel

Frage: Gib meinem Café einen Namen

Temperature = 0:

„Starbucks Coffee“ (häufigste, sicherste Antwort)
Fast jedes Mal gleich

Temperature = 1:

„Morning Light Café“
„Aroma Time“
„Bean & Cozy“
Variiert, aber alle vernünftig

Temperature = 2:

„Quantum Coffee Dimension“
„Space-Time Foam Lab“
„Cosmic Latte Terminal“
Sehr kreativ, aber möglicherweise zu seltsam

Wann sollte man Temperature anpassen?

Niedrige Temperature (0–0,5):

Code schreiben, Debugging
Datenanalyse, Matheaufgaben
Übersetzung, Zusammenfassung
Jede Aufgabe, die Genauigkeit erfordert

Hohe Temperature (1,5–2):

Romane, Gedichte schreiben
Namensfindung, Slogans erstellen
Brainstorming
Jede Aufgabe, die Kreativität erfordert

Verschiedene Modelle listen ihre empfohlenen Temperaturen auf ihren offiziellen Websites auf. Zum Beispiel zeigt DeepSeeks Website:

Szenario	Temperature
Code-Generierung / Matheaufgaben lösen	0,0
Datenextraktion / -analyse	1,0
Allgemeine Konversation	1,3
Übersetzung	1,3
Kreatives Schreiben / Poesie	1,5

Kann man sie in der Web-Version anpassen?

Die meisten Web-Versionen erlauben keine direkte Anpassung
Aber die API gibt dir präzise Kontrolle

Kontextlänge

Was ist Kontextlänge?

Kontextlänge = Wie viel Inhalt die KI auf einmal „behalten“ kann

Im Gegensatz zu Menschen hat KI kein Langzeitgedächtnis. In jedem Gespräch kann sich die KI nur eine begrenzte Menge an Inhalt merken. Diese Grenze wird als Kontextlänge bezeichnet und in Tokens gemessen.

Warum „vergisst“ die KI?

Du hast das vielleicht schon erlebt:

Du chattest lange mit der KI
Plötzlich erinnert sich die KI nicht mehr an das, was am Anfang gesagt wurde
Es scheint, als hätte sie eine Gedächtnislücke

Grund: Du hast das Kontextlängen-Limit überschritten.

Beispiel:

GPT-5.2 Kontextlänge = 128.000 Tokens
Du und die KI haben 50 Gesprächsrunden, insgesamt 130.000 Tokens
Jenseits des Limits „vergisst“ die KI die frühesten Teile

Praktische Auswirkungen der Kontextlänge

1. Beeinflusst die Gesprächsdauer

Kurzer Kontext: nur ein paar Dutzend Runden
Langer Kontext: hunderte Runden

2. Beeinflusst die Dokumentenverarbeitung

Kurzer Kontext: nur kurze Dokumente
Langer Kontext: ganze Bücher

3. Beeinflusst die Kosten

Längerer Kontext → langsamere Verarbeitung
Mehr Tokens → höhere Kosten

Wie man mit Kontextlimits umgeht

Methode 1: Das Gespräch regelmäßig löschen

Wichtige Informationen speichern
Ein neues Gespräch beginnen
Der KI den Hintergrund erneut mitteilen

Methode 2: Den Gesprächsverlauf zusammenfassen

Die KI bitten, den vorherigen Inhalt zusammenzufassen
Diese Zusammenfassung als Start eines neuen Gesprächs verwenden
Spart Tokens

Methode 3: Ein Modell mit großem Kontext wählen

Für lange Dokumente: Gemini 3 Pro verwenden
Für lange Gespräche: Claude Sonnet 4.5 verwenden

Andere wichtige Konzepte

Max Tokens

Max Tokens = Begrenzt die maximale Länge einer einzelnen KI-Antwort

Max Tokens = 100: KI antwortet mit maximal 100 Tokens
Max Tokens = 2000: KI antwortet mit maximal 2000 Tokens

Warum begrenzen?

Kosten kontrollieren (Ausgabe-Tokens sind teurer)
Zu ausführliche Antworten vermeiden
Manche Szenarien erfordern nur kurze Antworten

Top P (Nucleus Sampling)

Top P = Eine andere Möglichkeit, die Zufälligkeit zu steuern

Ähnlich wie Temperature, funktioniert aber anders:

Top P = 0,1: berücksichtigt nur die oberen 10 % der wahrscheinlichsten Optionen
Top P = 0,9: berücksichtigt die oberen 90 % der wahrscheinlichsten Optionen

Normalerweise:

Entweder Temperature oder Top P anpassen – eines reicht aus
In den meisten Fällen ist Temperature intuitiver

Frequency Penalty und Presence Penalty

Wird verwendet, um Wiederholungen zu reduzieren

Frequency Penalty: bestraft häufig verwendete Wörter, reduziert Wiederholungen desselben Wortes
Presence Penalty: bestraft Wörter, die bereits vorgekommen sind, und ermutigt die KI, neue Themen einzuführen

Bereich: -2,0 bis 2,0

Positive Werte: reduzieren Wiederholungen
Negative Werte: erlauben mehr Wiederholungen
0: kein Eingriff

Zusammenfassung: Wie verwendet man diese Konzepte?

Tägliche Nutzung (Web-Version)

Wenn du nur die Web-Version nutzt, musst du dich um diese Parameter nicht kümmern – die Standardeinstellungen funktionieren gut.

Aber das Verständnis dieser Konzepte hilft dir:

Zu verstehen, warum KI manchmal frühere Teile des Gesprächs „vergisst“ (Kontextlimit)
Zu verstehen, warum API-Nutzer Dinge tun können, die du nicht kannst (Parametersteuerung)
Dich auf die zukünftige Nutzung der API vorzubereiten

Bei Verwendung der API

Wenn du dich entscheidest, die API zu nutzen, werden diese Parameter sehr wichtig:

Grundeinstellungen (jedes Mal):

model: Modell auswählen (z. B. gpt-5.2, claude-sonnet-4-5)
max_tokens: Antwortlänge begrenzen

Je nach Bedarf anpassen:

temperature: 0–0,5 für faktenbasierte Aufgaben, 1–2 für kreative Aufgaben
top_p: normalerweise in Ordnung bei Standardeinstellung
frequency_penalty: wenn die KI sich zu oft wiederholt, auf 0,5–1 setzen

Kostenoptimierung:

Caching verwenden, um Geld zu sparen
max_tokens kontrollieren, um Verschwendung zu vermeiden
Das richtige Modell wählen (du brauchst nicht immer das teuerste)
Denke daran, dass verschiedene Modelle Tokens unterschiedlich definieren