RL RanceLee Tutorials
← Zurück zu Tutorials

API und Token Grundlagen erklärt

Dir ist vielleicht aufgefallen, dass viele erfahrene Nutzer über API, Token, Temperature und andere Begriffe sprechen, die technisch klingen und verwirrend sein können. Dieses Kapitel erklärt diese Kernkonzepte in einfacher Sprache. Wenn du sie verstehst, kannst du besser nachvollziehen, wie KI funktioniert und sie effektiver einsetzen.


Was ist eine API?

API einfach erklärt

API = Application Programming Interface (Schnittstelle zur Anwendungsprogrammierung)

Diese Definition klingt technisch, also lass es uns anders formulieren.

Stell dir KI wie ein Restaurant vor:

  • Web-Version = Du isst im Restaurant
    • Schöne Einrichtung (Web-Oberfläche)
    • Kellner (Buttons, Eingabefelder)
    • Du bestellst, der Koch kocht, der Kellner serviert
  • API = Du bestellst zum Mitnehmen
    • Keine Einrichtung, du sprichst direkt mit der Küche
    • Kein Kellner, du sprichst direkt mit dem Koch
    • Du sagst, was du willst, der Koch bereitet es zu und gibt es dir

Hauptunterschied:

  • Web-Version: hat eine Oberfläche, bequem für Menschen
  • API: keine Oberfläche, bequem für Programme

Warum API nutzen?

Wenn die Web-Version so bequem ist, warum dann die Mühe mit der API?

Grund 1: Automatisierung

Angenommen, du möchtest, dass KI 1.000 Dokumente verarbeitet und 1.000 Zusammenfassungen schreibt:

  • Web-Version: Du kopierst und fügst 1.000 Mal ein und klickst 1.000 Mal auf „Senden“
  • API: Du schreibst ein Skript, das alles automatisch erledigt, während du einen Kaffee trinkst

Grund 2: Integration in eigene Apps

Du möchtest einen Auto-Antwort-Bot, einen Content-Generator oder einen intelligenten Kundenservice-Agenten bauen:

  • Web-Version: Nicht möglich
  • API: Du kannst KI direkt in deine eigenen Programme einbetten

Grund 3: Geringere Kosten

  • Web-Abo: ChatGPT Plus 20 $/Monat, Claude Pro 20 $/Monat
  • API Pay-as-you-go: Du zahlst nur für das, was du nutzt; bei geringer Nutzung können es nur ein paar Dollar pro Monat sein

Grund 4: Mehr Flexibilität

  • Feinabstimmung der KI-Parameter (Temperature, maximale Länge usw.)
  • Stapelverarbeitung
  • Benutzerdefinierte Ein-/Ausgabeformate

Wie sieht ein API-Aufruf aus?

Hier ist ein einfaches Beispiel (keine Sorge, wenn es dir unbekannt vorkommt – wir werden es später im Detail behandeln):

# Call the latest GPT-5.2 API with Python
response = openai.chat.completions.create(
    model="gpt-5.2",
    messages=[
        {"role": "user", "content": "Hello,Introduce yourself"}
    ]
)
print(response.choices[0].message.content)

Nur ein paar Zeilen Code, und die KI beantwortet deine Frage – kein Browser nötig.

Offizielle API-Modellkennungen (Stand 30.01.2026):

  • OpenAI: gpt-5.2, gpt-5.2-chat-latest, gpt-5.2-pro
  • Anthropic Claude: claude-opus-4-5, claude-sonnet-4-5
  • Google Gemini: gemini-3-pro-preview, gemini-3-flash-preview

Web-Version vs. API im Vergleich

Aspekt Web-Version API
Nutzung Klicken im Browser Code schreiben und aufrufen
Lernkurve Niedrig, jeder kann es nutzen Hoch, erfordert Programmierkenntnisse
Am besten geeignet für Tägliches Chatten, Artikel schreiben Automatisierung, Stapelverarbeitung, App-Integration
Kosten Monatsabo (20 $/Monat) Pay-as-you-go (Zahlung pro Nutzung)
Flexibilität Eingeschränkt durch Web-Funktionen Hochgradig anpassbar
Geschwindigkeit Durchschnittlich Meist schneller (keine UI-Rendering)

Was ist ein Token?

Das Konzept des Tokens

Token = Die kleinste Texteinheit, die KI versteht

Im Gegensatz zu Menschen, die Wörter und Sätze direkt lesen, muss KI Text in kleine Stücke zerlegen. Jedes Stück wird als Token bezeichnet.

Beispiele:

Chinesisch:

  • „你好“ ≈ 1–2 Tokens
  • „今天天气不错“ ≈ 4–8 Tokens, je nach Modell

Englisch:

  • „Hello“ = 1 Token
  • „How are you today?“ ≈ 5 Tokens

Einfache Faustregeln:

  • Englisch: 1 Wort ≈ 1 Token (ca. 4 Zeichen)
  • Chinesisch: 1 Zeichen ≈ 0,5–2 Tokens (abhängig vom KI-Modell)
  • Zahlen, Satzzeichen: normalerweise 1 Symbol = 1 Token

Wichtige Erkenntnis: Verschiedene KI-Modelle definieren Tokens unterschiedlich!

Hier ist ein wenig bekanntes Geheimnis: Derselbe Text kann in verschiedenen KI-Modellen eine völlig unterschiedliche Token-Anzahl haben!

Warum? Weil jedes KI-Unternehmen seinen eigenen Tokenizer hat und Text anders aufteilt.

Reales Beispiel:

Derselbe Satz: „AI is revolutionizing market research.“

  • GPT-3: 11 Tokens
  • GPT-3.5 und GPT-4: 9 Tokens
  • GPT-4o und GPT-5.2: 8 Tokens

Siehst du? Derselbe Satz unterscheidet sich um 3 Tokens zwischen den Modellen!

Ein weiteres chinesisches Beispiel:

Der Satz „人工智能正在改变世界“ („Künstliche Intelligenz verändert die Welt“):

  • GPT-4o: vielleicht 10 Tokens
  • Claude Sonnet 4.5: vielleicht 12 Tokens
  • Gemini 3: vielleicht 8 Tokens

Warum der Unterschied?

Jedes Unternehmen verwendet beim Training seiner Modelle eine andere Tokenisierungsmethode:

  • OpenAI (GPT-Serie): verwendet BPE (Byte-Pair-Encoding)
  • Anthropic (Claude): verwendet einen eigenen optimierten Tokenizer
  • Google (Gemini): Geminis Dokumentation sagt „1 Token ≈ 4 Zeichen“
  • DeepSeek: ein für Chinesisch optimierter Tokenizer

Wie wirkt sich das auf dich aus?

1. Kostenvergleiche sind nicht direkt

Angenommen, du hast 1.000 chinesische Zeichen:

  • Mit GPT-5.2 könnten es 1.500 Tokens sein
  • Mit Claude Sonnet 4.5 könnten es 1.600 Tokens sein
  • Mit Gemini 3 könnten es 1.400 Tokens sein

Auch wenn jedes Modell „Eingabe X $/1M Tokens“ angibt, können die tatsächlichen Kosten um 10–20 % abweichen!

2. Du kannst nicht denselben Token-Rechner für alle Modelle verwenden

  • OpenAIs offizieller Tokenizer (https://platform.openai.com/tokenizer) funktioniert nur für die GPT-Serie
  • Claude-Tokens benötigen die Berechnungsmethode von Anthropic
  • Gemini-Tokens benötigen die Berechnungsmethode von Google

3. Nicht-englische Sprachen zeigen noch größere Unterschiede

Bei Chinesisch, Japanisch, Arabisch und anderen nicht-englischen Sprachen kann die Token-Effizienz um 30–40 % variieren. Die meisten KI-Modelle werden hauptsächlich mit Englisch trainiert, daher sind ihre Tokenizer besser für Englisch optimiert.

Warum Tokens wichtig sind

1. Tokens bestimmen die Kosten

Die API-Abrechnung basiert auf Tokens, nicht auf der Zeichenanzahl.

Beispiel (offizielle Preise Stand 30.01.2026):

  • GPT-5.2: Eingabe 1,75 $/1M Tokens, Ausgabe 14 $/1M Tokens
  • Claude Opus 4.5: Eingabe 5 $/1M Tokens, Ausgabe 25 $/1M Tokens
  • Gemini 3 Flash: Eingabe 0,50 $/1M Tokens, Ausgabe 3 $/1M Tokens (Standard-Tarif)

Du sendest 500 Tokens und die KI antwortet mit 1.000 Tokens:

  • Mit GPT-5.2: (500 × 1,75 + 1000 × 14) / 1.000.000 = 0,01488 $ (ca. 1,5 US-Cent)
  • Mit Gemini 3 Flash: (500 × 0,50 + 1000 × 3) / 1.000.000 = 0,00325 $ (ca. 0,3 US-Cent)

2. Tokens bestimmen die Kontextlänge

Jedes KI-Modell hat ein Token-Limit:

  • GPT-5.2 (API): bis zu 400.000 Tokens
  • GPT-5.2-chat-latest: bis zu 128.000 Tokens
  • Claude Sonnet 4.5: bis zu 200.000 Tokens
  • Gemini 3 Pro Preview: bis zu 1.048.576 Tokens (ca. 1M)

Dieses Limit umfasst: deinen Prompt + die Antwort der KI + den Gesprächsverlauf.

Was passiert, wenn du das Limit überschreitest?

  • Die KI „vergisst“ die frühesten Teile des Gesprächs
  • Oder sie gibt einen Fehler aus und macht nicht weiter

Wie man Tokens zählt

Methode 1: Schätzen (schnell, aber nicht präzise)

  • Chinesisch: Anzahl der Zeichen × 1,5
  • Englisch: Anzahl der Wörter × 1,3

Methode 2: Das entsprechende Online-Tool verwenden

Wichtiger Hinweis: Wenn du modelübergreifend schätzt, verwende immer das für das jeweilige Modell spezifische Tool. Verwende nicht die Token-Anzahl von GPT, um die Kosten von Claude zu schätzen!

Eingabe-Tokens, Ausgabe-Tokens, gecachte Tokens

Die API-Abrechnung unterteilt Tokens in drei Typen:

1. Eingabe-Tokens (Input Tokens)

  • Der Inhalt, den du an die KI sendest
  • Beinhaltet deinen Prompt, hochgeladene Dokumente
  • Relativ günstig

2. Ausgabe-Tokens (Output Tokens)

  • Der Inhalt, den die KI an dich zurückgibt
  • Beinhaltet die Antwort der KI
  • Normalerweise 2–10 Mal teurer als Eingabe-Tokens

Warum ist die Ausgabe teurer? Weil die KI beim „Denken“ (Texterzeugung) mehr Rechenressourcen verbraucht als beim „Lesen“ (Eingabeverarbeitung).

Beispiel (GPT-5.2):

  • Eingabe: 1,75 $/1M Tokens
  • Ausgabe: 14 $/1M Tokens (8× der Eingabepreis!)

3. Gecachte Tokens (Cached Tokens)

Das ist ein Trick, um Kosten zu sparen!

Wenn du denselben Prompt wiederholt verwendest, kann die KI ihn zwischenspeichern und beim nächsten Mal nicht erneut verarbeiten.

Beispiel: Du hast einen 1.000-Token-Prompt und stellst 10 Fragen:

  • Ohne Caching: jedes Mal 1.000 Tokens verarbeitet → insgesamt 10.000 Tokens
  • Mit Caching: erstes Mal 1.000 Tokens (normaler Preis), die nächsten 9 Male 1.000 Tokens (Cache-Preis, 90 % günstiger)

Modelle, die Caching unterstützen:

  • Anthropic Claude (Prompt Caching)
  • OpenAI GPT-5.2 (unterstützt Caching, 90 % Rabatt)

Abrechnungsregeln für Caching:

  • Erstes Lesen: normaler Preis
  • Cache-Treffer: Preis um 50–90 % reduziert
  • Cache-Gültigkeit: normalerweise 5–10 Minuten

Was ist Temperature?

Das Konzept von Temperature

Temperature = Steuert die „Zufälligkeit“ oder „Kreativität“ der KI-Antworten

Zur Erinnerung: KI berechnet im Wesentlichen „Wahrscheinlichkeiten“. Wenn du fragst „Welche Farbe hat der Himmel?“, sieht die KI:

  • „Blau“ Wahrscheinlichkeit 80 %
  • „Grau“ Wahrscheinlichkeit 10 %
  • „Rot“ Wahrscheinlichkeit 5 %

Temperature passt an, wie die KI zwischen diesen Optionen wählt.

Temperature-Werte

Temperature liegt typischerweise zwischen 0 und 2 (oder 0 und 1, je nach Plattform):

Temperature = 0 (am konservativsten)

  • Die KI wählt immer die Antwort mit der höchsten Wahrscheinlichkeit
  • Sehr stabile, vorhersagbare Antworten
  • Gleiche Frage → fast identische Antwort jedes Mal
  • Am besten geeignet für: Faktenfragen, Code-Generierung, Datenanalyse

Temperature = 1 (ausgewogen)

  • Die KI wählt zufällig entsprechend den Wahrscheinlichkeiten
  • Antworten variieren etwas, bleiben aber vernünftig
  • Standardeinstellung der meisten Plattformen
  • Am besten geeignet für: alltägliche Konversation, allgemeine Nutzung

Temperature = 2 (am aggressivsten)

  • Die KI probiert viele Möglichkeiten aus
  • Sehr vielfältige, kreative Antworten
  • Kann ungenau oder sogar unsinnig sein
  • Am besten geeignet für: kreatives Schreiben, Brainstorming, künstlerische Arbeiten

Ein praktisches Beispiel

Frage: Gib meinem Café einen Namen

Temperature = 0:

  • „Starbucks Coffee“ (häufigste, sicherste Antwort)
  • Fast jedes Mal gleich

Temperature = 1:

  • „Morning Light Café“
  • „Aroma Time“
  • „Bean & Cozy“
  • Variiert, aber alle vernünftig

Temperature = 2:

  • „Quantum Coffee Dimension“
  • „Space-Time Foam Lab“
  • „Cosmic Latte Terminal“
  • Sehr kreativ, aber möglicherweise zu seltsam

Wann sollte man Temperature anpassen?

Niedrige Temperature (0–0,5):

  • Code schreiben, Debugging
  • Datenanalyse, Matheaufgaben
  • Übersetzung, Zusammenfassung
  • Jede Aufgabe, die Genauigkeit erfordert

Hohe Temperature (1,5–2):

  • Romane, Gedichte schreiben
  • Namensfindung, Slogans erstellen
  • Brainstorming
  • Jede Aufgabe, die Kreativität erfordert

Verschiedene Modelle listen ihre empfohlenen Temperaturen auf ihren offiziellen Websites auf. Zum Beispiel zeigt DeepSeeks Website:

Szenario Temperature
Code-Generierung / Matheaufgaben lösen 0,0
Datenextraktion / -analyse 1,0
Allgemeine Konversation 1,3
Übersetzung 1,3
Kreatives Schreiben / Poesie 1,5

Kann man sie in der Web-Version anpassen?

  • Die meisten Web-Versionen erlauben keine direkte Anpassung
  • Aber die API gibt dir präzise Kontrolle

Kontextlänge

Was ist Kontextlänge?

Kontextlänge = Wie viel Inhalt die KI auf einmal „behalten“ kann

Im Gegensatz zu Menschen hat KI kein Langzeitgedächtnis. In jedem Gespräch kann sich die KI nur eine begrenzte Menge an Inhalt merken. Diese Grenze wird als Kontextlänge bezeichnet und in Tokens gemessen.

Warum „vergisst“ die KI?

Du hast das vielleicht schon erlebt:

  • Du chattest lange mit der KI
  • Plötzlich erinnert sich die KI nicht mehr an das, was am Anfang gesagt wurde
  • Es scheint, als hätte sie eine Gedächtnislücke

Grund: Du hast das Kontextlängen-Limit überschritten.

Beispiel:

  • GPT-5.2 Kontextlänge = 128.000 Tokens
  • Du und die KI haben 50 Gesprächsrunden, insgesamt 130.000 Tokens
  • Jenseits des Limits „vergisst“ die KI die frühesten Teile

Praktische Auswirkungen der Kontextlänge

1. Beeinflusst die Gesprächsdauer

  • Kurzer Kontext: nur ein paar Dutzend Runden
  • Langer Kontext: hunderte Runden

2. Beeinflusst die Dokumentenverarbeitung

  • Kurzer Kontext: nur kurze Dokumente
  • Langer Kontext: ganze Bücher

3. Beeinflusst die Kosten

  • Längerer Kontext → langsamere Verarbeitung
  • Mehr Tokens → höhere Kosten

Wie man mit Kontextlimits umgeht

Methode 1: Das Gespräch regelmäßig löschen

  • Wichtige Informationen speichern
  • Ein neues Gespräch beginnen
  • Der KI den Hintergrund erneut mitteilen

Methode 2: Den Gesprächsverlauf zusammenfassen

  • Die KI bitten, den vorherigen Inhalt zusammenzufassen
  • Diese Zusammenfassung als Start eines neuen Gesprächs verwenden
  • Spart Tokens

Methode 3: Ein Modell mit großem Kontext wählen

  • Für lange Dokumente: Gemini 3 Pro verwenden
  • Für lange Gespräche: Claude Sonnet 4.5 verwenden

Andere wichtige Konzepte

Max Tokens

Max Tokens = Begrenzt die maximale Länge einer einzelnen KI-Antwort

  • Max Tokens = 100: KI antwortet mit maximal 100 Tokens
  • Max Tokens = 2000: KI antwortet mit maximal 2000 Tokens

Warum begrenzen?

  • Kosten kontrollieren (Ausgabe-Tokens sind teurer)
  • Zu ausführliche Antworten vermeiden
  • Manche Szenarien erfordern nur kurze Antworten

Top P (Nucleus Sampling)

Top P = Eine andere Möglichkeit, die Zufälligkeit zu steuern

Ähnlich wie Temperature, funktioniert aber anders:

  • Top P = 0,1: berücksichtigt nur die oberen 10 % der wahrscheinlichsten Optionen
  • Top P = 0,9: berücksichtigt die oberen 90 % der wahrscheinlichsten Optionen

Normalerweise:

  • Entweder Temperature oder Top P anpassen – eines reicht aus
  • In den meisten Fällen ist Temperature intuitiver

Frequency Penalty und Presence Penalty

Wird verwendet, um Wiederholungen zu reduzieren

  • Frequency Penalty: bestraft häufig verwendete Wörter, reduziert Wiederholungen desselben Wortes
  • Presence Penalty: bestraft Wörter, die bereits vorgekommen sind, und ermutigt die KI, neue Themen einzuführen

Bereich: -2,0 bis 2,0

  • Positive Werte: reduzieren Wiederholungen
  • Negative Werte: erlauben mehr Wiederholungen
  • 0: kein Eingriff

Zusammenfassung: Wie verwendet man diese Konzepte?

Tägliche Nutzung (Web-Version)

Wenn du nur die Web-Version nutzt, musst du dich um diese Parameter nicht kümmern – die Standardeinstellungen funktionieren gut.

Aber das Verständnis dieser Konzepte hilft dir:

  • Zu verstehen, warum KI manchmal frühere Teile des Gesprächs „vergisst“ (Kontextlimit)
  • Zu verstehen, warum API-Nutzer Dinge tun können, die du nicht kannst (Parametersteuerung)
  • Dich auf die zukünftige Nutzung der API vorzubereiten

Bei Verwendung der API

Wenn du dich entscheidest, die API zu nutzen, werden diese Parameter sehr wichtig:

Grundeinstellungen (jedes Mal):

  • model: Modell auswählen (z. B. gpt-5.2, claude-sonnet-4-5)
  • max_tokens: Antwortlänge begrenzen

Je nach Bedarf anpassen:

  • temperature: 0–0,5 für faktenbasierte Aufgaben, 1–2 für kreative Aufgaben
  • top_p: normalerweise in Ordnung bei Standardeinstellung
  • frequency_penalty: wenn die KI sich zu oft wiederholt, auf 0,5–1 setzen

Kostenoptimierung:

  • Caching verwenden, um Geld zu sparen
  • max_tokens kontrollieren, um Verschwendung zu vermeiden
  • Das richtige Modell wählen (du brauchst nicht immer das teuerste)
  • Denke daran, dass verschiedene Modelle Tokens unterschiedlich definieren