RL RanceLee Tutorials
← Zurück zu Tutorials

Codex App: Zwischen Terminal und IDE

Dieses Kapitel behandelt die Codex-Desktop-App von OpenAI. Sie befindet sich in der Mitte zwischen Codex CLI (Terminal) und Cursor / VS Code (IDE).

Vielleicht hast du Codex CLI im Terminal verwendet – es ist leistungsstark, aber die reine Textoberfläche ist nicht sehr anfängerfreundlich. Auf der anderen Seite bieten IDEs wie Cursor und VS Code so viele Funktionen, dass der Bildschirm voller Code-Panels überwältigend sein kann.

Codex APP ist die Mitte zwischen Terminal und IDE. Es fügt im Vergleich zum Terminal visuelle Elemente hinzu und entfernt im Vergleich zur IDE die verwirrenden Codedetails.


Was ist Codex APP?

Kurz gesagt: Codex APP = die GUI-Version von Codex CLI.

Es ist immer noch derselbe Codex, nur mit einer anderen „Hülle“. Das CLI funktioniert durch Tippen im Terminal; die APP funktioniert durch Klicken in einem Desktop-Fenster. Die zugrunde liegenden Fähigkeiten sind identisch, und sie teilen sich dieselbe Konfigurationsdatei ~/.codex/config.toml.

Aktuelle Einschränkungen:

  • Unterstützt nur macOS (Apple Silicon) – also M1 und neuere Macs
  • Windows- und Linux-Versionen befinden sich noch in Entwicklung

Download: Lade den DMG-Installer von der OpenAI-Website herunter und installiere ihn direkt.

Anmeldeoptionen:

Anmeldemethode Beschreibung
ChatGPT-Konto Erfordert ein Plus/Pro/Business/Enterprise/Edu-Abonnement. Volle Funktionalität, einschließlich Cloud-Threads und Modellwechsel.
API-Schlüssel Eingeschränkte Funktionalität. Keine Cloud-Threads. Modelle müssen manuell in config.toml angegeben werden.

Oberflächenfunktionen

Codex APP hat derzeit keine chinesische Oberfläche, daher hier eine Übersetzung der einzelnen Funktionen, damit du die entsprechenden Schaltflächen findest.

Neuer Thread

Erstellt eine neue KI-Aufgabenkonversation. Beim Erstellen kannst du zwischen drei Modi wählen:

  • Lokal – Arbeitet direkt in deinem Projektordner
  • Worktree – Arbeitet in einem isolierten Git-Worktree, ohne den Hauptzweig zu beeinflussen
  • Cloud – Führt in einer entfernten Cloud-Umgebung aus (erfordert ChatGPT-Kontoanmeldung)

Anfänger sollten mit dem lokalen Modus beginnen – er ist der einfachste und unkomplizierteste.

Skills

Dies ist dasselbe Skill-System, das in Codex CLI verwendet wird. Hier kannst du alle verfügbaren Skills anzeigen und verwalten und sie in einer Konversation mit /skill-name aufrufen.

Skills werden zwischen APP und CLI geteilt – jeder Skill, den du im CLI erstellst, ist sofort in der APP verfügbar.

Automatisierungen

Diese Funktion ist exklusiv für die APP – du findest sie nicht im CLI.

Stell es dir vor wie das Einstellen eines Weckers für die KI.

Du sagst der KI: „Erledige diese Aufgabe für mich jeden Morgen um 9 Uhr“, und sie wird planmäßig ausgeführt und die Ergebnisse in deinem Posteingang zur Überprüfung ablegen.

So funktioniert es:

  1. Lege die Ausführungshäufigkeit fest (z. B. täglich, wöchentlich)
  2. Schreibe die Anweisung (sage der KI, was sie tun soll)
  3. Optional einen Skill binden (mit der $skill-name-Syntax)
  4. Die KI läuft pünktlich und das Ergebnis kommt in eine Überprüfungswarteschlange

Häufige Anwendungsfälle:

  • Täglicher Scan der letzten Commits auf Fehler
  • Wöchentlicher Bericht über Codeänderungen
  • Regelmäßige Überprüfung auf Sicherheitslücken in Abhängigkeiten
  • Automatische Zusammenfassung der Ursache von CI-Fehlschlägen

Hinweis: Automatisierungen laufen lokal, daher muss die APP geöffnet bleiben. Bei Git-Projekten läuft jede Automatisierung in einem unabhängigen Worktree, sodass sie deine aktuelle Arbeit nicht beeinträchtigt.

Konfiguration

Hier kannst du einstellen:

  • Modellauswahl – ChatGPT-Kontobenutzer können Modelle direkt in der Oberfläche wechseln
  • Genehmigungsrichtlinie – Steuere, wie viel die KI automatisch tun kann und was deine manuelle Bestätigung erfordert
  • Sandbox-Einstellungen – Beschränke die Berechtigungen der KI (schreibgeschützt / Arbeitsbereich schreiben / voller Zugriff)

Diese Einstellungen werden mit derselben config.toml geteilt, die auch vom CLI verwendet wird – Änderungen an einer Stelle wirken sich auf die andere aus.

Personalisierung

Wähle die „Persönlichkeit“ der KI:

Option Wirkung
Freundlich KI-Antworten sind wärmer und detaillierter
Pragmatisch KI-Antworten sind prägnanter und direkt auf den Punkt
Keine Keine Persönlichkeitseinstellung

Du kannst auch benutzerdefinierte Anweisungen hinzufügen, wie „Antworte auf Chinesisch“ oder „Verwende Englisch für Code-Kommentare“. Diese Anweisungen werden in deine AGENTS.md-Datei geschrieben.

MCP-Server

Identisch mit der zuvor behandelten MCP-Konfiguration. Die APP, das CLI und die IDE-Plugins teilen sich alle dieselbe MCP-Konfiguration – jeder MCP-Server, den du im CLI einrichtest, ist automatisch in der APP verfügbar.

Git

Dies ist ein großes Highlight der APP im Vergleich zum CLI. Es enthält ein integriertes visuelles Git-Tool:

  • Diff-Viewer – Codeänderungen grafisch anzeigen, Inline-Kommentare hinzufügen
  • Stagen / Rückgängig – Codeblöcke oder ganze Dateien selektiv stagen
  • Commit / Push – Commits und Pushes direkt in der APP durchführen
  • PR erstellen – Pull Request mit einem Klick erstellen

Im CLI erfordert all dies Befehlszeilenoperationen; in der APP klickst du einfach. Mach dir keine Sorgen, wenn du Konzepte wie Worktree und Git-Integration noch nicht vollständig verstehst – verschaffe dir einfach einen allgemeinen Überblick.

Umgebungen

Konfiguriere die Ausführungsumgebung für deinen Code. Du kannst lokale oder Cloud-Umgebungen einrichten, Projektabhängigkeiten installieren und mehr.

Worktrees

Visuelle Verwaltung von Git-Worktrees. Einfach ausgedrückt: Es verhindert, dass sich deine mehreren KI-Aufgaben gegenseitig stören.

Zum Beispiel bittest du die KI, drei Dinge gleichzeitig zu tun: einen Fehler beheben, eine neue Funktion schreiben und Code umstrukturieren. Wenn alle im selben Verzeichnis arbeiten, werden Dateiänderungen unweigerlich kollidieren. Worktrees erstellen für jede Aufgabe eine unabhängige Arbeitskopie, sodass sie nebeneinander arbeiten können, ohne sich zu stören.


Threads vs. Projekte – Kontext verstehen

Dies ist der wichtigste Teil des gesamten Kapitels – bitte lies ihn sorgfältig.

Zwei Kernkonzepte

Projekt = dein Code-Repository oder Ordner.

Stell dir ein Projekt als deine Werkbank vor. Du erledigst alles, was mit diesem Projekt zu tun hat, auf dieser Werkbank.

Thread = eine bestimmte Aufgabe innerhalb eines Projekts.

Stell dir jeden Thread als eine Aufgabenkarte auf der Werkbank vor. Einen Fehler beheben ist eine Karte, Dokumentation schreiben eine andere.

Ein Projekt kann viele Threads haben, aber jeder Thread gehört zu nur einem Projekt.

Warum das wichtig ist

Hier führen wir ein Schlüsselkonzept ein: Kontext.

Was ist Kontext?

Stell dir vor, du unterhältst dich mit einem Freund auf WeChat. Du sagst: „Wie läuft das Ding?“ und dein Freund weiß genau, was du meinst – weil ihr vorher darüber gesprochen habt. Dieses „vorherige Gespräch“ ist der Kontext.

Das Gleiche gilt für KI. Jeder Satz, den du sagst, und jede Datei, die du in einer Konversation sendest, wird von der KI gespeichert und verwendet, um deine nachfolgenden Fragen zu verstehen. Was die KI „sich merkt“, ist ihr Kontext.

Kontextfenster = Gedächtniskapazität der KI

Aber das Gedächtnis der KI ist nicht unendlich. Es gibt eine Obergrenze für das, was sie sich merken kann, das sogenannte Kontextfenster.

Derzeit verwendet Codex standardmäßig GPT-5.3-Codex mit einem Kontextfenster von etwa 400.000 Token. Grob gesagt entspricht das etwa 300.000 chinesischen Schriftzeichen an Konversation.

Das klingt nach viel, aber wenn du jede Aufgabe in derselben Konversation erledigst, wird sie schnell voll.

Vorteile der Thread-Isolierung

Konversationen in verschiedenen Threads sind isoliert – sie beeinflussen sich nicht gegenseitig.

Stell es dir so vor: Wenn du an drei Aufgaben arbeitest und alles auf dasselbe Blatt Papier schreibst, vermischen sich die Fehlerbehebungsnotizen, Dokumentationsnotizen und Anforderungsdiskussionen – verwirrend für dich und verwirrend für die KI.

Die Aufteilung in drei Threads hält die Dinge sauber:

  • Thread 1: nur für Fehlerbehebung – die KI merkt sich nur fehlerbezogene Konversation
  • Thread 2: nur für Dokumentation – die KI merkt sich nur dokumentationsbezogene Konversation
  • Thread 3: nur für Anforderungsdiskussion – die KI merkt sich nur anforderungsbezogene Konversation

Dies ist besonders wichtig für Wissensdatenbank-Projekte. Wenn du zum Beispiel Obsidian zur Verwaltung von Notizen verwendest, kannst du einen Thread zum Nachschlagen von Informationen und einen anderen zum Organisieren von Dokumenten verwenden, ohne Querkontamination. Die KI wird nicht plötzlich Kontext aus einer Recherchesitzung einmischen, während du Dokumente organisierst.

Im folgenden Screenshot des Obsidian-Notizbuchs verwende ich beispielsweise, obwohl alles im selben Repository ist, verschiedene Threads für verschiedene Aufgaben. Du kannst dir das wie das Konversationskonzept in der Webversion von ChatGPT vorstellen.


Codex APP vs. Codex CLI

Da beide dieselbe Grundlage haben, welches solltest du wählen? Hier ein Vergleich:

Aspekt Codex CLI (Terminal) Codex APP (Desktop)
Oberfläche Nur Text Grafisch
Konversationsverwaltung resume nötig, um Verlauf zu finden Visuelle Konversationsliste, Klicken zum Wechseln
Geplante Aufgaben Keine (cron oder ähnliche Tools nötig) Integrierte Automatisierungen
Git-Operationen Befehlszeile Visuelles Diff + Ein-Klick-Commit/PR
Modellwechsel config.toml bearbeiten Bezahlte Konten können direkt in der Oberfläche auswählen
Gefühlte Geschwindigkeit Fühlt sich schneller an Fühlt sich etwas langsamer an (persönliche Erfahrung)
Am besten geeignet für Entwickler, die mit dem Terminal vertraut sind Benutzer, die eine visuelle Erfahrung wünschen

Hauptunterschiede

1. Visuelle Konversationsverwaltung – kein resume mehr, um Konversationen zu finden

Mit dem CLI musst du codex --resume verwenden, um eine frühere Konversation wieder aufzurufen. Wenn du viele Konversationen hast, kann das Finden der richtigen mühsam sein.

Die APP bietet dir eine Konversationsliste, in der alle Threads auf einen Blick sichtbar sind – einfach klicken, um zu wechseln. Für jeden, der mehrere Aufgaben gleichzeitig erledigt, macht das allein die APP lohnenswert.

2. Automatisierungen – exklusiv für die APP

Das CLI hat diese Funktion nicht. Um eine ähnliche Funktionalität im CLI zu erreichen, müsstest du selbst cron oder andere Planungstools einrichten – eine höhere Hürde. Die APP lässt dich direkt konfigurieren, viel bequemer.

3. Einfacherer Modellwechsel

Wenn du dich mit einem bezahlten ChatGPT-Konto anmeldest, kannst du Modelle direkt in der APP-Oberfläche wechseln, ohne eine Konfigurationsdatei bearbeiten zu müssen.

Wenn du wie ich einen API-Schlüssel verwendest: APP und CLI teilen sich dieselbe ~/.codex/config.toml. Gib einfach das Modell in der toml-Datei an und die APP liest es automatisch. Zum Beispiel:

model = "GPT-5.3-Codex"

4. Positionierung: die Mitte zwischen Terminal und IDE

Im Vergleich zum Terminal fügt die APP visuelle Konversationsverwaltung, Git-Operationen und geplante Aufgaben hinzu.

Im Vergleich zu einer IDE (wie Cursor) entfernt die APP die überladenen Code-Panels und komplexen Editorfunktionen und konzentriert sich auf KI-Konversation und Projektverwaltung.

Wenn du das Terminal zu nerdig und die IDE zu komplex findest, könnte die APP das „genau richtige“ Werkzeug sein, nach dem du suchst.


Persönliche Erfahrung

Um ehrlich zu sein: Ich bevorzuge immer noch das Terminal.

Vielleicht ist es nur meine Einbildung, aber die APP fühlt sich etwas langsamer an als das CLI. Es könnte der Overhead der grafischen Oberfläche sein oder rein psychologisch – ich bin mir nicht sicher.

Aber ich muss zugeben, die APP ist definitiv anfängerfreundlicher. Besonders bei der Konversationsverwaltung und Git-Operationen ist die visuelle Erfahrung weitaus angenehmer als das Eintippen von Befehlen im Terminal.

Mein Rat: Probiere beide aus und finde das Werkzeug, das zu dir passt. Da die Konfiguration geteilt wird, kostet das Wechseln zwischen ihnen nichts.


Zusammenfassung

Was wir heute gelernt haben:

  1. Was Codex APP ist – die GUI-Version von Codex CLI, unterstützt derzeit nur macOS Apple Silicon
  2. Kernfunktionen – Threads-Konversationsverwaltung, Automatisierungen geplante Aufgaben, visuelle Git-Integration, Worktree-Isolierung
  3. Threads vs. Projekte – Projekt ist die Werkbank, Thread ist die Aufgabenkarte – Aufgabenisolierung schützt den Kontext vor Verunreinigung
  4. Unterschiede zum CLI – visuelle Konversationen + Automatisierungen sind die größten Vorteile, aber die gefühlte Geschwindigkeit kann etwas langsamer sein
  5. Positionierung – eine Mitte zwischen Terminal und IDE, geeignet für Benutzer, die visuelle Elemente wünschen, aber keine vollständige IDE benötigen

Wichtige Erkenntnisse:

  • Codex APP und CLI teilen sich dieselbe Grundlage und Konfiguration – mit keinem kannst du etwas falsch machen
  • Thread-Isolierung ist der Schlüssel – trenne Konversationen für verschiedene Aufgaben, um Kontextverschmutzung zu vermeiden
  • Automatisierungen ist die Killerfunktion der APP – stell es dir wie das Einstellen eines Weckers für die KI vor
  • Bonusnutzung: Die APP kann auch als Spracheingabemethode dienen – eine Tastenkombination gedrückt halten und sprechen (siehe nächster Abschnitt)

Bonus: Codex APP als Spracheingabemethode verwenden

Kürzlich hat Codex APP eine Sprachfunktion eingeführt. Das Beste daran ist, dass sie nicht nur innerhalb der App, sondern auch extern funktioniert – halte einfach eine globale Tastenkombination gedrückt und sprich.

Aktualisiere einfach Codex APP auf die neueste Version und melde dich mit einem Abonnementkonto an, um sie zu nutzen. Für diejenigen, die Codex APP ständig laufen lassen, ist es im Wesentlichen eine kostenlose Spracheingabemethode.

OpenAI hat vor einiger Zeit das Open-Source-Spracherkennungsmodell Whisper veröffentlicht, was die Hürde für Spracherkennung drastisch gesenkt hat, und hat es weiterentwickelt. Es ist also keine Überraschung, dass die Sprachfunktion von Codex APP, die auf dieser Grundlage aufbaut, außergewöhnlich gut funktioniert.

Die Verwendung ist einfach: Öffne die App, gehe zu den allgemeinen Einstellungen, weise eine Tastenkombination zu (ich verwende die rechte Optionstaste), und wenn du Text eingeben möchtest, halte die Tastenkombination gedrückt und sprich.

Wenn du die Taste gedrückt hältst, erscheint ein kleines Fenster am unteren Rand des Desktops (kann aufgrund von Tastenkombinationskonflikten nicht gescreenshottet werden).

In der Praxis ist es schnell und genau. Zwei kleine Nachteile:

  1. Keine Wörterbuchfunktion – ein Wörterbuch würde es dir ermöglichen, benutzerdefinierte häufig verwendete Wörter für eine noch bessere Erkennung festzulegen
  2. Taste muss gedrückt gehalten werden, um aufzunehmen – es unterstützt noch keinen Umschaltmodus (einmal drücken zum Starten, nochmal drücken zum Stoppen) wie einige andere Produkte

Da dies eine brandneue Funktion ist, werden diese Verbesserungen wahrscheinlich in zukünftigen Updates kommen.

Wenn es dir nichts ausmacht, monatlich für eine Spracheingabemethode zu bezahlen, sind andere beliebte Optionen Wispr Flow und Typeless.