Anda mungkin pernah memperhatikan bahwa banyak pengguna berpengalaman membicarakan API, Token, Temperature, dan istilah lain yang terdengar teknis dan membingungkan. Bab ini menjelaskan konsep inti ini dengan bahasa sederhana. Memahaminya akan membantu Anda benar-benar memahami cara kerja AI dan menggunakannya dengan lebih efektif.
Apa itu API?
API dalam Bahasa Sederhana
API = Application Programming Interface
Definisi itu terdengar teknis, jadi mari kita lihat dari sudut pandang lain.
Anggap AI sebagai restoran:
- Versi web = Anda makan di restoran
- Dekorasi bagus (antarmuka web)
- Pelayan (tombol, kolom input)
- Anda memesan, koki memasak, pelayan menyajikan
- API = Anda memesan takeout
- Tanpa dekorasi, Anda bicara langsung ke dapur
- Tanpa pelayan, Anda bicara langsung ke koki
- Anda bilang apa yang Anda mau, koki menyiapkan dan memberikannya kepada Anda
Perbedaan utama:
- Versi web: memiliki antarmuka, nyaman untuk manusia
- API: tanpa antarmuka, nyaman untuk program
Mengapa Menggunakan API?
Jika versi web begitu nyaman, mengapa repot-repot menggunakan API?
Alasan 1: Otomatisasi
Misalkan Anda perlu AI memproses 1.000 dokumen dan menulis 1.000 ringkasan:
- Versi web: Anda copy-paste 1.000 kali dan klik kirim 1.000 kali
- API: Tulis skrip yang memproses semuanya secara otomatis sementara Anda minum kopi
Alasan 2: Integrasi ke dalam aplikasi Anda sendiri
Anda ingin membangun bot balasan otomatis, generator konten, atau agen layanan pelanggan pintar:
- Versi web: Tidak mungkin
- API: Anda dapat menyematkan AI langsung ke dalam program Anda sendiri
Alasan 3: Biaya lebih rendah
- Langganan web: ChatGPT Plus $20/bulan, Claude Pro $20/bulan
- Bayar sesuai pemakaian API: Bayar hanya untuk yang Anda gunakan; pemakaian ringan mungkin hanya beberapa dolar per bulan
Alasan 4: Fleksibilitas lebih besar
- Menyesuaikan parameter AI (Temperature, panjang maksimal, dll.)
- Pemrosesan batch
- Format input/output kustom
Seperti Apa Tampilan Panggilan API?
Berikut contoh sederhana (jangan khawatir jika terlihat asing – kita akan bahas detailnya nanti):
# Call the latest GPT-5.2 API with Python
response = openai.chat.completions.create(
model="gpt-5.2",
messages=[
{"role": "user", "content": "Hello,Introduce yourself"}
]
)
print(response.choices[0].message.content)
Hanya beberapa baris kode, dan AI menjawab pertanyaan Anda – tanpa perlu browser.
Pengidentifikasi model API resmi per 30 Januari 2026:
- OpenAI:
gpt-5.2,gpt-5.2-chat-latest,gpt-5.2-pro - Anthropic Claude:
claude-opus-4-5,claude-sonnet-4-5 - Google Gemini:
gemini-3-pro-preview,gemini-3-flash-preview
Perbandingan Versi Web vs API
| Aspek | Versi Web | API |
|---|---|---|
| Cara penggunaan | Klik-klik di browser | Tulis kode untuk memanggilnya |
| Kurva pembelajaran | Rendah, siapa pun bisa | Tinggi, perlu sedikit pemrograman |
| Terbaik untuk | Chat harian, menulis artikel | Otomatisasi, pemrosesan batch, integrasi aplikasi |
| Biaya | Langganan bulanan ($20/bulan) | Bayar sesuai pemakaian (bayar untuk yang digunakan) |
| Fleksibilitas | Terbatas oleh fitur web | Sangat dapat disesuaikan |
| Kecepatan | Rata-rata | Biasanya lebih cepat (tanpa rendering UI) |
Apa itu Token?
Konsep Token
Token = Unit teks terkecil yang dipahami AI
Tidak seperti manusia yang langsung membaca kata dan kalimat, AI perlu memecah teks menjadi potongan-potongan kecil. Setiap potongan disebut token.
Contoh:
Bahasa Indonesia:
- “Halo” ≈ 1–2 token
- “Hari ini cuaca bagus” ≈ 4–8 token, tergantung model
Bahasa Inggris:
- “Hello” = 1 token
- “How are you today?” ≈ 5 token
Aturan praktis sederhana:
- Bahasa Inggris: 1 kata ≈ 1 token (sekitar 4 karakter)
- Bahasa Indonesia: 1 karakter ≈ 0,5–2 token (tergantung model AI)
- Angka, tanda baca: biasanya 1 simbol = 1 token
Temuan Penting: Model AI yang Berbeda Mendefinisikan Token Secara Berbeda!
Ini rahasia yang jarang diketahui: Teks yang sama bisa memiliki jumlah token yang sangat berbeda di model AI yang berbeda!
Mengapa? Karena setiap perusahaan AI memiliki tokenizer sendiri, dan mereka memecah teks dengan cara berbeda.
Contoh nyata:
Kalimat yang sama: “AI is revolutionizing market research.”
- GPT-3: 11 token
- GPT-3.5 dan GPT-4: 9 token
- GPT-4o dan GPT-5.2: 8 token
Lihat? Kalimat yang sama berbeda 3 token antar model!
Contoh lain dalam bahasa Indonesia:
Kalimat “Kecerdasan buatan sedang mengubah dunia”:
- GPT-4o: mungkin 10 token
- Claude Sonnet 4.5: mungkin 12 token
- Gemini 3: mungkin 8 token
Mengapa ada perbedaan?
Setiap perusahaan menggunakan metode tokenisasi yang berbeda saat melatih model mereka:
- OpenAI (seri GPT): menggunakan BPE (Byte-Pair Encoding)
- Anthropic (Claude): menggunakan tokenizer yang dioptimalkan sendiri
- Google (Gemini): dokumentasi Gemini mengatakan “1 token ≈ 4 karakter”
- DeepSeek: tokenizer yang dioptimalkan untuk bahasa Mandarin
Bagaimana pengaruhnya terhadap Anda?
1. Perbandingan biaya tidak langsung
Misalkan Anda memiliki 1.000 karakter bahasa Indonesia:
- Dengan GPT-5.2 mungkin 1.500 token
- Dengan Claude Sonnet 4.5 mungkin 1.600 token
- Dengan Gemini 3 mungkin 1.400 token
Meskipun masing-masing mengatakan “input $X/1M token,” biaya aktual bisa berbeda 10–20%!
2. Anda tidak bisa menggunakan kalkulator token yang sama untuk semua model
- Tokenizer resmi OpenAI (https://platform.openai.com/tokenizer) hanya berfungsi untuk seri GPT
- Token Claude memerlukan metode perhitungan Anthropic
- Token Gemini memerlukan metode perhitungan Google
3. Bahasa non-Inggris menunjukkan perbedaan yang lebih besar
Untuk bahasa Indonesia, Jepang, Arab, dan bahasa non-Inggris lainnya, efisiensi token bisa bervariasi 30–40%. Sebagian besar model AI dilatih terutama dalam bahasa Inggris, sehingga tokenizer mereka lebih dioptimalkan untuk bahasa Inggris.
Mengapa Token Penting
1. Token menentukan biaya
Harga API didasarkan pada token, bukan jumlah karakter.
Contoh (harga resmi per 30 Januari 2026):
- GPT-5.2: input $1,75/1M token, output $14/1M token
- Claude Opus 4.5: input $5/1M token, output $25/1M token
- Gemini 3 Flash: input $0,50/1M token, output $3/1M token (tingkat standar)
Anda mengirim 500 token dan AI membalas dengan 1.000 token:
- Dengan GPT-5.2: (500 × 1,75 + 1000 × 14) / 1.000.000 = $0,01488 (sekitar 1,5 sen USD)
- Dengan Gemini 3 Flash: (500 × 0,50 + 1000 × 3) / 1.000.000 = $0,00325 (sekitar 0,3 sen USD)
2. Token menentukan panjang konteks
Setiap model AI memiliki batas token:
- GPT-5.2 (API): hingga 400.000 token
- GPT-5.2-chat-latest: hingga 128.000 token
- Claude Sonnet 4.5: hingga 200.000 token
- Gemini 3 Pro Preview: hingga 1.048.576 token (sekitar 1M)
Batas ini mencakup: prompt Anda + respons AI + riwayat percakapan.
Apa yang terjadi jika Anda melebihi batas?
- AI “lupa” bagian paling awal dari percakapan
- Atau muncul error dan tidak bisa melanjutkan
Cara Menghitung Token
Metode 1: Perkiraan (cepat tapi tidak presisi)
- Bahasa Indonesia: jumlah karakter × 1,5
- Bahasa Inggris: jumlah kata × 1,3
Metode 2: Gunakan alat online yang sesuai
- OpenAI (seri GPT): https://platform.openai.com/tokenizer
- Penghitung token umum: https://token-counter.app (mendukung beberapa model untuk perbandingan)
- Gemini: gunakan metode
count_tokensdi Google AI Studio
Pengingat penting: Saat memperkirakan antar model, selalu gunakan alat khusus untuk model tersebut. Jangan gunakan jumlah token GPT untuk memperkirakan biaya Claude!
Token Input, Token Output, Token Cache
Penagihan API membagi token menjadi tiga jenis:
1. Token Input
- Konten yang Anda kirim ke AI
- Termasuk prompt Anda, dokumen yang diunggah
- Relatif murah
2. Token Output
- Konten yang dikembalikan AI kepada Anda
- Termasuk respons AI
- Biasanya 2–10 kali lebih mahal dari token input
Mengapa output lebih mahal? Karena AI “berpikir” (menghasilkan teks) menggunakan lebih banyak sumber daya komputasi daripada “membaca” (memproses input).
Contoh (GPT-5.2):
- Input: $1,75/1M token
- Output: $14/1M token (8× harga input!)
3. Token Cache
Ini trik penghematan biaya!
Jika Anda berulang kali menggunakan prompt yang sama, AI dapat menyimpannya dalam cache dan tidak perlu memprosesnya lagi lain kali.
Contoh: Anda memiliki prompt 1.000 token dan mengajukan 10 pertanyaan:
- Tanpa cache: setiap kali memproses 1.000 token → total 10.000 token
- Dengan cache: pertama kali 1.000 token (harga normal), 9 kali berikutnya 1.000 token (harga cache, 90% lebih murah)
Model yang mendukung caching:
- Anthropic Claude (Prompt Caching)
- OpenAI GPT-5.2 (mendukung caching, diskon 90%)
Aturan penagihan cache:
- Pembacaan pertama: harga normal
- Cache hit: harga berkurang 50–90%
- Masa berlaku cache: biasanya 5–10 menit
Apa itu Temperature?
Konsep Temperature
Temperature = Mengontrol “keacakan” atau “kreativitas” respons AI
Ingat bahwa AI pada dasarnya “menghitung probabilitas.” Saat Anda bertanya “Apa warna langit?”, AI melihat:
- “Biru” probabilitas 80%
- “Abu-abu” probabilitas 10%
- “Merah” probabilitas 5%
Temperature menyesuaikan cara AI memilih di antara opsi-opsi ini.
Nilai Temperature
Temperature biasanya berkisar dari 0 hingga 2 (atau 0 hingga 1, tergantung platform):
Temperature = 0 (paling konservatif)
- AI selalu memilih jawaban dengan probabilitas tertinggi
- Respons sangat stabil, dapat diprediksi
- Pertanyaan yang sama → jawaban hampir identik setiap kali
- Terbaik untuk: pertanyaan faktual, pembuatan kode, analisis data
Temperature = 1 (seimbang)
- AI memilih secara acak sesuai probabilitas
- Respons sedikit bervariasi tetapi tetap masuk akal
- Default untuk sebagian besar platform
- Terbaik untuk: percakapan sehari-hari, penggunaan umum
Temperature = 2 (paling agresif)
- AI mencoba banyak kemungkinan
- Respons sangat beragam, kreatif
- Mungkin tidak akurat atau bahkan tidak masuk akal
- Terbaik untuk: penulisan kreatif, brainstorming, karya seni
Contoh Praktis
Pertanyaan: Beri nama kedai kopi saya
Temperature = 0:
- “Kedai Kopi Starbucks” (paling umum, jawaban teraman)
- Hampir sama setiap kali
Temperature = 1:
- “Kafe Cahaya Pagi”
- “Waktu Aroma”
- “Bean & Cozy”
- Bervariasi, tetapi semuanya masuk akal
Temperature = 2:
- “Dimensi Kopi Kuantum”
- “Lab Busa Ruang-Waktu”
- “Terminal Latte Kosmik”
- Sangat kreatif, tetapi mungkin terlalu aneh
Kapan Menyesuaikan Temperature
Temperature Lebih Rendah (0–0,5):
- Menulis kode, debugging
- Analisis data, soal matematika
- Penerjemahan, peringkasan
- Tugas apa pun yang membutuhkan akurasi
Temperature Lebih Tinggi (1,5–2):
- Menulis novel, puisi
- Memberi nama, membuat slogan
- Brainstorming
- Tugas apa pun yang membutuhkan kreativitas
Model yang berbeda mencantumkan temperature yang direkomendasikan di situs resmi mereka. Misalnya, situs web DeepSeek menunjukkan:
| Skenario | Temperature |
|---|---|
| Pembuatan kode / pemecahan soal matematika | 0,0 |
| Ekstraksi data / analisis | 1,0 |
| Percakapan umum | 1,3 |
| Penerjemahan | 1,3 |
| Penulisan kreatif / puisi | 1,5 |
Bisakah Anda menyesuaikannya di versi web?
- Sebagian besar versi web tidak mengizinkan penyesuaian langsung
- Tetapi API memberi Anda kendali yang presisi
Panjang Konteks
Apa itu Panjang Konteks?
Panjang Konteks = Seberapa banyak konten yang dapat “diingat” AI sekaligus
Tidak seperti manusia, AI tidak memiliki memori jangka panjang. Dalam setiap percakapan, AI hanya dapat mengingat sejumlah konten terbatas. Batas ini disebut panjang konteks, diukur dalam token.
Mengapa AI “Lupa”?
Anda mungkin pernah mengalami ini:
- Anda mengobrol dengan AI untuk waktu yang lama
- Tiba-tiba AI tidak ingat apa yang dikatakan di awal
- Sepertinya AI mengalami amnesia
Alasan: Anda melebihi batas panjang konteks.
Contoh:
- Panjang konteks GPT-5.2 = 128.000 token
- Anda dan AI melakukan 50 putaran percakapan, menggunakan total 130.000 token
- Melebihi batas, AI “lupa” bagian paling awal
Dampak Praktis Panjang Konteks
1. Mempengaruhi panjang percakapan
- Konteks pendek: hanya beberapa puluh putaran
- Konteks panjang: ratusan putaran
2. Mempengaruhi pemrosesan dokumen
- Konteks pendek: hanya dokumen pendek
- Konteks panjang: seluruh buku
3. Mempengaruhi biaya
- Konteks lebih panjang → pemrosesan lebih lambat
- Lebih banyak token → biaya lebih tinggi
Cara Mengatasi Batas Konteks
Metode 1: Bersihkan percakapan secara teratur
- Simpan informasi penting
- Mulai percakapan baru
- Ceritakan kembali latar belakang ke AI
Metode 2: Ringkas riwayat percakapan
- Minta AI untuk meringkas konten sebelumnya
- Gunakan ringkasan itu sebagai awal percakapan baru
- Menghemat token
Metode 3: Pilih model dengan konteks besar
- Untuk dokumen panjang: gunakan Gemini 3 Pro
- Untuk percakapan panjang: gunakan Claude Sonnet 4.5
Konsep Penting Lainnya
Max Tokens
Max Tokens = Membatasi panjang maksimum satu respons AI
- Setel Max Tokens = 100: AI membalas maksimal 100 token
- Setel Max Tokens = 2000: AI membalas maksimal 2000 token
Mengapa membatasinya?
- Mengontrol biaya (token output lebih mahal)
- Menghindari jawaban yang terlalu panjang
- Beberapa skenario hanya membutuhkan balasan pendek
Top P (Nucleus Sampling)
Top P = Cara lain untuk mengontrol keacakan
Mirip dengan Temperature, tetapi cara kerjanya berbeda:
- Top P = 0,1: hanya mempertimbangkan 10% opsi dengan probabilitas tertinggi
- Top P = 0,9: mempertimbangkan 90% opsi dengan probabilitas tertinggi
Biasanya:
- Sesuaikan Temperature atau Top P – salah satu sudah cukup
- Dalam kebanyakan kasus, Temperature lebih intuitif
Frequency Penalty dan Presence Penalty
Digunakan untuk mengurangi pengulangan
- Frequency Penalty: menghukum kata yang sering digunakan, mengurangi pengulangan kata yang sama
- Presence Penalty: menghukum kata yang sudah muncul, mendorong AI untuk memperkenalkan topik baru
Rentang: -2,0 hingga 2,0
- Nilai positif: mengurangi pengulangan
- Nilai negatif: memungkinkan lebih banyak pengulangan
- 0: tanpa intervensi
Ringkasan: Bagaimana Menggunakan Konsep-Konsep Ini?
Penggunaan Sehari-hari (Versi Web)
Jika Anda hanya menggunakan versi web, Anda tidak perlu khawatir tentang parameter ini – nilai default sudah berfungsi dengan baik.
Namun memahami konsep-konsep ini membantu Anda:
- Memahami mengapa AI terkadang “lupa” bagian awal percakapan (batas konteks)
- Memahami mengapa pengguna API dapat melakukan hal-hal yang tidak bisa Anda lakukan (kontrol parameter)
- Bersiap untuk menggunakan API di masa depan
Saat Menggunakan API
Jika Anda memutuskan untuk menggunakan API, parameter ini menjadi sangat penting:
Pengaturan dasar (setiap kali):
model: pilih model (misalnya,gpt-5.2,claude-sonnet-4-5)max_tokens: batasi panjang respons
Sesuaikan berdasarkan kebutuhan:
temperature: 0–0,5 untuk tugas faktual, 1–2 untuk tugas kreatiftop_p: biasanya baik dengan nilai defaultfrequency_penalty: jika AI terlalu banyak mengulang, setel ke 0,5–1
Optimasi biaya:
- Gunakan caching untuk menghemat uang
- Kontrol
max_tokensuntuk menghindari pemborosan - Pilih model yang tepat (Anda tidak selalu perlu yang termahal)
- Ingat bahwa model yang berbeda mendefinisikan token secara berbeda