Penjelasan Dasar API dan Token - RanceLee Tutorials

Anda mungkin pernah memperhatikan bahwa banyak pengguna berpengalaman membicarakan API, Token, Temperature, dan istilah lain yang terdengar teknis dan membingungkan. Bab ini menjelaskan konsep inti ini dengan bahasa sederhana. Memahaminya akan membantu Anda benar-benar memahami cara kerja AI dan menggunakannya dengan lebih efektif.

Apa itu API?

API dalam Bahasa Sederhana

API = Application Programming Interface

Definisi itu terdengar teknis, jadi mari kita lihat dari sudut pandang lain.

Anggap AI sebagai restoran:

Versi web = Anda makan di restoran
- Dekorasi bagus (antarmuka web)
- Pelayan (tombol, kolom input)
- Anda memesan, koki memasak, pelayan menyajikan
API = Anda memesan takeout
- Tanpa dekorasi, Anda bicara langsung ke dapur
- Tanpa pelayan, Anda bicara langsung ke koki
- Anda bilang apa yang Anda mau, koki menyiapkan dan memberikannya kepada Anda

Perbedaan utama:

Versi web: memiliki antarmuka, nyaman untuk manusia
API: tanpa antarmuka, nyaman untuk program

Mengapa Menggunakan API?

Jika versi web begitu nyaman, mengapa repot-repot menggunakan API?

Alasan 1: Otomatisasi

Misalkan Anda perlu AI memproses 1.000 dokumen dan menulis 1.000 ringkasan:

Versi web: Anda copy-paste 1.000 kali dan klik kirim 1.000 kali
API: Tulis skrip yang memproses semuanya secara otomatis sementara Anda minum kopi

Alasan 2: Integrasi ke dalam aplikasi Anda sendiri

Anda ingin membangun bot balasan otomatis, generator konten, atau agen layanan pelanggan pintar:

Versi web: Tidak mungkin
API: Anda dapat menyematkan AI langsung ke dalam program Anda sendiri

Alasan 3: Biaya lebih rendah

Langganan web: ChatGPT Plus $20/bulan, Claude Pro $20/bulan
Bayar sesuai pemakaian API: Bayar hanya untuk yang Anda gunakan; pemakaian ringan mungkin hanya beberapa dolar per bulan

Alasan 4: Fleksibilitas lebih besar

Menyesuaikan parameter AI (Temperature, panjang maksimal, dll.)
Pemrosesan batch
Format input/output kustom

Seperti Apa Tampilan Panggilan API?

Berikut contoh sederhana (jangan khawatir jika terlihat asing – kita akan bahas detailnya nanti):

# Call the latest GPT-5.2 API with Python
response = openai.chat.completions.create(
    model="gpt-5.2",
    messages=[
        {"role": "user", "content": "Hello，Introduce yourself"}
    ]
)
print(response.choices[0].message.content)

Hanya beberapa baris kode, dan AI menjawab pertanyaan Anda – tanpa perlu browser.

Pengidentifikasi model API resmi per 30 Januari 2026:

OpenAI: gpt-5.2, gpt-5.2-chat-latest, gpt-5.2-pro
Anthropic Claude: claude-opus-4-5, claude-sonnet-4-5
Google Gemini: gemini-3-pro-preview, gemini-3-flash-preview

Perbandingan Versi Web vs API

Aspek	Versi Web	API
Cara penggunaan	Klik-klik di browser	Tulis kode untuk memanggilnya
Kurva pembelajaran	Rendah, siapa pun bisa	Tinggi, perlu sedikit pemrograman
Terbaik untuk	Chat harian, menulis artikel	Otomatisasi, pemrosesan batch, integrasi aplikasi
Biaya	Langganan bulanan ($20/bulan)	Bayar sesuai pemakaian (bayar untuk yang digunakan)
Fleksibilitas	Terbatas oleh fitur web	Sangat dapat disesuaikan
Kecepatan	Rata-rata	Biasanya lebih cepat (tanpa rendering UI)

Apa itu Token?

Konsep Token

Token = Unit teks terkecil yang dipahami AI

Tidak seperti manusia yang langsung membaca kata dan kalimat, AI perlu memecah teks menjadi potongan-potongan kecil. Setiap potongan disebut token.

Contoh:

Bahasa Indonesia:

“Halo” ≈ 1–2 token
“Hari ini cuaca bagus” ≈ 4–8 token, tergantung model

Bahasa Inggris:

“Hello” = 1 token
“How are you today?” ≈ 5 token

Aturan praktis sederhana:

Bahasa Inggris: 1 kata ≈ 1 token (sekitar 4 karakter)
Bahasa Indonesia: 1 karakter ≈ 0,5–2 token (tergantung model AI)
Angka, tanda baca: biasanya 1 simbol = 1 token

Temuan Penting: Model AI yang Berbeda Mendefinisikan Token Secara Berbeda!

Ini rahasia yang jarang diketahui: Teks yang sama bisa memiliki jumlah token yang sangat berbeda di model AI yang berbeda!

Mengapa? Karena setiap perusahaan AI memiliki tokenizer sendiri, dan mereka memecah teks dengan cara berbeda.

Contoh nyata:

Kalimat yang sama: “AI is revolutionizing market research.”

GPT-3: 11 token
GPT-3.5 dan GPT-4: 9 token
GPT-4o dan GPT-5.2: 8 token

Lihat? Kalimat yang sama berbeda 3 token antar model!

Contoh lain dalam bahasa Indonesia:

Kalimat “Kecerdasan buatan sedang mengubah dunia”:

GPT-4o: mungkin 10 token
Claude Sonnet 4.5: mungkin 12 token
Gemini 3: mungkin 8 token

Mengapa ada perbedaan?

Setiap perusahaan menggunakan metode tokenisasi yang berbeda saat melatih model mereka:

OpenAI (seri GPT): menggunakan BPE (Byte-Pair Encoding)
Anthropic (Claude): menggunakan tokenizer yang dioptimalkan sendiri
Google (Gemini): dokumentasi Gemini mengatakan “1 token ≈ 4 karakter”
DeepSeek: tokenizer yang dioptimalkan untuk bahasa Mandarin

Bagaimana pengaruhnya terhadap Anda?

1. Perbandingan biaya tidak langsung

Misalkan Anda memiliki 1.000 karakter bahasa Indonesia:

Dengan GPT-5.2 mungkin 1.500 token
Dengan Claude Sonnet 4.5 mungkin 1.600 token
Dengan Gemini 3 mungkin 1.400 token

Meskipun masing-masing mengatakan “input $X/1M token,” biaya aktual bisa berbeda 10–20%!

2. Anda tidak bisa menggunakan kalkulator token yang sama untuk semua model

Tokenizer resmi OpenAI (https://platform.openai.com/tokenizer) hanya berfungsi untuk seri GPT
Token Claude memerlukan metode perhitungan Anthropic
Token Gemini memerlukan metode perhitungan Google

3. Bahasa non-Inggris menunjukkan perbedaan yang lebih besar

Untuk bahasa Indonesia, Jepang, Arab, dan bahasa non-Inggris lainnya, efisiensi token bisa bervariasi 30–40%. Sebagian besar model AI dilatih terutama dalam bahasa Inggris, sehingga tokenizer mereka lebih dioptimalkan untuk bahasa Inggris.

Mengapa Token Penting

1. Token menentukan biaya

Harga API didasarkan pada token, bukan jumlah karakter.

Contoh (harga resmi per 30 Januari 2026):

GPT-5.2: input $1,75/1M token, output $14/1M token
Claude Opus 4.5: input $5/1M token, output $25/1M token
Gemini 3 Flash: input $0,50/1M token, output $3/1M token (tingkat standar)

Anda mengirim 500 token dan AI membalas dengan 1.000 token:

Dengan GPT-5.2: (500 × 1,75 + 1000 × 14) / 1.000.000 = $0,01488 (sekitar 1,5 sen USD)
Dengan Gemini 3 Flash: (500 × 0,50 + 1000 × 3) / 1.000.000 = $0,00325 (sekitar 0,3 sen USD)

2. Token menentukan panjang konteks

Setiap model AI memiliki batas token:

GPT-5.2 (API): hingga 400.000 token
GPT-5.2-chat-latest: hingga 128.000 token
Claude Sonnet 4.5: hingga 200.000 token
Gemini 3 Pro Preview: hingga 1.048.576 token (sekitar 1M)

Batas ini mencakup: prompt Anda + respons AI + riwayat percakapan.

Apa yang terjadi jika Anda melebihi batas?

AI “lupa” bagian paling awal dari percakapan
Atau muncul error dan tidak bisa melanjutkan

Cara Menghitung Token

Metode 1: Perkiraan (cepat tapi tidak presisi)

Bahasa Indonesia: jumlah karakter × 1,5
Bahasa Inggris: jumlah kata × 1,3

Metode 2: Gunakan alat online yang sesuai

OpenAI (seri GPT): https://platform.openai.com/tokenizer
Penghitung token umum: https://token-counter.app (mendukung beberapa model untuk perbandingan)
Gemini: gunakan metode count_tokens di Google AI Studio

Pengingat penting: Saat memperkirakan antar model, selalu gunakan alat khusus untuk model tersebut. Jangan gunakan jumlah token GPT untuk memperkirakan biaya Claude!

Token Input, Token Output, Token Cache

Penagihan API membagi token menjadi tiga jenis:

1. Token Input

Konten yang Anda kirim ke AI
Termasuk prompt Anda, dokumen yang diunggah
Relatif murah

2. Token Output

Konten yang dikembalikan AI kepada Anda
Termasuk respons AI
Biasanya 2–10 kali lebih mahal dari token input

Mengapa output lebih mahal? Karena AI “berpikir” (menghasilkan teks) menggunakan lebih banyak sumber daya komputasi daripada “membaca” (memproses input).

Contoh (GPT-5.2):

Input: $1,75/1M token
Output: $14/1M token (8× harga input!)

3. Token Cache

Ini trik penghematan biaya!

Jika Anda berulang kali menggunakan prompt yang sama, AI dapat menyimpannya dalam cache dan tidak perlu memprosesnya lagi lain kali.

Contoh: Anda memiliki prompt 1.000 token dan mengajukan 10 pertanyaan:

Tanpa cache: setiap kali memproses 1.000 token → total 10.000 token
Dengan cache: pertama kali 1.000 token (harga normal), 9 kali berikutnya 1.000 token (harga cache, 90% lebih murah)

Model yang mendukung caching:

Anthropic Claude (Prompt Caching)
OpenAI GPT-5.2 (mendukung caching, diskon 90%)

Aturan penagihan cache:

Pembacaan pertama: harga normal
Cache hit: harga berkurang 50–90%
Masa berlaku cache: biasanya 5–10 menit

Apa itu Temperature?

Konsep Temperature

Temperature = Mengontrol “keacakan” atau “kreativitas” respons AI

Ingat bahwa AI pada dasarnya “menghitung probabilitas.” Saat Anda bertanya “Apa warna langit?”, AI melihat:

“Biru” probabilitas 80%
“Abu-abu” probabilitas 10%
“Merah” probabilitas 5%

Temperature menyesuaikan cara AI memilih di antara opsi-opsi ini.

Nilai Temperature

Temperature biasanya berkisar dari 0 hingga 2 (atau 0 hingga 1, tergantung platform):

Temperature = 0 (paling konservatif)

AI selalu memilih jawaban dengan probabilitas tertinggi
Respons sangat stabil, dapat diprediksi
Pertanyaan yang sama → jawaban hampir identik setiap kali
Terbaik untuk: pertanyaan faktual, pembuatan kode, analisis data

Temperature = 1 (seimbang)

AI memilih secara acak sesuai probabilitas
Respons sedikit bervariasi tetapi tetap masuk akal
Default untuk sebagian besar platform
Terbaik untuk: percakapan sehari-hari, penggunaan umum

Temperature = 2 (paling agresif)

AI mencoba banyak kemungkinan
Respons sangat beragam, kreatif
Mungkin tidak akurat atau bahkan tidak masuk akal
Terbaik untuk: penulisan kreatif, brainstorming, karya seni

Contoh Praktis

Pertanyaan: Beri nama kedai kopi saya

Temperature = 0:

“Kedai Kopi Starbucks” (paling umum, jawaban teraman)
Hampir sama setiap kali

Temperature = 1:

“Kafe Cahaya Pagi”
“Waktu Aroma”
“Bean & Cozy”
Bervariasi, tetapi semuanya masuk akal

Temperature = 2:

“Dimensi Kopi Kuantum”
“Lab Busa Ruang-Waktu”
“Terminal Latte Kosmik”
Sangat kreatif, tetapi mungkin terlalu aneh

Kapan Menyesuaikan Temperature

Temperature Lebih Rendah (0–0,5):

Menulis kode, debugging
Analisis data, soal matematika
Penerjemahan, peringkasan
Tugas apa pun yang membutuhkan akurasi

Temperature Lebih Tinggi (1,5–2):

Menulis novel, puisi
Memberi nama, membuat slogan
Brainstorming
Tugas apa pun yang membutuhkan kreativitas

Model yang berbeda mencantumkan temperature yang direkomendasikan di situs resmi mereka. Misalnya, situs web DeepSeek menunjukkan:

Skenario	Temperature
Pembuatan kode / pemecahan soal matematika	0,0
Ekstraksi data / analisis	1,0
Percakapan umum	1,3
Penerjemahan	1,3
Penulisan kreatif / puisi	1,5

Bisakah Anda menyesuaikannya di versi web?

Sebagian besar versi web tidak mengizinkan penyesuaian langsung
Tetapi API memberi Anda kendali yang presisi

Panjang Konteks

Apa itu Panjang Konteks?

Panjang Konteks = Seberapa banyak konten yang dapat “diingat” AI sekaligus

Tidak seperti manusia, AI tidak memiliki memori jangka panjang. Dalam setiap percakapan, AI hanya dapat mengingat sejumlah konten terbatas. Batas ini disebut panjang konteks, diukur dalam token.

Mengapa AI “Lupa”?

Anda mungkin pernah mengalami ini:

Anda mengobrol dengan AI untuk waktu yang lama
Tiba-tiba AI tidak ingat apa yang dikatakan di awal
Sepertinya AI mengalami amnesia

Alasan: Anda melebihi batas panjang konteks.

Contoh:

Panjang konteks GPT-5.2 = 128.000 token
Anda dan AI melakukan 50 putaran percakapan, menggunakan total 130.000 token
Melebihi batas, AI “lupa” bagian paling awal

Dampak Praktis Panjang Konteks

1. Mempengaruhi panjang percakapan

Konteks pendek: hanya beberapa puluh putaran
Konteks panjang: ratusan putaran

2. Mempengaruhi pemrosesan dokumen

Konteks pendek: hanya dokumen pendek
Konteks panjang: seluruh buku

3. Mempengaruhi biaya

Konteks lebih panjang → pemrosesan lebih lambat
Lebih banyak token → biaya lebih tinggi

Cara Mengatasi Batas Konteks

Metode 1: Bersihkan percakapan secara teratur

Simpan informasi penting
Mulai percakapan baru
Ceritakan kembali latar belakang ke AI

Metode 2: Ringkas riwayat percakapan

Minta AI untuk meringkas konten sebelumnya
Gunakan ringkasan itu sebagai awal percakapan baru
Menghemat token

Metode 3: Pilih model dengan konteks besar

Untuk dokumen panjang: gunakan Gemini 3 Pro
Untuk percakapan panjang: gunakan Claude Sonnet 4.5

Konsep Penting Lainnya

Max Tokens

Max Tokens = Membatasi panjang maksimum satu respons AI

Setel Max Tokens = 100: AI membalas maksimal 100 token
Setel Max Tokens = 2000: AI membalas maksimal 2000 token

Mengapa membatasinya?

Mengontrol biaya (token output lebih mahal)
Menghindari jawaban yang terlalu panjang
Beberapa skenario hanya membutuhkan balasan pendek

Top P (Nucleus Sampling)

Top P = Cara lain untuk mengontrol keacakan

Mirip dengan Temperature, tetapi cara kerjanya berbeda:

Top P = 0,1: hanya mempertimbangkan 10% opsi dengan probabilitas tertinggi
Top P = 0,9: mempertimbangkan 90% opsi dengan probabilitas tertinggi

Biasanya:

Sesuaikan Temperature atau Top P – salah satu sudah cukup
Dalam kebanyakan kasus, Temperature lebih intuitif

Frequency Penalty dan Presence Penalty

Digunakan untuk mengurangi pengulangan

Frequency Penalty: menghukum kata yang sering digunakan, mengurangi pengulangan kata yang sama
Presence Penalty: menghukum kata yang sudah muncul, mendorong AI untuk memperkenalkan topik baru

Rentang: -2,0 hingga 2,0

Nilai positif: mengurangi pengulangan
Nilai negatif: memungkinkan lebih banyak pengulangan
0: tanpa intervensi

Ringkasan: Bagaimana Menggunakan Konsep-Konsep Ini?

Penggunaan Sehari-hari (Versi Web)

Jika Anda hanya menggunakan versi web, Anda tidak perlu khawatir tentang parameter ini – nilai default sudah berfungsi dengan baik.

Namun memahami konsep-konsep ini membantu Anda:

Memahami mengapa AI terkadang “lupa” bagian awal percakapan (batas konteks)
Memahami mengapa pengguna API dapat melakukan hal-hal yang tidak bisa Anda lakukan (kontrol parameter)
Bersiap untuk menggunakan API di masa depan

Saat Menggunakan API

Jika Anda memutuskan untuk menggunakan API, parameter ini menjadi sangat penting:

Pengaturan dasar (setiap kali):

model: pilih model (misalnya, gpt-5.2, claude-sonnet-4-5)
max_tokens: batasi panjang respons

Sesuaikan berdasarkan kebutuhan:

temperature: 0–0,5 untuk tugas faktual, 1–2 untuk tugas kreatif
top_p: biasanya baik dengan nilai default
frequency_penalty: jika AI terlalu banyak mengulang, setel ke 0,5–1

Optimasi biaya:

Gunakan caching untuk menghemat uang
Kontrol max_tokens untuk menghindari pemborosan
Pilih model yang tepat (Anda tidak selalu perlu yang termahal)
Ingat bahwa model yang berbeda mendefinisikan token secara berbeda