RL RanceLee Tutorials
← 튜토리얼로 돌아가기

API와 토큰 기초 개념 설명

숙련된 사용자들이 API, 토큰, Temperature 등 기술적이고 혼란스러운 용어를 자주 사용하는 것을 본 적이 있을 것입니다. 이 장에서는 이러한 핵심 개념을 평이한 언어로 설명합니다. 이를 이해하면 AI가 실제로 어떻게 작동하는지 파악하고 더 효과적으로 활용할 수 있습니다.


API란 무엇인가?

API를 쉽게 설명하자면

API = Application Programming Interface (응용 프로그램 프로그래밍 인터페이스)

이 정의는 기술적으로 들리니, 다르게 설명해 보겠습니다.

AI를 식당에 비유해 보세요:

  • 웹 버전 = 식당에서 식사하는 것
    • 멋진 인테리어 (웹 인터페이스)
    • 웨이터 (버튼, 입력 필드)
    • 주문하면 셰프가 요리하고 웨이터가 서빙
  • API = 포장 주문 전화를 하는 것
    • 인테리어 없음, 주방에 직접 말함
    • 웨이터 없음, 셰프에게 직접 말함
    • 원하는 것을 말하면 셰프가 준비해서 건네줌

핵심 차이점:

  • 웹 버전: 인터페이스가 있어 사람이 사용하기 편리함
  • API: 인터페이스가 없어 프로그램이 사용하기 편리함

왜 API를 사용하는가?

웹 버전이 그렇게 편리한데, 왜 API를 사용할까요?

이유 1: 자동화

AI가 1,000개의 문서를 처리하고 1,000개의 요약을 작성해야 한다고 가정해 보세요:

  • 웹 버전: 1,000번 복사-붙여넣기하고 1,000번 전송 버튼을 클릭해야 함
  • API: 스크립트 하나를 작성하면 커피를 마시는 동안 모든 것이 자동으로 처리됨

이유 2: 자체 앱에 통합

자동 응답 봇, 콘텐츠 생성기, 스마트 고객 서비스 에이전트를 만들고 싶다면:

  • 웹 버전: 불가능
  • API: AI를 자체 프로그램에 직접 내장할 수 있음

이유 3: 비용 절감

  • 웹 구독: ChatGPT Plus 월 $20, Claude Pro 월 $20
  • API 종량제: 사용한 만큼만 지불; 가벼운 사용 시 월 몇 달러면 충분할 수 있음

이유 4: 더 큰 유연성

  • AI 매개변수 미세 조정 (Temperature, 최대 길이 등)
  • 일괄 처리
  • 사용자 정의 입력/출력 형식

API 호출은 어떻게 생겼나?

간단한 예시입니다 (생소해 보여도 괜찮습니다 – 나중에 자세히 다룰 예정입니다):

# Call the latest GPT-5.2 API with Python
response = openai.chat.completions.create(
    model="gpt-5.2",
    messages=[
        {"role": "user", "content": "Hello,Introduce yourself"}
    ]
)
print(response.choices[0].message.content)

몇 줄의 코드만으로 AI가 질문에 답변합니다 – 브라우저가 필요 없습니다.

2026-01-30 기준 공식 API 모델 식별자:

  • OpenAI: gpt-5.2, gpt-5.2-chat-latest, gpt-5.2-pro
  • Anthropic Claude: claude-opus-4-5, claude-sonnet-4-5
  • Google Gemini: gemini-3-pro-preview, gemini-3-flash-preview

웹 버전 vs API 비교

항목 웹 버전 API
사용 방법 브라우저에서 클릭하며 사용 코드를 작성하여 호출
학습 곡선 낮음, 누구나 사용 가능 높음, 약간의 프로그래밍 필요
최적 용도 일상 대화, 글쓰기 자동화, 일괄 처리, 앱 통합
비용 월 정액제 ($20/월) 종량제 (사용한 만큼 지불)
유연성 웹 기능에 제한됨 높은 사용자 정의 가능
속도 보통 일반적으로 더 빠름 (UI 렌더링 없음)

토큰이란 무엇인가?

토큰의 개념

토큰 = AI가 이해하는 텍스트의 최소 단위

사람이 단어와 문장을 직접 읽는 것과 달리, AI는 텍스트를 작은 조각으로 나누어야 합니다. 각 조각을 토큰이라고 합니다.

예시:

중국어:

  • “你好” ≈ 1–2 토큰
  • “今天天气不错” ≈ 4–8 토큰 (모델에 따라 다름)

영어:

  • “Hello” = 1 토큰
  • “How are you today?” ≈ 5 토큰

간단한 경험 법칙:

  • 영어: 단어 1개 ≈ 토큰 1개 (약 4자)
  • 중국어: 문자 1개 ≈ 0.5–2 토큰 (AI 모델에 따라 다름)
  • 숫자, 구두점: 일반적으로 기호 1개 = 토큰 1개

중요한 발견: AI 모델마다 토큰을 다르게 정의한다!

잘 알려지지 않은 비밀: 같은 텍스트라도 AI 모델에 따라 토큰 수가 완전히 다를 수 있습니다!

왜일까요? 각 AI 회사는 자체 토크나이저를 가지고 있으며, 텍스트를 분할하는 방식이 다릅니다.

실제 예시:

같은 문장: “AI is revolutionizing market research.”

  • GPT-3: 11 토큰
  • GPT-3.5 및 GPT-4: 9 토큰
  • GPT-4o 및 GPT-5.2: 8 토큰

보이시나요? 같은 문장이 모델에 따라 3토큰 차이납니다!

또 다른 중국어 예시:

문장 “人工智能正在改变世界” (“인공지능이 세상을 바꾸고 있다”):

  • GPT-4o: 약 10 토큰
  • Claude Sonnet 4.5: 약 12 토큰
  • Gemini 3: 약 8 토큰

왜 차이가 날까?

각 회사는 모델을 훈련할 때 다른 토큰화 방법을 사용합니다:

  • OpenAI (GPT 시리즈): BPE(Byte-Pair Encoding) 사용
  • Anthropic (Claude): 자체 최적화 토크나이저 사용
  • Google (Gemini): Gemini 문서에 따르면 “1 토큰 ≈ 4자”
  • DeepSeek: 중국어에 최적화된 토크나이저

이것이 사용자에게 어떤 영향을 미칠까?

1. 비용 비교가 직접적이지 않음

1,000자의 중국어가 있다고 가정해 보세요:

  • GPT-5.2에서는 1,500 토큰일 수 있음
  • Claude Sonnet 4.5에서는 1,600 토큰일 수 있음
  • Gemini 3에서는 1,400 토큰일 수 있음

각각 “입력 $X/1M 토큰"이라고 말하지만, 실제 비용은 10–20%까지 차이날 수 있습니다!

2. 모든 모델에 동일한 토큰 계산기를 사용할 수 없음

  • OpenAI 공식 토크나이저 (https://platform.openai.com/tokenizer)는 GPT 시리즈에만 작동
  • Claude 토큰은 Anthropic의 계산 방법이 필요
  • Gemini 토큰은 Google의 계산 방법이 필요

3. 비영어권 언어에서 차이가 더 큼

중국어, 일본어, 아랍어 등 비영어권 언어의 경우 토큰 효율성이 30–40%까지 차이날 수 있습니다. 대부분의 AI 모델은 주로 영어로 훈련되므로 토크나이저가 영어에 더 최적화되어 있습니다.

토큰이 중요한 이유

1. 토큰이 비용을 결정함

API 가격은 문자 수가 아닌 토큰을 기준으로 책정됩니다.

예시 (2026-01-30 기준 공식 가격):

  • GPT-5.2: 입력 $1.75/1M 토큰, 출력 $14/1M 토큰
  • Claude Opus 4.5: 입력 $5/1M 토큰, 출력 $25/1M 토큰
  • Gemini 3 Flash: 입력 $0.50/1M 토큰, 출력 $3/1M 토큰 (표준 등급)

500 토큰을 보내고 AI가 1,000 토큰으로 응답하는 경우:

  • GPT-5.2 사용 시: (500 × 1.75 + 1000 × 14) / 1,000,000 = $0.01488 (약 1.5센트)
  • Gemini 3 Flash 사용 시: (500 × 0.50 + 1000 × 3) / 1,000,000 = $0.00325 (약 0.3센트)

2. 토큰이 컨텍스트 길이를 결정함

모든 AI 모델에는 토큰 제한이 있습니다:

  • GPT-5.2 (API): 최대 400,000 토큰
  • GPT-5.2-chat-latest: 최대 128,000 토큰
  • Claude Sonnet 4.5: 최대 200,000 토큰
  • Gemini 3 Pro Preview: 최대 1,048,576 토큰 (약 1M)

이 제한에는 다음이 포함됩니다: 사용자의 프롬프트 + AI의 응답 + 대화 기록.

제한을 초과하면 어떻게 될까?

  • AI가 대화의 가장 이른 부분을 “잊어버림”
  • 또는 오류가 발생하고 계속 진행되지 않음

토큰 계산 방법

방법 1: 추정 (빠르지만 정확하지 않음)

  • 중국어: 문자 수 × 1.5
  • 영어: 단어 수 × 1.3

방법 2: 해당 온라인 도구 사용

중요 알림: 모델 간 추정 시 항상 해당 모델에 특화된 도구를 사용하세요. GPT의 토큰 수를 사용하여 Claude의 비용을 추정하지 마세요!

입력 토큰, 출력 토큰, 캐시된 토큰

API 요금 청구는 토큰을 세 가지 유형으로 나눕니다:

1. 입력 토큰

  • AI에 보내는 콘텐츠
  • 프롬프트, 업로드된 문서 포함
  • 상대적으로 저렴

2. 출력 토큰

  • AI가 반환하는 콘텐츠
  • AI의 응답 포함
  • 일반적으로 입력 토큰보다 2–10배 비쌈

출력이 더 비싼 이유는? AI가 “읽는”(입력 처리) 것보다 “생각하는”(텍스트 생성) 데 더 많은 컴퓨팅 리소스를 사용하기 때문입니다.

예시 (GPT-5.2):

  • 입력: $1.75/1M 토큰
  • 출력: $14/1M 토큰 (입력 가격의 8배!)

3. 캐시된 토큰

비용 절감을 위한 방법입니다!

동일한 프롬프트를 반복해서 사용하면 AI가 이를 캐시하여 다음 번에 재처리하지 않을 수 있습니다.

예시: 1,000 토큰 프롬프트로 10개의 질문을 하는 경우:

  • 캐싱 없음: 매번 1,000 토큰 처리 → 총 10,000 토큰
  • 캐싱 있음: 첫 번째 1,000 토큰 (정상 가격), 다음 9번 1,000 토큰 (캐시 가격, 90% 저렴)

캐싱을 지원하는 모델:

  • Anthropic Claude (프롬프트 캐싱)
  • OpenAI GPT-5.2 (캐싱 지원, 90% 할인)

캐싱 요금 청구 규칙:

  • 첫 번째 읽기: 정상 가격
  • 캐시 적중: 가격 50–90% 할인
  • 캐시 유효 기간: 일반적으로 5–10분

Temperature란 무엇인가?

Temperature의 개념

Temperature = AI 응답의 “무작위성” 또는 “창의성"을 제어함

AI는 본질적으로 “확률을 계산"한다는 점을 기억하세요. “하늘은 무슨 색이야?“라고 물으면 AI는 다음을 봅니다:

  • “파란색” 확률 80%
  • “회색” 확률 10%
  • “빨간색” 확률 5%

Temperature는 AI가 이러한 옵션 중에서 선택하는 방식을 조정합니다.

Temperature 값

Temperature는 일반적으로 0에서 2 사이 (또는 플랫폼에 따라 0에서 1)의 범위를 가집니다:

Temperature = 0 (가장 보수적)

  • AI는 항상 가장 높은 확률의 답변을 선택
  • 매우 안정적이고 예측 가능한 응답
  • 같은 질문 → 매번 거의 동일한 답변
  • 최적 용도: 사실 질문, 코드 생성, 데이터 분석

Temperature = 1 (균형)

  • AI가 확률에 따라 무작위로 선택
  • 응답이 약간 다르지만 합리적인 수준 유지
  • 대부분 플랫폼의 기본값
  • 최적 용도: 일상 대화, 일반 사용

Temperature = 2 (가장 공격적)

  • AI가 많은 가능성을 시도
  • 매우 다양하고 창의적인 응답
  • 부정확하거나 심지어 무의미할 수 있음
  • 최적 용도: 창작 글쓰기, 브레인스토밍, 예술 작업

실제 예시

질문: 제 커피숍 이름을 지어주세요

Temperature = 0:

  • “스타벅스 커피” (가장 일반적이고 안전한 답변)
  • 거의 매번 동일

Temperature = 1:

  • “모닝 라이트 카페”
  • “아로마 타임”
  • “빈 & 코지”
  • 다양하지만 모두 합리적

Temperature = 2:

  • “퀀텀 커피 차원”
  • “시공간 거품 연구소”
  • “코스믹 라떼 터미널”
  • 매우 창의적이지만 너무 이상할 수 있음

Temperature 조정 시점

낮은 Temperature (0–0.5):

  • 코드 작성, 디버깅
  • 데이터 분석, 수학 문제
  • 번역, 요약
  • 정확성이 필요한 모든 작업

높은 Temperature (1.5–2):

  • 소설, 시 쓰기
  • 작명, 슬로건 만들기
  • 브레인스토밍
  • 창의성이 필요한 모든 작업

각 모델은 공식 사이트에 권장 Temperature를 명시합니다. 예를 들어 DeepSeek 웹사이트에는 다음과 같이 나와 있습니다:

시나리오 Temperature
코드 생성 / 수학 문제 해결 0.0
데이터 추출 / 분석 1.0
일반 대화 1.3
번역 1.3
창작 글쓰기 / 시 1.5

웹 버전에서 조정할 수 있나요?

  • 대부분의 웹 버전은 직접 조정을 허용하지 않음
  • 하지만 API는 정밀한 제어를 제공함

컨텍스트 길이

컨텍스트 길이란 무엇인가?

컨텍스트 길이 = AI가 한 번에 “기억"할 수 있는 콘텐츠의 양

사람과 달리 AI는 장기 기억이 없습니다. 각 대화에서 AI는 제한된 양의 콘텐츠만 기억할 수 있습니다. 이 제한을 컨텍스트 길이라고 하며, 토큰 단위로 측정됩니다.

AI가 “잊어버리는” 이유는?

다음과 같은 경험이 있을 수 있습니다:

  • AI와 오랫동안 대화
  • 갑자기 AI가 처음에 무슨 말을 했는지 기억하지 못함
  • 마치 기억상실증에 걸린 것처럼

이유: 컨텍스트 길이 제한을 초과했기 때문입니다.

예시:

  • GPT-5.2 컨텍스트 길이 = 128,000 토큰
  • 사용자와 AI가 50라운드 대화, 총 130,000 토큰 사용
  • 제한을 초과하면 AI가 가장 이른 부분을 “잊어버림”

컨텍스트 길이의 실질적 영향

1. 대화 길이에 영향

  • 짧은 컨텍스트: 수십 라운드만 가능
  • 긴 컨텍스트: 수백 라운드 가능

2. 문서 처리에 영향

  • 짧은 컨텍스트: 짧은 문서만 가능
  • 긴 컨텍스트: 전체 책 가능

3. 비용에 영향

  • 긴 컨텍스트 → 처리 속도 느림
  • 더 많은 토큰 → 더 높은 비용

컨텍스트 제한 처리 방법

방법 1: 정기적으로 대화 지우기

  • 중요한 정보 저장
  • 새 대화 시작
  • AI에게 배경 다시 설명

방법 2: 대화 기록 요약

  • AI에게 이전 내용 요약 요청
  • 해당 요약을 새 대화의 시작으로 사용
  • 토큰 절약

방법 3: 큰 컨텍스트를 가진 모델 선택

  • 긴 문서: Gemini 3 Pro 사용
  • 긴 대화: Claude Sonnet 4.5 사용

기타 중요한 개념

최대 토큰 (Max Tokens)

최대 토큰 = 단일 AI 응답의 최대 길이 제한

  • 최대 토큰 = 100으로 설정: AI가 최대 100 토큰으로 응답
  • 최대 토큰 = 2000으로 설정: AI가 최대 2000 토큰으로 응답

왜 제한하는가?

  • 비용 제어 (출력 토큰이 더 비쌈)
  • 지나치게 장황한 답변 방지
  • 일부 시나리오에서는 짧은 응답만 필요

Top P (핵 샘플링)

Top P = 무작위성을 제어하는 또 다른 방법

Temperature와 유사하지만 다르게 작동합니다:

  • Top P = 0.1: 가장 확률이 높은 상위 10% 옵션만 고려
  • Top P = 0.9: 가장 확률이 높은 상위 90% 옵션 고려

일반적으로:

  • Temperature 또는 Top P 중 하나만 조정하면 충분
  • 대부분의 경우 Temperature가 더 직관적

빈도 패널티와 존재 패널티

반복을 줄이는 데 사용

  • 빈도 패널티 (Frequency Penalty): 자주 사용되는 단어에 패널티를 부과하여 같은 단어의 반복을 줄임
  • 존재 패널티 (Presence Penalty): 이미 등장한 단어에 패널티를 부과하여 AI가 새로운 주제를 도입하도록 장려

범위: -2.0 ~ 2.0

  • 양수 값: 반복 감소
  • 음수 값: 더 많은 반복 허용
  • 0: 개입 없음

요약: 이러한 개념을 어떻게 사용할까?

일상 사용 (웹 버전)

웹 버전만 사용한다면 이러한 매개변수에 대해 걱정할 필요가 없습니다 – 기본값으로도 충분히 잘 작동합니다.

하지만 이러한 개념을 이해하면 다음을 이해하는 데 도움이 됩니다:

  • AI가 때때로 대화 초반 부분을 “잊어버리는” 이유 (컨텍스트 제한)
  • API 사용자가 할 수 있는 일을 웹 버전 사용자는 할 수 없는 이유 (매개변수 제어)
  • 향후 API 사용을 위한 준비

API 사용 시

API를 사용하기로 결정했다면 이러한 매개변수가 매우 중요해집니다:

기본 설정 (매번):

  • model: 모델 선택 (예: gpt-5.2, claude-sonnet-4-5)
  • max_tokens: 응답 길이 제한

필요에 따라 조정:

  • temperature: 사실 기반 작업은 0–0.5, 창의적 작업은 1–2
  • top_p: 일반적으로 기본값으로 충분
  • frequency_penalty: AI가 너무 반복적이면 0.5–1로 설정

비용 최적화:

  • 캐싱을 사용하여 비용 절감
  • max_tokens를 제어하여 낭비 방지
  • 적절한 모델 선택 (항상 가장 비싼 모델이 필요하지는 않음)
  • 모델마다 토큰을 다르게 정의한다는 점을 기억