숙련된 사용자들이 API, 토큰, Temperature 등 기술적이고 혼란스러운 용어를 자주 사용하는 것을 본 적이 있을 것입니다. 이 장에서는 이러한 핵심 개념을 평이한 언어로 설명합니다. 이를 이해하면 AI가 실제로 어떻게 작동하는지 파악하고 더 효과적으로 활용할 수 있습니다.
API란 무엇인가?
API를 쉽게 설명하자면
API = Application Programming Interface (응용 프로그램 프로그래밍 인터페이스)
이 정의는 기술적으로 들리니, 다르게 설명해 보겠습니다.
AI를 식당에 비유해 보세요:
- 웹 버전 = 식당에서 식사하는 것
- 멋진 인테리어 (웹 인터페이스)
- 웨이터 (버튼, 입력 필드)
- 주문하면 셰프가 요리하고 웨이터가 서빙
- API = 포장 주문 전화를 하는 것
- 인테리어 없음, 주방에 직접 말함
- 웨이터 없음, 셰프에게 직접 말함
- 원하는 것을 말하면 셰프가 준비해서 건네줌
핵심 차이점:
- 웹 버전: 인터페이스가 있어 사람이 사용하기 편리함
- API: 인터페이스가 없어 프로그램이 사용하기 편리함
왜 API를 사용하는가?
웹 버전이 그렇게 편리한데, 왜 API를 사용할까요?
이유 1: 자동화
AI가 1,000개의 문서를 처리하고 1,000개의 요약을 작성해야 한다고 가정해 보세요:
- 웹 버전: 1,000번 복사-붙여넣기하고 1,000번 전송 버튼을 클릭해야 함
- API: 스크립트 하나를 작성하면 커피를 마시는 동안 모든 것이 자동으로 처리됨
이유 2: 자체 앱에 통합
자동 응답 봇, 콘텐츠 생성기, 스마트 고객 서비스 에이전트를 만들고 싶다면:
- 웹 버전: 불가능
- API: AI를 자체 프로그램에 직접 내장할 수 있음
이유 3: 비용 절감
- 웹 구독: ChatGPT Plus 월 $20, Claude Pro 월 $20
- API 종량제: 사용한 만큼만 지불; 가벼운 사용 시 월 몇 달러면 충분할 수 있음
이유 4: 더 큰 유연성
- AI 매개변수 미세 조정 (Temperature, 최대 길이 등)
- 일괄 처리
- 사용자 정의 입력/출력 형식
API 호출은 어떻게 생겼나?
간단한 예시입니다 (생소해 보여도 괜찮습니다 – 나중에 자세히 다룰 예정입니다):
# Call the latest GPT-5.2 API with Python
response = openai.chat.completions.create(
model="gpt-5.2",
messages=[
{"role": "user", "content": "Hello,Introduce yourself"}
]
)
print(response.choices[0].message.content)
몇 줄의 코드만으로 AI가 질문에 답변합니다 – 브라우저가 필요 없습니다.
2026-01-30 기준 공식 API 모델 식별자:
- OpenAI:
gpt-5.2,gpt-5.2-chat-latest,gpt-5.2-pro - Anthropic Claude:
claude-opus-4-5,claude-sonnet-4-5 - Google Gemini:
gemini-3-pro-preview,gemini-3-flash-preview
웹 버전 vs API 비교
| 항목 | 웹 버전 | API |
|---|---|---|
| 사용 방법 | 브라우저에서 클릭하며 사용 | 코드를 작성하여 호출 |
| 학습 곡선 | 낮음, 누구나 사용 가능 | 높음, 약간의 프로그래밍 필요 |
| 최적 용도 | 일상 대화, 글쓰기 | 자동화, 일괄 처리, 앱 통합 |
| 비용 | 월 정액제 ($20/월) | 종량제 (사용한 만큼 지불) |
| 유연성 | 웹 기능에 제한됨 | 높은 사용자 정의 가능 |
| 속도 | 보통 | 일반적으로 더 빠름 (UI 렌더링 없음) |
토큰이란 무엇인가?
토큰의 개념
토큰 = AI가 이해하는 텍스트의 최소 단위
사람이 단어와 문장을 직접 읽는 것과 달리, AI는 텍스트를 작은 조각으로 나누어야 합니다. 각 조각을 토큰이라고 합니다.
예시:
중국어:
- “你好” ≈ 1–2 토큰
- “今天天气不错” ≈ 4–8 토큰 (모델에 따라 다름)
영어:
- “Hello” = 1 토큰
- “How are you today?” ≈ 5 토큰
간단한 경험 법칙:
- 영어: 단어 1개 ≈ 토큰 1개 (약 4자)
- 중국어: 문자 1개 ≈ 0.5–2 토큰 (AI 모델에 따라 다름)
- 숫자, 구두점: 일반적으로 기호 1개 = 토큰 1개
중요한 발견: AI 모델마다 토큰을 다르게 정의한다!
잘 알려지지 않은 비밀: 같은 텍스트라도 AI 모델에 따라 토큰 수가 완전히 다를 수 있습니다!
왜일까요? 각 AI 회사는 자체 토크나이저를 가지고 있으며, 텍스트를 분할하는 방식이 다릅니다.
실제 예시:
같은 문장: “AI is revolutionizing market research.”
- GPT-3: 11 토큰
- GPT-3.5 및 GPT-4: 9 토큰
- GPT-4o 및 GPT-5.2: 8 토큰
보이시나요? 같은 문장이 모델에 따라 3토큰 차이납니다!
또 다른 중국어 예시:
문장 “人工智能正在改变世界” (“인공지능이 세상을 바꾸고 있다”):
- GPT-4o: 약 10 토큰
- Claude Sonnet 4.5: 약 12 토큰
- Gemini 3: 약 8 토큰
왜 차이가 날까?
각 회사는 모델을 훈련할 때 다른 토큰화 방법을 사용합니다:
- OpenAI (GPT 시리즈): BPE(Byte-Pair Encoding) 사용
- Anthropic (Claude): 자체 최적화 토크나이저 사용
- Google (Gemini): Gemini 문서에 따르면 “1 토큰 ≈ 4자”
- DeepSeek: 중국어에 최적화된 토크나이저
이것이 사용자에게 어떤 영향을 미칠까?
1. 비용 비교가 직접적이지 않음
1,000자의 중국어가 있다고 가정해 보세요:
- GPT-5.2에서는 1,500 토큰일 수 있음
- Claude Sonnet 4.5에서는 1,600 토큰일 수 있음
- Gemini 3에서는 1,400 토큰일 수 있음
각각 “입력 $X/1M 토큰"이라고 말하지만, 실제 비용은 10–20%까지 차이날 수 있습니다!
2. 모든 모델에 동일한 토큰 계산기를 사용할 수 없음
- OpenAI 공식 토크나이저 (https://platform.openai.com/tokenizer)는 GPT 시리즈에만 작동
- Claude 토큰은 Anthropic의 계산 방법이 필요
- Gemini 토큰은 Google의 계산 방법이 필요
3. 비영어권 언어에서 차이가 더 큼
중국어, 일본어, 아랍어 등 비영어권 언어의 경우 토큰 효율성이 30–40%까지 차이날 수 있습니다. 대부분의 AI 모델은 주로 영어로 훈련되므로 토크나이저가 영어에 더 최적화되어 있습니다.
토큰이 중요한 이유
1. 토큰이 비용을 결정함
API 가격은 문자 수가 아닌 토큰을 기준으로 책정됩니다.
예시 (2026-01-30 기준 공식 가격):
- GPT-5.2: 입력 $1.75/1M 토큰, 출력 $14/1M 토큰
- Claude Opus 4.5: 입력 $5/1M 토큰, 출력 $25/1M 토큰
- Gemini 3 Flash: 입력 $0.50/1M 토큰, 출력 $3/1M 토큰 (표준 등급)
500 토큰을 보내고 AI가 1,000 토큰으로 응답하는 경우:
- GPT-5.2 사용 시: (500 × 1.75 + 1000 × 14) / 1,000,000 = $0.01488 (약 1.5센트)
- Gemini 3 Flash 사용 시: (500 × 0.50 + 1000 × 3) / 1,000,000 = $0.00325 (약 0.3센트)
2. 토큰이 컨텍스트 길이를 결정함
모든 AI 모델에는 토큰 제한이 있습니다:
- GPT-5.2 (API): 최대 400,000 토큰
- GPT-5.2-chat-latest: 최대 128,000 토큰
- Claude Sonnet 4.5: 최대 200,000 토큰
- Gemini 3 Pro Preview: 최대 1,048,576 토큰 (약 1M)
이 제한에는 다음이 포함됩니다: 사용자의 프롬프트 + AI의 응답 + 대화 기록.
제한을 초과하면 어떻게 될까?
- AI가 대화의 가장 이른 부분을 “잊어버림”
- 또는 오류가 발생하고 계속 진행되지 않음
토큰 계산 방법
방법 1: 추정 (빠르지만 정확하지 않음)
- 중국어: 문자 수 × 1.5
- 영어: 단어 수 × 1.3
방법 2: 해당 온라인 도구 사용
- OpenAI (GPT 시리즈): https://platform.openai.com/tokenizer
- 일반 토큰 카운터: https://token-counter.app (여러 모델 비교 지원)
- Gemini: Google AI Studio에서
count_tokens메서드 사용
중요 알림: 모델 간 추정 시 항상 해당 모델에 특화된 도구를 사용하세요. GPT의 토큰 수를 사용하여 Claude의 비용을 추정하지 마세요!
입력 토큰, 출력 토큰, 캐시된 토큰
API 요금 청구는 토큰을 세 가지 유형으로 나눕니다:
1. 입력 토큰
- AI에 보내는 콘텐츠
- 프롬프트, 업로드된 문서 포함
- 상대적으로 저렴
2. 출력 토큰
- AI가 반환하는 콘텐츠
- AI의 응답 포함
- 일반적으로 입력 토큰보다 2–10배 비쌈
출력이 더 비싼 이유는? AI가 “읽는”(입력 처리) 것보다 “생각하는”(텍스트 생성) 데 더 많은 컴퓨팅 리소스를 사용하기 때문입니다.
예시 (GPT-5.2):
- 입력: $1.75/1M 토큰
- 출력: $14/1M 토큰 (입력 가격의 8배!)
3. 캐시된 토큰
비용 절감을 위한 방법입니다!
동일한 프롬프트를 반복해서 사용하면 AI가 이를 캐시하여 다음 번에 재처리하지 않을 수 있습니다.
예시: 1,000 토큰 프롬프트로 10개의 질문을 하는 경우:
- 캐싱 없음: 매번 1,000 토큰 처리 → 총 10,000 토큰
- 캐싱 있음: 첫 번째 1,000 토큰 (정상 가격), 다음 9번 1,000 토큰 (캐시 가격, 90% 저렴)
캐싱을 지원하는 모델:
- Anthropic Claude (프롬프트 캐싱)
- OpenAI GPT-5.2 (캐싱 지원, 90% 할인)
캐싱 요금 청구 규칙:
- 첫 번째 읽기: 정상 가격
- 캐시 적중: 가격 50–90% 할인
- 캐시 유효 기간: 일반적으로 5–10분
Temperature란 무엇인가?
Temperature의 개념
Temperature = AI 응답의 “무작위성” 또는 “창의성"을 제어함
AI는 본질적으로 “확률을 계산"한다는 점을 기억하세요. “하늘은 무슨 색이야?“라고 물으면 AI는 다음을 봅니다:
- “파란색” 확률 80%
- “회색” 확률 10%
- “빨간색” 확률 5%
Temperature는 AI가 이러한 옵션 중에서 선택하는 방식을 조정합니다.
Temperature 값
Temperature는 일반적으로 0에서 2 사이 (또는 플랫폼에 따라 0에서 1)의 범위를 가집니다:
Temperature = 0 (가장 보수적)
- AI는 항상 가장 높은 확률의 답변을 선택
- 매우 안정적이고 예측 가능한 응답
- 같은 질문 → 매번 거의 동일한 답변
- 최적 용도: 사실 질문, 코드 생성, 데이터 분석
Temperature = 1 (균형)
- AI가 확률에 따라 무작위로 선택
- 응답이 약간 다르지만 합리적인 수준 유지
- 대부분 플랫폼의 기본값
- 최적 용도: 일상 대화, 일반 사용
Temperature = 2 (가장 공격적)
- AI가 많은 가능성을 시도
- 매우 다양하고 창의적인 응답
- 부정확하거나 심지어 무의미할 수 있음
- 최적 용도: 창작 글쓰기, 브레인스토밍, 예술 작업
실제 예시
질문: 제 커피숍 이름을 지어주세요
Temperature = 0:
- “스타벅스 커피” (가장 일반적이고 안전한 답변)
- 거의 매번 동일
Temperature = 1:
- “모닝 라이트 카페”
- “아로마 타임”
- “빈 & 코지”
- 다양하지만 모두 합리적
Temperature = 2:
- “퀀텀 커피 차원”
- “시공간 거품 연구소”
- “코스믹 라떼 터미널”
- 매우 창의적이지만 너무 이상할 수 있음
Temperature 조정 시점
낮은 Temperature (0–0.5):
- 코드 작성, 디버깅
- 데이터 분석, 수학 문제
- 번역, 요약
- 정확성이 필요한 모든 작업
높은 Temperature (1.5–2):
- 소설, 시 쓰기
- 작명, 슬로건 만들기
- 브레인스토밍
- 창의성이 필요한 모든 작업
각 모델은 공식 사이트에 권장 Temperature를 명시합니다. 예를 들어 DeepSeek 웹사이트에는 다음과 같이 나와 있습니다:
| 시나리오 | Temperature |
|---|---|
| 코드 생성 / 수학 문제 해결 | 0.0 |
| 데이터 추출 / 분석 | 1.0 |
| 일반 대화 | 1.3 |
| 번역 | 1.3 |
| 창작 글쓰기 / 시 | 1.5 |
웹 버전에서 조정할 수 있나요?
- 대부분의 웹 버전은 직접 조정을 허용하지 않음
- 하지만 API는 정밀한 제어를 제공함
컨텍스트 길이
컨텍스트 길이란 무엇인가?
컨텍스트 길이 = AI가 한 번에 “기억"할 수 있는 콘텐츠의 양
사람과 달리 AI는 장기 기억이 없습니다. 각 대화에서 AI는 제한된 양의 콘텐츠만 기억할 수 있습니다. 이 제한을 컨텍스트 길이라고 하며, 토큰 단위로 측정됩니다.
AI가 “잊어버리는” 이유는?
다음과 같은 경험이 있을 수 있습니다:
- AI와 오랫동안 대화
- 갑자기 AI가 처음에 무슨 말을 했는지 기억하지 못함
- 마치 기억상실증에 걸린 것처럼
이유: 컨텍스트 길이 제한을 초과했기 때문입니다.
예시:
- GPT-5.2 컨텍스트 길이 = 128,000 토큰
- 사용자와 AI가 50라운드 대화, 총 130,000 토큰 사용
- 제한을 초과하면 AI가 가장 이른 부분을 “잊어버림”
컨텍스트 길이의 실질적 영향
1. 대화 길이에 영향
- 짧은 컨텍스트: 수십 라운드만 가능
- 긴 컨텍스트: 수백 라운드 가능
2. 문서 처리에 영향
- 짧은 컨텍스트: 짧은 문서만 가능
- 긴 컨텍스트: 전체 책 가능
3. 비용에 영향
- 긴 컨텍스트 → 처리 속도 느림
- 더 많은 토큰 → 더 높은 비용
컨텍스트 제한 처리 방법
방법 1: 정기적으로 대화 지우기
- 중요한 정보 저장
- 새 대화 시작
- AI에게 배경 다시 설명
방법 2: 대화 기록 요약
- AI에게 이전 내용 요약 요청
- 해당 요약을 새 대화의 시작으로 사용
- 토큰 절약
방법 3: 큰 컨텍스트를 가진 모델 선택
- 긴 문서: Gemini 3 Pro 사용
- 긴 대화: Claude Sonnet 4.5 사용
기타 중요한 개념
최대 토큰 (Max Tokens)
최대 토큰 = 단일 AI 응답의 최대 길이 제한
- 최대 토큰 = 100으로 설정: AI가 최대 100 토큰으로 응답
- 최대 토큰 = 2000으로 설정: AI가 최대 2000 토큰으로 응답
왜 제한하는가?
- 비용 제어 (출력 토큰이 더 비쌈)
- 지나치게 장황한 답변 방지
- 일부 시나리오에서는 짧은 응답만 필요
Top P (핵 샘플링)
Top P = 무작위성을 제어하는 또 다른 방법
Temperature와 유사하지만 다르게 작동합니다:
- Top P = 0.1: 가장 확률이 높은 상위 10% 옵션만 고려
- Top P = 0.9: 가장 확률이 높은 상위 90% 옵션 고려
일반적으로:
- Temperature 또는 Top P 중 하나만 조정하면 충분
- 대부분의 경우 Temperature가 더 직관적
빈도 패널티와 존재 패널티
반복을 줄이는 데 사용
- 빈도 패널티 (Frequency Penalty): 자주 사용되는 단어에 패널티를 부과하여 같은 단어의 반복을 줄임
- 존재 패널티 (Presence Penalty): 이미 등장한 단어에 패널티를 부과하여 AI가 새로운 주제를 도입하도록 장려
범위: -2.0 ~ 2.0
- 양수 값: 반복 감소
- 음수 값: 더 많은 반복 허용
- 0: 개입 없음
요약: 이러한 개념을 어떻게 사용할까?
일상 사용 (웹 버전)
웹 버전만 사용한다면 이러한 매개변수에 대해 걱정할 필요가 없습니다 – 기본값으로도 충분히 잘 작동합니다.
하지만 이러한 개념을 이해하면 다음을 이해하는 데 도움이 됩니다:
- AI가 때때로 대화 초반 부분을 “잊어버리는” 이유 (컨텍스트 제한)
- API 사용자가 할 수 있는 일을 웹 버전 사용자는 할 수 없는 이유 (매개변수 제어)
- 향후 API 사용을 위한 준비
API 사용 시
API를 사용하기로 결정했다면 이러한 매개변수가 매우 중요해집니다:
기본 설정 (매번):
model: 모델 선택 (예:gpt-5.2,claude-sonnet-4-5)max_tokens: 응답 길이 제한
필요에 따라 조정:
temperature: 사실 기반 작업은 0–0.5, 창의적 작업은 1–2top_p: 일반적으로 기본값으로 충분frequency_penalty: AI가 너무 반복적이면 0.5–1로 설정
비용 최적화:
- 캐싱을 사용하여 비용 절감
max_tokens를 제어하여 낭비 방지- 적절한 모델 선택 (항상 가장 비싼 모델이 필요하지는 않음)
- 모델마다 토큰을 다르게 정의한다는 점을 기억