多くの経験者はAPI、トークン、Temperatureなど、難しく聞こえる専門用語をよく使います。この章では、これらの核となる概念をわかりやすく説明します。理解すれば、AIの仕組みを本当に把握し、より効果的に活用できるようになります。
APIとは?
APIを平易な言葉で
API = Application Programming Interface(アプリケーション・プログラミング・インターフェース)
この定義は専門的に聞こえるので、別の言い方をしましょう。
AIをレストランに例えると:
- Web版 = レストランで食事をする
- 素敵な内装(Webインターフェース)
- ウェイター(ボタン、入力フィールド)
- 注文し、シェフが調理し、ウェイターがサーブする
- API = テイクアウトを電話で注文する
- 内装はなし、キッチンと直接話す
- ウェイターなし、シェフと直接話す
- 欲しいものを伝え、シェフが準備して渡してくれる
主な違い:
- Web版:インターフェースがあり、人間にとって便利
- API:インターフェースがなく、プログラムにとって便利
なぜAPIを使うのか?
Web版がこんなに便利なら、なぜわざわざAPIを使うのでしょうか?
理由1:自動化
AIに1,000の文書を処理させ、1,000の要約を書かせるとします。
- Web版:1,000回コピペして、1,000回送信ボタンを押す
- API:スクリプトを書けば、コーヒーを飲んでいる間にすべて自動処理
理由2:自分のアプリへの組み込み
自動返信ボット、コンテンツ生成ツール、スマートカスタマーサービスエージェントを作りたい場合:
- Web版:不可能
- API:AIを自分のプログラムに直接組み込める
理由3:低コスト
- Webサブスクリプション:ChatGPT Plus 月額20ドル、Claude Pro 月額20ドル
- API従量課金:使った分だけ支払う。軽い利用なら月額数ドルで済むことも
理由4:柔軟性が高い
- AIパラメータの微調整(Temperature、最大長など)
- バッチ処理
- カスタム入出力形式
API呼び出しの例
以下は簡単な例です(見慣れなくても心配しないでください。後で詳しく説明します):
# Call the latest GPT-5.2 API with Python
response = openai.chat.completions.create(
model="gpt-5.2",
messages=[
{"role": "user", "content": "Hello,Introduce yourself"}
]
)
print(response.choices[0].message.content)
たった数行のコードで、ブラウザ不要でAIが質問に答えてくれます。
2026年1月30日時点の公式APIモデル識別子:
- OpenAI:
gpt-5.2、gpt-5.2-chat-latest、gpt-5.2-pro - Anthropic Claude:
claude-opus-4-5、claude-sonnet-4-5 - Google Gemini:
gemini-3-pro-preview、gemini-3-flash-preview
Web版 vs API 比較
| 項目 | Web版 | API |
|---|---|---|
| 使い方 | ブラウザでクリック操作 | コードを書いて呼び出す |
| 学習曲線 | 低い、誰でも使える | 高い、プログラミングが必要 |
| 最適な用途 | 日常的なチャット、記事作成 | 自動化、バッチ処理、アプリ連携 |
| コスト | 月額サブスクリプション(20ドル/月) | 従量課金(使った分だけ支払う) |
| 柔軟性 | Web機能に制限される | 高度にカスタマイズ可能 |
| 速度 | 平均的 | 通常は高速(UIレンダリングなし) |
トークンとは?
トークンの概念
トークン = AIが理解するテキストの最小単位
人間は単語や文をそのまま読むのに対し、AIはテキストを小さな断片に分割する必要があります。その一つ一つをトークンと呼びます。
例:
中国語:
- 「你好」≈ 1~2トークン
- 「今天天气不错」≈ 4~8トークン(モデルによる)
英語:
- 「Hello」= 1トークン
- 「How are you today?」≈ 5トークン
簡単な目安:
- 英語:1単語 ≈ 1トークン(約4文字)
- 中国語:1文字 ≈ 0.5~2トークン(AIモデルによる)
- 数字、句読点:通常1記号 = 1トークン
重要な発見:AIモデルによってトークンの定義が異なる!
あまり知られていない秘密:同じテキストでも、AIモデルが違えばトークン数がまったく異なることがあります!
なぜか?各AI企業が独自のトークナイザーを持ち、テキストの分割方法が異なるからです。
実際の例:
同じ文:「AI is revolutionizing market research.」
- GPT-3:11トークン
- GPT-3.5とGPT-4:9トークン
- GPT-4oとGPT-5.2:8トークン
どうでしょう?同じ文でもモデル間で3トークンも違います!
別の中国語の例:
「人工智能正在改变世界」(「人工知能が世界を変えている」)
- GPT-4o:おそらく10トークン
- Claude Sonnet 4.5:おそらく12トークン
- Gemini 3:おそらく8トークン
なぜ違いが生じるのか?
各企業はモデルを訓練する際に異なるトークナイズ手法を使用しています:
- OpenAI(GPTシリーズ):BPE(Byte-Pair Encoding)を使用
- Anthropic(Claude):独自の最適化トークナイザーを使用
- Google(Gemini):Geminiのドキュメントでは「1トークン ≈ 4文字」
- DeepSeek:中国語に最適化されたトークナイザー
これがあなたにどう影響するか?
1. コスト比較は単純ではない
1,000文字の中国語があるとします:
- GPT-5.2では1,500トークンになるかもしれない
- Claude Sonnet 4.5では1,600トークンになるかもしれない
- Gemini 3では1,400トークンになるかもしれない
それぞれ「入力 $X/100万トークン」と言っていても、実際のコストは10~20%も異なる可能性があります!
2. すべてのモデルに同じトークン計算機は使えない
- OpenAIの公式トークナイザー(https://platform.openai.com/tokenizer)はGPTシリーズにのみ有効
- ClaudeのトークンはAnthropicの計算方法が必要
- GeminiのトークンはGoogleの計算方法が必要
3. 非英語言語ではさらに差が大きい
中国語、日本語、アラビア語などの非英語言語では、トークン効率が30~40%も変わることがあります。ほとんどのAIモデルは主に英語で訓練されているため、トークナイザーも英語に最適化されています。
トークンが重要な理由
1. トークンがコストを決める
APIの料金は文字数ではなくトークンに基づいています。
例(2026年1月30日時点の公式価格):
- GPT-5.2:入力 $1.75/100万トークン、出力 $14/100万トークン
- Claude Opus 4.5:入力 $5/100万トークン、出力 $25/100万トークン
- Gemini 3 Flash:入力 $0.50/100万トークン、出力 $3/100万トークン(標準ティア)
あなたが500トークンを送信し、AIが1,000トークンで返信した場合:
- GPT-5.2の場合:(500 × 1.75 + 1000 × 14) / 1,000,000 = $0.01488(約1.5セント)
- Gemini 3 Flashの場合:(500 × 0.50 + 1000 × 3) / 1,000,000 = $0.00325(約0.3セント)
2. トークンがコンテキスト長を決める
すべてのAIモデルにはトークン制限があります:
- GPT-5.2(API):最大400,000トークン
- GPT-5.2-chat-latest:最大128,000トークン
- Claude Sonnet 4.5:最大200,000トークン
- Gemini 3 Pro Preview:最大1,048,576トークン(約100万)
この制限には、あなたのプロンプト+AIの応答+会話履歴が含まれます。
制限を超えるとどうなるか?
- AIは会話の最初の部分を「忘れる」
- またはエラーが発生して続行できなくなる
トークンの数え方
方法1:概算(速いが不正確)
- 中国語:文字数 × 1.5
- 英語:単語数 × 1.3
方法2:対応するオンラインツールを使う
- OpenAI(GPTシリーズ):https://platform.openai.com/tokenizer
- 汎用トークンカウンター:https://token-counter.app(複数モデルの比較に対応)
- Gemini:Google AI Studioの
count_tokensメソッドを使用
重要な注意: モデル間で見積もる場合は、必ずそのモデル専用のツールを使ってください。GPTのトークン数を使ってClaudeのコストを見積もってはいけません!
入力トークン、出力トークン、キャッシュトークン
APIの課金はトークンを3種類に分けています:
1. 入力トークン
- AIに送信する内容
- プロンプト、アップロードした文書を含む
- 比較的安い
2. 出力トークン
- AIが返す内容
- AIの応答を含む
- 通常、入力トークンの2~10倍の価格
なぜ出力の方が高いのか? AIが「考える」(テキストを生成する)には、「読む」(入力を処理する)よりも多くの計算リソースを使うからです。
例(GPT-5.2):
- 入力:$1.75/100万トークン
- 出力:$14/100万トークン(入力の8倍!)
3. キャッシュトークン
これはコスト削減のテクニックです!
同じプロンプトを繰り返し使う場合、AIはそれをキャッシュし、次回の再処理を回避できます。
例: 1,000トークンのプロンプトで10回質問する場合:
- キャッシュなし:毎回1,000トークン処理 → 合計10,000トークン
- キャッシュあり:初回1,000トークン(通常価格)、残り9回は1,000トークン(キャッシュ価格、90%割引)
キャッシュをサポートするモデル:
- Anthropic Claude(Prompt Caching)
- OpenAI GPT-5.2(キャッシュ対応、90%割引)
キャッシュの課金ルール:
- 初回読み取り:通常価格
- キャッシュヒット:価格が50~90%割引
- キャッシュの有効期限:通常5~10分
Temperature(温度)とは?
Temperatureの概念
Temperature = AI応答の「ランダム性」または「創造性」を制御する
AIは基本的に「確率を計算」していることを思い出してください。「空は何色?」と尋ねると、AIは次のように見ます:
- 「青」の確率80%
- 「灰色」の確率10%
- 「赤」の確率5%
Temperatureは、AIがこれらの選択肢の中からどのように選ぶかを調整します。
Temperatureの値
Temperatureは通常0から2(またはプラットフォームによって0から1)の範囲です:
Temperature = 0(最も保守的)
- AIは常に最も確率の高い答えを選ぶ
- 非常に安定し、予測可能な応答
- 同じ質問 → 毎回ほぼ同じ答え
- 最適な用途:事実に関する質問、コード生成、データ分析
Temperature = 1(バランス)
- AIは確率に従ってランダムに選ぶ
- 応答は多少変わるが、妥当な範囲
- ほとんどのプラットフォームのデフォルト
- 最適な用途:日常会話、一般的な使用
Temperature = 2(最も積極的)
- AIは多くの可能性を試す
- 非常に多様で創造的な応答
- 不正確または無意味になる可能性あり
- 最適な用途:創作、ブレインストーミング、芸術的な作業
実用的な例
質問:私のコーヒーショップの名前を考えて
Temperature = 0:
- 「スターバックスコーヒー」(最も一般的で安全な答え)
- 毎回ほぼ同じ
Temperature = 1:
- 「モーニングライトカフェ」
- 「アロマタイム」
- 「ビーン&コージー」
- 変わるが、どれも妥当
Temperature = 2:
- 「量子コーヒーディメンション」
- 「時空泡ラボ」
- 「コズミックラテターミナル」
- 非常に創造的だが、奇妙すぎる可能性も
Temperatureを調整するタイミング
低いTemperature(0~0.5):
- コード作成、デバッグ
- データ分析、数学の問題
- 翻訳、要約
- 正確さが必要なタスク
高いTemperature(1.5~2):
- 小説、詩の作成
- 命名、スローガン作成
- ブレインストーミング
- 創造性が必要なタスク
各モデルは公式サイトで推奨Temperatureを掲載しています。例えば、DeepSeekのウェブサイトには次のように表示されています:
| シナリオ | Temperature |
|---|---|
| コード生成 / 数学問題解決 | 0.0 |
| データ抽出 / 分析 | 1.0 |
| 一般的な会話 | 1.3 |
| 翻訳 | 1.3 |
| 創作 / 詩 | 1.5 |
Web版で調整できるか?
- ほとんどのWeb版では直接調整できない
- しかしAPIでは正確に制御できる
コンテキスト長
コンテキスト長とは?
コンテキスト長 = AIが一度に「記憶」できる内容の量
人間と違い、AIには長期記憶がありません。各会話において、AIは限られた量の内容しか記憶できません。この制限をコンテキスト長と呼び、トークンで測定されます。
なぜAIは「忘れる」のか?
こんな経験はありませんか?
- AIと長時間チャットしている
- 突然、最初に話した内容をAIが覚えていない
- 記憶喪失のようになる
理由:コンテキスト長の制限を超えたからです。
例:
- GPT-5.2のコンテキスト長 = 128,000トークン
- あなたとAIが50回のやり取りをし、合計130,000トークン使用
- 制限を超えたため、AIは最初の部分を「忘れる」
コンテキスト長の実用的な影響
1. 会話の長さに影響
- 短いコンテキスト:数十回のやり取りのみ
- 長いコンテキスト:数百回のやり取り
2. 文書処理に影響
- 短いコンテキスト:短い文書のみ
- 長いコンテキスト:本全体
3. コストに影響
- コンテキストが長い → 処理が遅い
- トークンが多い → コストが高い
コンテキスト制限への対処法
方法1:定期的に会話をクリアする
- 重要な情報を保存
- 新しい会話を開始
- AIに背景を再度伝える
方法2:会話履歴を要約する
- AIに以前の内容を要約させる
- その要約を新しい会話の開始として使う
- トークンを節約
方法3:大きなコンテキストを持つモデルを選ぶ
- 長い文書の場合:Gemini 3 Proを使用
- 長い会話の場合:Claude Sonnet 4.5を使用
その他の重要な概念
Max Tokens(最大トークン数)
Max Tokens = 1回のAI応答の最大長を制限する
- Max Tokens = 100に設定:AIは最大100トークンで応答
- Max Tokens = 2000に設定:AIは最大2000トークンで応答
なぜ制限するのか?
- コストを制御(出力トークンは高価)
- 過度に冗長な回答を避ける
- 短い返信のみが必要なシナリオもある
Top P(核サンプリング)
Top P = ランダム性を制御する別の方法
Temperatureと似ているが、動作が異なる:
- Top P = 0.1:最も確率の高い選択肢の上位10%のみを考慮
- Top P = 0.9:最も確率の高い選択肢の上位90%を考慮
通常:
- TemperatureかTop Pのどちらかを調整すれば十分
- ほとんどの場合、Temperatureの方が直感的
Frequency Penalty(頻度ペナルティ)とPresence Penalty(存在ペナルティ)
繰り返しを減らすために使用
- Frequency Penalty:頻繁に使われる単語にペナルティを課し、同じ単語の繰り返しを減らす
- Presence Penalty:すでに出現した単語にペナルティを課し、AIが新しい話題を導入するよう促す
範囲:-2.0 ~ 2.0
- 正の値:繰り返しを減らす
- 負の値:繰り返しを許容
- 0:介入なし
まとめ:これらの概念をどう使うか?
日常利用(Web版)
Web版だけを使う場合、これらのパラメータを気にする必要はありません。デフォルトで問題なく動作します。
しかし、これらの概念を理解することで:
- AIが時々会話の最初の部分を「忘れる」理由(コンテキスト制限)がわかる
- APIユーザーが自分にはできないことをできる理由(パラメータ制御)がわかる
- 将来APIを使う準備ができる
APIを使う場合
APIを使うことにした場合、これらのパラメータは非常に重要になります:
基本設定(毎回):
model:モデルを選択(例:gpt-5.2、claude-sonnet-4-5)max_tokens:応答の長さを制限
必要に応じて調整:
temperature:事実ベースのタスクでは0~0.5、創造的なタスクでは1~2top_p:通常はデフォルトで問題ないfrequency_penalty:AIが繰り返しすぎる場合、0.5~1に設定
コスト最適化:
- キャッシュを使って節約
max_tokensを制御して無駄を避ける- 適切なモデルを選ぶ(常に最も高価なモデルが必要とは限らない)
- モデルによってトークンの定義が異なることを覚えておく