前面几篇我们学会了如何使用AI工具，但你可能注意到，很多"老手"都在谈论API、Token、Temperature这些词，听起来很专业，让人摸不着头脑。

今天就用最简单的语言，把这些核心概念讲清楚。搞懂了这些，你就能真正理解AI是怎么工作的，用起来也会更得心应手。

API是什么？

用大白话解释API

API = Application Programming Interface（应用程序编程接口）

这个定义听起来很绕口，我们换个说法。

把AI想象成一家餐厅：

网页版 = 你去餐厅堂食
- 有漂亮的装修（网页界面）
- 有服务员（按钮、输入框）
- 你点菜，厨师做菜，服务员端上来
API = 你打电话叫外卖
- 没有装修，直接对接厨房
- 没有服务员，你直接跟厨师说
- 你说要什么，厨师做好直接给你

核心区别：

网页版：有界面，方便人类使用
API：没界面，方便程序使用

为什么要用API？

既然网页版这么方便，为什么还要用API呢？

原因一：自动化

假如你要让AI处理1000个文档，写1000篇摘要：

网页版：你得复制粘贴1000次，点1000次发送
API：写个脚本，自动处理1000次，你去喝杯咖啡就好

原因二：集成到自己的应用

你想做一个自动回复机器人、一个内容生成工具、一个智能客服：

网页版：做不到
API：可以把AI集成到你自己的程序里

原因三：成本更低

网页版订阅：ChatGPT Plus $20/月，Claude Pro $20/月
API按量付费：你用多少付多少，轻度使用可能每月只要几美元

原因四：更灵活

可以精确控制AI的参数（Temperature、最大长度等）
可以批量处理
可以自定义输入输出格式

API调用长什么样？

给你看一个最简单的例子（不用担心看不懂，后面会详细教）：

1
2
3
4
5
6
7
8


# 用Python调用最新的GPT-5.2 API
response = openai.chat.completions.create(
    model="gpt-5.2",
    messages=[
        {"role": "user", "content": "你好，介绍一下自己"}
    ]
)
print(response.choices[0].message.content)

就这几行代码，AI就会回答你的问题，不需要打开浏览器。

截至 2026-01-30 官方API模型标识符示例：

OpenAI：gpt-5.2、gpt-5.2-chat-latest、gpt-5.2-pro
Anthropic Claude：claude-opus-4-5、claude-sonnet-4-5
Google Gemini：gemini-3-pro-preview、gemini-3-flash-preview

网页版 vs API 对比

对比项	网页版	API
使用方式	在浏览器里点点点	写代码调用
学习门槛	低，谁都会用	高，需要会点编程
适合场景	日常聊天、写文章	自动化、批量处理、集成应用
费用	按月订阅（$20/月）	按量付费（用多少付多少）
灵活性	受限于网页功能	高度自定义
速度	一般	通常更快（没有界面渲染）

Token是什么？

Token的概念

Token = AI理解文本的最小单位

AI不像人类，看到"你好"就知道是两个字。AI需要把文字切碎成一小块一小块，每一块就叫一个Token。

举个例子：

中文：

“你好” ≈ 2个Token
“今天天气真好” ≈ 5-6个Token

英文：

“Hello” = 1个Token
“How are you today?” ≈ 5个Token

简单规律：

英文：1个单词 ≈ 1个Token（约4个字符）
中文：1个字 ≈ 0.5-2个Token（取决于AI模型）
数字、标点：通常1个符号 = 1个Token

重要发现：不同AI对Token的定义不一样！

这是很多人不知道的秘密：同一段文字，在不同AI模型里的Token数量可能完全不同！

为什么会这样？因为每个AI公司都有自己的Tokenizer（分词器），它们切分文字的方式不一样。

举个实际例子：

同样一句话：“AI is revolutionizing market research.”

GPT-3：11个Token
GPT-3.5 和 GPT-4：9个Token
GPT-4o 和 GPT-5.2：8个Token

看到了吗？同样的话，在不同模型里Token数差了3个！

再举个中文例子：

“人工智能正在改变世界"这句话：

GPT-4o：可能是 10个Token
Claude Sonnet 4.5：可能是 12个Token
Gemini 3：可能是 8个Token

为什么会有差异？

每个AI公司训练模型时，用的分词方法不同：

OpenAI（GPT系列）：使用BPE（Byte-Pair Encoding）分词法
Anthropic（Claude）：使用自己优化的分词器
Google（Gemini）：Gemini的文档说明"1个Token约等于4个字符”
DeepSeek：基于中文优化的分词器

这对你有什么影响？

1. 费用计算不能直接对比

假如你有一段1000字的中文：

用GPT-5.2可能是 1500个Token
用Claude Sonnet 4.5可能是 1600个Token
用Gemini 3可能是 1400个Token

虽然都说自己"输入$X/1M Token"，但实际花费可能差10-20%！

2. 不能用同一个Token计算器

OpenAI官方的Tokenizer（https://platform.openai.com/tokenizer）只能算GPT系列
Claude的Token要用Anthropic的计算方式
Gemini的Token要用Google的计算方式

3. 非英文语言差异更大

中文、日文、阿拉伯文等非英文语言，Token效率差异可能达到30-40%。因为大部分AI模型主要用英文训练，它们的Tokenizer对英文优化更好。

为什么Token很重要？

1. Token决定费用

API是按Token收费的，不是按字数。

举例（截至 2026-01-30 官方价格）：

GPT-5.2：输入$1.75/1M Token，输出$14/1M Token
Claude Opus 4.5：输入$5/1M Token，输出$25/1M Token
Gemini 3 Flash：输入$0.50/1M Token，输出$3/1M Token（标准档）

你发了一段500 Token的文字，AI回复了1000 Token：

用GPT-5.2费用 = (500 × 1.75 + 1000 × 14) / 1,000,000 = $0.01488（约1毛钱人民币）
用Gemini 3 Flash = (500 × 0.08 + 1000 × 0.30) / 1,000,000 = $0.00034（约2分钱人民币）

2. Token决定上下文长度

每个AI模型都有Token限制：

GPT-5.2（API）：最多400,000 Token
GPT-5.2-chat-latest：最多128,000 Token
Claude Sonnet 4.5：最多200,000 Token
Gemini 3 Pro Preview：最多1,048,576 Token（约1M）

这个限制包括：你的提问 + AI的回答 + 历史对话

如果超出限制会怎样？

AI会"忘记"最早的对话
或者直接报错，不让你继续

怎么计算Token？

方法一：估算（不准确但快速）

中文：字数 × 1.5
英文：单词数 × 1.3

方法二：使用对应的在线工具

OpenAI（GPT系列）：https://platform.openai.com/tokenizer
通用Token计算器：https://token-counter.app（支持多个模型对比）
Gemini：使用Google AI Studio的count_tokens方法

重要提醒： 跨模型估算时，一定要用对应的工具，不能用GPT的Token数去估算Claude的费用！

输入Token、输出Token、缓存Token

API计费时，Token分三种：

1. 输入Token（Input Tokens）

你发给AI的内容
包括你的提问、上传的文档
价格相对便宜

2. 输出Token（Output Tokens）

AI返回给你的内容
包括AI的回答
价格通常是输入Token的2-10倍

为什么输出更贵？ 因为AI"思考"（生成文本）比"阅读"（处理输入）更消耗计算资源。

举例（GPT-5.2）：

输入：$1.75/1M Token
输出：$14/1M Token（是输入的8倍！）

3. 缓存Token（Cached Tokens）

这是个省钱技巧！

如果你反复用相同的提示词（Prompt），AI可以把它缓存起来，下次就不用重新处理。

例子： 你有一个1000 Token的长提示词，问了10个问题：

不用缓存：每次都处理1000 Token，总共10,000 Token
用缓存：第一次1000 Token（正常价格），后面9次1000 Token（缓存价格，便宜90%）

支持缓存的AI：

Anthropic Claude（Prompt Caching）
OpenAI GPT-5.2（支持缓存，90%折扣）

缓存计费规则：

首次读取：正常价格
缓存命中：价格降低50-90%
缓存有效期：通常5-10分钟

Temperature是什么？

Temperature的概念

Temperature = 控制AI回答的"随机性"或"创造性"

回忆一下第01篇我们讲过：AI本质上是在"算概率"。当你问"天空是什么颜色"，AI会看到：

“蓝色"概率80%
“灰色"概率10%
“红色"概率5%

Temperature就是调整这个选择过程的参数。

Temperature的取值

Temperature的范围通常是0-2（或0-1，取决于平台）：

Temperature = 0（最保守）

AI永远选概率最高的答案
回答非常稳定、可预测
同样的问题，每次答案几乎一样
适合：事实性问题、代码生成、数据分析

Temperature = 1（平衡）

AI会按概率随机选择
回答有一定变化，但不离谱
大部分平台的默认值
适合：日常对话、通用场景

Temperature = 2（最激进）

AI会尝试各种可能性
回答非常多样化、有创意
但可能不够准确，甚至胡说八道
适合：创意写作、头脑风暴、艺术创作

举个实际例子

问题：给我的咖啡店起个名字

Temperature = 0：

“星巴克咖啡”（最常见、最安全的答案）
每次都差不多

Temperature = 1：

“晨光咖啡馆”
“香浓时光”
“豆香小筑”
有变化，但都合理

Temperature = 2：

“量子咖啡维度”
“时空泡沫实验室”
“宇宙拿铁终端”
非常有创意，但可能太奇怪

什么时候调Temperature？

降低Temperature（0-0.5）：

写代码、debug
数据分析、数学题
翻译、总结
任何需要准确性的任务

提高Temperature（1.5-2）：

写小说、诗歌
起名字、想标语
头脑风暴
任何需要创意的任务

不同模型的Temperature可以在官网上查到，例如DeepSeek官网就会显示：

场景	温度
代码生成/数学解题	0.0
数据抽取/分析	1.0
通用对话	1.3
翻译	1.3
创意类写作/诗歌创作	1.5

网页版能调吗？

大部分网页版不能直接调
但API可以精确控制

第四部分：Context Length（上下文长度）

什么是Context Length？

Context Length = AI一次能"记住"多少内容

AI不像人类有长期记忆。每次对话，AI能记住的内容是有限的，这个限制就叫Context Length（上下文长度），单位是Token。

为什么AI会"忘记”？

你可能遇到过这种情况：

跟AI聊了很久
突然AI不记得一开始说的话了
好像失忆了

原因：超出了Context Length限制

举例：

GPT-5.2的Context Length = 128,000 Token
你和AI对话了50轮，累计用了130,000 Token
超出限制后，AI会"忘掉"最早的对话

Context Length的实际影响

1. 影响对话长度

Context短：只能聊几十轮
Context长：可以聊几百轮

2. 影响文档处理能力

Context短：只能处理短文档
Context长：可以处理整本书

3. 影响费用

Context越长，处理越慢
Token越多，费用越高

怎么应对Context限制？

方法一：定期清空对话

重要信息保存下来
开启新对话
重新告诉AI背景信息

方法二：总结历史对话

让AI总结之前的内容
把总结作为新对话的开头
节省Token

方法三：选择大Context的模型

需要处理长文档：用Gemini 3 Pro
长期对话：用Claude Sonnet 4.5

其他重要概念

Max Tokens（最大输出长度）

Max Tokens = 限制AI单次回答的最大长度

设置Max Tokens = 100：AI最多回答100个Token
设置Max Tokens = 2000：AI最多回答2000个Token

为什么要限制？

控制费用（输出Token更贵）
避免AI废话太多
某些场景只需要简短回答

Top P（核采样）

Top P = 另一种控制随机性的方法

和Temperature类似，但原理不同：

Top P = 0.1：只考虑概率最高的10%选项
Top P = 0.9：考虑概率最高的90%选项

通常：

调Temperature或Top P，选一个就够了
大部分情况用Temperature更直观

Frequency Penalty 和 Presence Penalty

用来减少AI的重复

Frequency Penalty：惩罚高频词，减少重复使用同一个词
Presence Penalty：惩罚已出现的词，鼓励AI引入新话题

取值范围：-2.0 到 2.0

正值：减少重复
负值：允许更多重复
0：不干预

总结：这些概念怎么用？

日常使用（网页版）

如果你只用网页版，不需要关心这些参数，默认设置就够用了。

但了解这些概念，可以帮你：

理解为什么AI有时"忘记"之前说的话（Context限制）
理解为什么API用户能做到你做不到的事（参数控制）
为将来使用API打基础

使用API时

如果你决定用API，这些参数就非常重要：

基础设置（每次都要）：

model：选择模型（如gpt-5.2、claude-sonnet-4.5）
max_tokens：限制回答长度

根据需求调整：

temperature：事实性任务用0-0.5，创意任务用1-2
top_p：通常默认值就好
frequency_penalty：如果AI重复太多，设为0.5-1

成本优化：

用缓存功能省钱
控制max_tokens避免浪费
选择合适的模型（不是每次都要用最贵的）
注意不同模型的Token定义不同

下一篇预告

下一篇我们会讲：如何实际调用API

这是很多人期待的实战教程，包括：

如何获取API密钥
如何发送第一个API请求
几个重要的API调用平台介绍
免费或便宜的API调用方法
常见问题和解决方案

如果你想进阶使用AI、节省费用、或者做一些自动化的事情，这一篇不容错过！