前面几篇我们学会了如何使用AI工具,但你可能注意到,很多"老手"都在谈论API、Token、Temperature这些词,听起来很专业,让人摸不着头脑。
今天就用最简单的语言,把这些核心概念讲清楚。搞懂了这些,你就能真正理解AI是怎么工作的,用起来也会更得心应手。
API是什么?
用大白话解释API
API = Application Programming Interface(应用程序编程接口)
这个定义听起来很绕口,我们换个说法。
把AI想象成一家餐厅:
- 网页版 = 你去餐厅堂食
- 有漂亮的装修(网页界面)
- 有服务员(按钮、输入框)
- 你点菜,厨师做菜,服务员端上来
- API = 你打电话叫外卖
- 没有装修,直接对接厨房
- 没有服务员,你直接跟厨师说
- 你说要什么,厨师做好直接给你
核心区别:
- 网页版:有界面,方便人类使用
- API:没界面,方便程序使用
为什么要用API?
既然网页版这么方便,为什么还要用API呢?
原因一:自动化
假如你要让AI处理1000个文档,写1000篇摘要:
- 网页版:你得复制粘贴1000次,点1000次发送
- API:写个脚本,自动处理1000次,你去喝杯咖啡就好
原因二:集成到自己的应用
你想做一个自动回复机器人、一个内容生成工具、一个智能客服:
- 网页版:做不到
- API:可以把AI集成到你自己的程序里
原因三:成本更低
- 网页版订阅:ChatGPT Plus $20/月,Claude Pro $20/月
- API按量付费:你用多少付多少,轻度使用可能每月只要几美元
原因四:更灵活
- 可以精确控制AI的参数(Temperature、最大长度等)
- 可以批量处理
- 可以自定义输入输出格式
API调用长什么样?
给你看一个最简单的例子(不用担心看不懂,后面会详细教):
|
|
就这几行代码,AI就会回答你的问题,不需要打开浏览器。
截至 2026-01-30 官方API模型标识符示例:
- OpenAI:
gpt-5.2、gpt-5.2-chat-latest、gpt-5.2-pro - Anthropic Claude:
claude-opus-4-5、claude-sonnet-4-5 - Google Gemini:
gemini-3-pro-preview、gemini-3-flash-preview
网页版 vs API 对比
| 对比项 | 网页版 | API |
|---|---|---|
| 使用方式 | 在浏览器里点点点 | 写代码调用 |
| 学习门槛 | 低,谁都会用 | 高,需要会点编程 |
| 适合场景 | 日常聊天、写文章 | 自动化、批量处理、集成应用 |
| 费用 | 按月订阅($20/月) | 按量付费(用多少付多少) |
| 灵活性 | 受限于网页功能 | 高度自定义 |
| 速度 | 一般 | 通常更快(没有界面渲染) |
Token是什么?
Token的概念
Token = AI理解文本的最小单位
AI不像人类,看到"你好"就知道是两个字。AI需要把文字切碎成一小块一小块,每一块就叫一个Token。
举个例子:
中文:
- “你好” ≈ 2个Token
- “今天天气真好” ≈ 5-6个Token
英文:
- “Hello” = 1个Token
- “How are you today?” ≈ 5个Token
简单规律:
- 英文:1个单词 ≈ 1个Token(约4个字符)
- 中文:1个字 ≈ 0.5-2个Token(取决于AI模型)
- 数字、标点:通常1个符号 = 1个Token
重要发现:不同AI对Token的定义不一样!
这是很多人不知道的秘密:同一段文字,在不同AI模型里的Token数量可能完全不同!
为什么会这样?因为每个AI公司都有自己的Tokenizer(分词器),它们切分文字的方式不一样。
举个实际例子:
同样一句话:“AI is revolutionizing market research.”
- GPT-3:11个Token
- GPT-3.5 和 GPT-4:9个Token
- GPT-4o 和 GPT-5.2:8个Token
看到了吗?同样的话,在不同模型里Token数差了3个!
再举个中文例子:
“人工智能正在改变世界"这句话:
- GPT-4o:可能是 10个Token
- Claude Sonnet 4.5:可能是 12个Token
- Gemini 3:可能是 8个Token
为什么会有差异?
每个AI公司训练模型时,用的分词方法不同:
- OpenAI(GPT系列):使用BPE(Byte-Pair Encoding)分词法
- Anthropic(Claude):使用自己优化的分词器
- Google(Gemini):Gemini的文档说明"1个Token约等于4个字符”
- DeepSeek:基于中文优化的分词器
这对你有什么影响?
1. 费用计算不能直接对比
假如你有一段1000字的中文:
- 用GPT-5.2可能是 1500个Token
- 用Claude Sonnet 4.5可能是 1600个Token
- 用Gemini 3可能是 1400个Token
虽然都说自己"输入$X/1M Token",但实际花费可能差10-20%!
2. 不能用同一个Token计算器
- OpenAI官方的Tokenizer(https://platform.openai.com/tokenizer)只能算GPT系列
- Claude的Token要用Anthropic的计算方式
- Gemini的Token要用Google的计算方式
3. 非英文语言差异更大
中文、日文、阿拉伯文等非英文语言,Token效率差异可能达到30-40%。因为大部分AI模型主要用英文训练,它们的Tokenizer对英文优化更好。
为什么Token很重要?
1. Token决定费用
API是按Token收费的,不是按字数。
举例(截至 2026-01-30 官方价格):
- GPT-5.2:输入$1.75/1M Token,输出$14/1M Token
- Claude Opus 4.5:输入$5/1M Token,输出$25/1M Token
- Gemini 3 Flash:输入$0.50/1M Token,输出$3/1M Token(标准档)
你发了一段500 Token的文字,AI回复了1000 Token:
- 用GPT-5.2费用 = (500 × 1.75 + 1000 × 14) / 1,000,000 = $0.01488(约1毛钱人民币)
- 用Gemini 3 Flash = (500 × 0.08 + 1000 × 0.30) / 1,000,000 = $0.00034(约2分钱人民币)
2. Token决定上下文长度
每个AI模型都有Token限制:
- GPT-5.2(API):最多400,000 Token
- GPT-5.2-chat-latest:最多128,000 Token
- Claude Sonnet 4.5:最多200,000 Token
- Gemini 3 Pro Preview:最多1,048,576 Token(约1M)
这个限制包括:你的提问 + AI的回答 + 历史对话
如果超出限制会怎样?
- AI会"忘记"最早的对话
- 或者直接报错,不让你继续
怎么计算Token?
方法一:估算(不准确但快速)
- 中文:字数 × 1.5
- 英文:单词数 × 1.3
方法二:使用对应的在线工具
- OpenAI(GPT系列):https://platform.openai.com/tokenizer
- 通用Token计算器:https://token-counter.app(支持多个模型对比)
- Gemini:使用Google AI Studio的count_tokens方法
重要提醒: 跨模型估算时,一定要用对应的工具,不能用GPT的Token数去估算Claude的费用!
输入Token、输出Token、缓存Token
API计费时,Token分三种:
1. 输入Token(Input Tokens)
- 你发给AI的内容
- 包括你的提问、上传的文档
- 价格相对便宜
2. 输出Token(Output Tokens)
- AI返回给你的内容
- 包括AI的回答
- 价格通常是输入Token的2-10倍
为什么输出更贵? 因为AI"思考"(生成文本)比"阅读"(处理输入)更消耗计算资源。
举例(GPT-5.2):
- 输入:$1.75/1M Token
- 输出:$14/1M Token(是输入的8倍!)
3. 缓存Token(Cached Tokens)
这是个省钱技巧!
如果你反复用相同的提示词(Prompt),AI可以把它缓存起来,下次就不用重新处理。
例子: 你有一个1000 Token的长提示词,问了10个问题:
- 不用缓存:每次都处理1000 Token,总共10,000 Token
- 用缓存:第一次1000 Token(正常价格),后面9次1000 Token(缓存价格,便宜90%)
支持缓存的AI:
- Anthropic Claude(Prompt Caching)
- OpenAI GPT-5.2(支持缓存,90%折扣)
缓存计费规则:
- 首次读取:正常价格
- 缓存命中:价格降低50-90%
- 缓存有效期:通常5-10分钟
Temperature是什么?
Temperature的概念
Temperature = 控制AI回答的"随机性"或"创造性"
回忆一下第01篇我们讲过:AI本质上是在"算概率"。当你问"天空是什么颜色",AI会看到:
- “蓝色"概率80%
- “灰色"概率10%
- “红色"概率5%
Temperature就是调整这个选择过程的参数。
Temperature的取值
Temperature的范围通常是0-2(或0-1,取决于平台):
Temperature = 0(最保守)
- AI永远选概率最高的答案
- 回答非常稳定、可预测
- 同样的问题,每次答案几乎一样
- 适合:事实性问题、代码生成、数据分析
Temperature = 1(平衡)
- AI会按概率随机选择
- 回答有一定变化,但不离谱
- 大部分平台的默认值
- 适合:日常对话、通用场景
Temperature = 2(最激进)
- AI会尝试各种可能性
- 回答非常多样化、有创意
- 但可能不够准确,甚至胡说八道
- 适合:创意写作、头脑风暴、艺术创作
举个实际例子
问题:给我的咖啡店起个名字
Temperature = 0:
- “星巴克咖啡”(最常见、最安全的答案)
- 每次都差不多
Temperature = 1:
- “晨光咖啡馆”
- “香浓时光”
- “豆香小筑”
- 有变化,但都合理
Temperature = 2:
- “量子咖啡维度”
- “时空泡沫实验室”
- “宇宙拿铁终端”
- 非常有创意,但可能太奇怪
什么时候调Temperature?
降低Temperature(0-0.5):
- 写代码、debug
- 数据分析、数学题
- 翻译、总结
- 任何需要准确性的任务
提高Temperature(1.5-2):
- 写小说、诗歌
- 起名字、想标语
- 头脑风暴
- 任何需要创意的任务
不同模型的Temperature可以在官网上查到,例如DeepSeek官网就会显示:
| 场景 | 温度 |
|---|---|
| 代码生成/数学解题 | 0.0 |
| 数据抽取/分析 | 1.0 |
| 通用对话 | 1.3 |
| 翻译 | 1.3 |
| 创意类写作/诗歌创作 | 1.5 |
网页版能调吗?
- 大部分网页版不能直接调
- 但API可以精确控制
第四部分:Context Length(上下文长度)
什么是Context Length?
Context Length = AI一次能"记住"多少内容
AI不像人类有长期记忆。每次对话,AI能记住的内容是有限的,这个限制就叫Context Length(上下文长度),单位是Token。
为什么AI会"忘记”?
你可能遇到过这种情况:
- 跟AI聊了很久
- 突然AI不记得一开始说的话了
- 好像失忆了
原因:超出了Context Length限制
举例:
- GPT-5.2的Context Length = 128,000 Token
- 你和AI对话了50轮,累计用了130,000 Token
- 超出限制后,AI会"忘掉"最早的对话
Context Length的实际影响
1. 影响对话长度
- Context短:只能聊几十轮
- Context长:可以聊几百轮
2. 影响文档处理能力
- Context短:只能处理短文档
- Context长:可以处理整本书
3. 影响费用
- Context越长,处理越慢
- Token越多,费用越高
怎么应对Context限制?
方法一:定期清空对话
- 重要信息保存下来
- 开启新对话
- 重新告诉AI背景信息
方法二:总结历史对话
- 让AI总结之前的内容
- 把总结作为新对话的开头
- 节省Token
方法三:选择大Context的模型
- 需要处理长文档:用Gemini 3 Pro
- 长期对话:用Claude Sonnet 4.5
其他重要概念
Max Tokens(最大输出长度)
Max Tokens = 限制AI单次回答的最大长度
- 设置Max Tokens = 100:AI最多回答100个Token
- 设置Max Tokens = 2000:AI最多回答2000个Token
为什么要限制?
- 控制费用(输出Token更贵)
- 避免AI废话太多
- 某些场景只需要简短回答
Top P(核采样)
Top P = 另一种控制随机性的方法
和Temperature类似,但原理不同:
- Top P = 0.1:只考虑概率最高的10%选项
- Top P = 0.9:考虑概率最高的90%选项
通常:
- 调Temperature或Top P,选一个就够了
- 大部分情况用Temperature更直观
Frequency Penalty 和 Presence Penalty
用来减少AI的重复
- Frequency Penalty:惩罚高频词,减少重复使用同一个词
- Presence Penalty:惩罚已出现的词,鼓励AI引入新话题
取值范围:-2.0 到 2.0
- 正值:减少重复
- 负值:允许更多重复
- 0:不干预
总结:这些概念怎么用?
日常使用(网页版)
如果你只用网页版,不需要关心这些参数,默认设置就够用了。
但了解这些概念,可以帮你:
- 理解为什么AI有时"忘记"之前说的话(Context限制)
- 理解为什么API用户能做到你做不到的事(参数控制)
- 为将来使用API打基础
使用API时
如果你决定用API,这些参数就非常重要:
基础设置(每次都要):
- model:选择模型(如
gpt-5.2、claude-sonnet-4.5) - max_tokens:限制回答长度
根据需求调整:
- temperature:事实性任务用0-0.5,创意任务用1-2
- top_p:通常默认值就好
- frequency_penalty:如果AI重复太多,设为0.5-1
成本优化:
- 用缓存功能省钱
- 控制max_tokens避免浪费
- 选择合适的模型(不是每次都要用最贵的)
- 注意不同模型的Token定义不同
下一篇预告
下一篇我们会讲:如何实际调用API
这是很多人期待的实战教程,包括:
- 如何获取API密钥
- 如何发送第一个API请求
- 几个重要的API调用平台介绍
- 免费或便宜的API调用方法
- 常见问题和解决方案
如果你想进阶使用AI、节省费用、或者做一些自动化的事情,这一篇不容错过!