Rance的AI新手教程05:API、Token等核心概念详解

前面几篇我们学会了如何使用AI工具,但你可能注意到,很多"老手"都在谈论API、Token、Temperature这些词,听起来很专业,让人摸不着头脑。

今天就用最简单的语言,把这些核心概念讲清楚。搞懂了这些,你就能真正理解AI是怎么工作的,用起来也会更得心应手。


API是什么?

用大白话解释API

API = Application Programming Interface(应用程序编程接口)

这个定义听起来很绕口,我们换个说法。

把AI想象成一家餐厅:

  • 网页版 = 你去餐厅堂食
    • 有漂亮的装修(网页界面)
    • 有服务员(按钮、输入框)
    • 你点菜,厨师做菜,服务员端上来
  • API = 你打电话叫外卖
    • 没有装修,直接对接厨房
    • 没有服务员,你直接跟厨师说
    • 你说要什么,厨师做好直接给你

核心区别:

  • 网页版:有界面,方便人类使用
  • API:没界面,方便程序使用

为什么要用API?

既然网页版这么方便,为什么还要用API呢?

原因一:自动化

假如你要让AI处理1000个文档,写1000篇摘要:

  • 网页版:你得复制粘贴1000次,点1000次发送
  • API:写个脚本,自动处理1000次,你去喝杯咖啡就好

原因二:集成到自己的应用

你想做一个自动回复机器人、一个内容生成工具、一个智能客服:

  • 网页版:做不到
  • API:可以把AI集成到你自己的程序里

原因三:成本更低

  • 网页版订阅:ChatGPT Plus $20/月,Claude Pro $20/月
  • API按量付费:你用多少付多少,轻度使用可能每月只要几美元

原因四:更灵活

  • 可以精确控制AI的参数(Temperature、最大长度等)
  • 可以批量处理
  • 可以自定义输入输出格式

API调用长什么样?

给你看一个最简单的例子(不用担心看不懂,后面会详细教):

1
2
3
4
5
6
7
8
# 用Python调用最新的GPT-5.2 API
response = openai.chat.completions.create(
    model="gpt-5.2",
    messages=[
        {"role": "user", "content": "你好,介绍一下自己"}
    ]
)
print(response.choices[0].message.content)

就这几行代码,AI就会回答你的问题,不需要打开浏览器。

截至 2026-01-30 官方API模型标识符示例:

  • OpenAI:gpt-5.2gpt-5.2-chat-latestgpt-5.2-pro
  • Anthropic Claude:claude-opus-4-5claude-sonnet-4-5
  • Google Gemini:gemini-3-pro-previewgemini-3-flash-preview

网页版 vs API 对比

对比项 网页版 API
使用方式 在浏览器里点点点 写代码调用
学习门槛 低,谁都会用 高,需要会点编程
适合场景 日常聊天、写文章 自动化、批量处理、集成应用
费用 按月订阅($20/月) 按量付费(用多少付多少)
灵活性 受限于网页功能 高度自定义
速度 一般 通常更快(没有界面渲染)

Token是什么?

Token的概念

Token = AI理解文本的最小单位

AI不像人类,看到"你好"就知道是两个字。AI需要把文字切碎成一小块一小块,每一块就叫一个Token。

举个例子:

中文:

  • “你好” ≈ 2个Token
  • “今天天气真好” ≈ 5-6个Token

英文:

  • “Hello” = 1个Token
  • “How are you today?” ≈ 5个Token

简单规律:

  • 英文:1个单词 ≈ 1个Token(约4个字符)
  • 中文:1个字 ≈ 0.5-2个Token(取决于AI模型)
  • 数字、标点:通常1个符号 = 1个Token

重要发现:不同AI对Token的定义不一样!

这是很多人不知道的秘密:同一段文字,在不同AI模型里的Token数量可能完全不同!

为什么会这样?因为每个AI公司都有自己的Tokenizer(分词器),它们切分文字的方式不一样。

举个实际例子:

同样一句话:“AI is revolutionizing market research.”

  • GPT-3:11个Token
  • GPT-3.5 和 GPT-4:9个Token
  • GPT-4o 和 GPT-5.2:8个Token

看到了吗?同样的话,在不同模型里Token数差了3个!

再举个中文例子:

“人工智能正在改变世界"这句话:

  • GPT-4o:可能是 10个Token
  • Claude Sonnet 4.5:可能是 12个Token
  • Gemini 3:可能是 8个Token

为什么会有差异?

每个AI公司训练模型时,用的分词方法不同:

  • OpenAI(GPT系列):使用BPE(Byte-Pair Encoding)分词法
  • Anthropic(Claude):使用自己优化的分词器
  • Google(Gemini):Gemini的文档说明"1个Token约等于4个字符”
  • DeepSeek:基于中文优化的分词器

这对你有什么影响?

1. 费用计算不能直接对比

假如你有一段1000字的中文:

  • 用GPT-5.2可能是 1500个Token
  • 用Claude Sonnet 4.5可能是 1600个Token
  • 用Gemini 3可能是 1400个Token

虽然都说自己"输入$X/1M Token",但实际花费可能差10-20%!

2. 不能用同一个Token计算器

  • OpenAI官方的Tokenizer(https://platform.openai.com/tokenizer)只能算GPT系列
  • Claude的Token要用Anthropic的计算方式
  • Gemini的Token要用Google的计算方式

3. 非英文语言差异更大

中文、日文、阿拉伯文等非英文语言,Token效率差异可能达到30-40%。因为大部分AI模型主要用英文训练,它们的Tokenizer对英文优化更好。

为什么Token很重要?

1. Token决定费用

API是按Token收费的,不是按字数。

举例(截至 2026-01-30 官方价格):

  • GPT-5.2:输入$1.75/1M Token,输出$14/1M Token
  • Claude Opus 4.5:输入$5/1M Token,输出$25/1M Token
  • Gemini 3 Flash:输入$0.50/1M Token,输出$3/1M Token(标准档)

你发了一段500 Token的文字,AI回复了1000 Token:

  • 用GPT-5.2费用 = (500 × 1.75 + 1000 × 14) / 1,000,000 = $0.01488(约1毛钱人民币)
  • 用Gemini 3 Flash = (500 × 0.08 + 1000 × 0.30) / 1,000,000 = $0.00034(约2分钱人民币)

2. Token决定上下文长度

每个AI模型都有Token限制:

  • GPT-5.2(API):最多400,000 Token
  • GPT-5.2-chat-latest:最多128,000 Token
  • Claude Sonnet 4.5:最多200,000 Token
  • Gemini 3 Pro Preview:最多1,048,576 Token(约1M)

这个限制包括:你的提问 + AI的回答 + 历史对话

如果超出限制会怎样?

  • AI会"忘记"最早的对话
  • 或者直接报错,不让你继续

怎么计算Token?

方法一:估算(不准确但快速)

  • 中文:字数 × 1.5
  • 英文:单词数 × 1.3

方法二:使用对应的在线工具

  • OpenAI(GPT系列):https://platform.openai.com/tokenizer
  • 通用Token计算器:https://token-counter.app(支持多个模型对比)
  • Gemini:使用Google AI Studio的count_tokens方法

重要提醒: 跨模型估算时,一定要用对应的工具,不能用GPT的Token数去估算Claude的费用!

输入Token、输出Token、缓存Token

API计费时,Token分三种:

1. 输入Token(Input Tokens)

  • 你发给AI的内容
  • 包括你的提问、上传的文档
  • 价格相对便宜

2. 输出Token(Output Tokens)

  • AI返回给你的内容
  • 包括AI的回答
  • 价格通常是输入Token的2-10倍

为什么输出更贵? 因为AI"思考"(生成文本)比"阅读"(处理输入)更消耗计算资源。

举例(GPT-5.2):

  • 输入:$1.75/1M Token
  • 输出:$14/1M Token(是输入的8倍!)

3. 缓存Token(Cached Tokens)

这是个省钱技巧!

如果你反复用相同的提示词(Prompt),AI可以把它缓存起来,下次就不用重新处理。

例子: 你有一个1000 Token的长提示词,问了10个问题:

  • 不用缓存:每次都处理1000 Token,总共10,000 Token
  • 用缓存:第一次1000 Token(正常价格),后面9次1000 Token(缓存价格,便宜90%)

支持缓存的AI:

  • Anthropic Claude(Prompt Caching)
  • OpenAI GPT-5.2(支持缓存,90%折扣)

缓存计费规则:

  • 首次读取:正常价格
  • 缓存命中:价格降低50-90%
  • 缓存有效期:通常5-10分钟

Temperature是什么?

Temperature的概念

Temperature = 控制AI回答的"随机性"或"创造性"

回忆一下第01篇我们讲过:AI本质上是在"算概率"。当你问"天空是什么颜色",AI会看到:

  • “蓝色"概率80%
  • “灰色"概率10%
  • “红色"概率5%

Temperature就是调整这个选择过程的参数。

Temperature的取值

Temperature的范围通常是0-2(或0-1,取决于平台):

Temperature = 0(最保守)

  • AI永远选概率最高的答案
  • 回答非常稳定、可预测
  • 同样的问题,每次答案几乎一样
  • 适合:事实性问题、代码生成、数据分析

Temperature = 1(平衡)

  • AI会按概率随机选择
  • 回答有一定变化,但不离谱
  • 大部分平台的默认值
  • 适合:日常对话、通用场景

Temperature = 2(最激进)

  • AI会尝试各种可能性
  • 回答非常多样化、有创意
  • 但可能不够准确,甚至胡说八道
  • 适合:创意写作、头脑风暴、艺术创作

举个实际例子

问题:给我的咖啡店起个名字

Temperature = 0:

  • “星巴克咖啡”(最常见、最安全的答案)
  • 每次都差不多

Temperature = 1:

  • “晨光咖啡馆”
  • “香浓时光”
  • “豆香小筑”
  • 有变化,但都合理

Temperature = 2:

  • “量子咖啡维度”
  • “时空泡沫实验室”
  • “宇宙拿铁终端”
  • 非常有创意,但可能太奇怪

什么时候调Temperature?

降低Temperature(0-0.5):

  • 写代码、debug
  • 数据分析、数学题
  • 翻译、总结
  • 任何需要准确性的任务

提高Temperature(1.5-2):

  • 写小说、诗歌
  • 起名字、想标语
  • 头脑风暴
  • 任何需要创意的任务

不同模型的Temperature可以在官网上查到,例如DeepSeek官网就会显示:

场景 温度
代码生成/数学解题 0.0
数据抽取/分析 1.0
通用对话 1.3
翻译 1.3
创意类写作/诗歌创作 1.5

网页版能调吗?

  • 大部分网页版不能直接调
  • 但API可以精确控制

第四部分:Context Length(上下文长度)

什么是Context Length?

Context Length = AI一次能"记住"多少内容

AI不像人类有长期记忆。每次对话,AI能记住的内容是有限的,这个限制就叫Context Length(上下文长度),单位是Token。

为什么AI会"忘记”?

你可能遇到过这种情况:

  • 跟AI聊了很久
  • 突然AI不记得一开始说的话了
  • 好像失忆了

原因:超出了Context Length限制

举例:

  • GPT-5.2的Context Length = 128,000 Token
  • 你和AI对话了50轮,累计用了130,000 Token
  • 超出限制后,AI会"忘掉"最早的对话

Context Length的实际影响

1. 影响对话长度

  • Context短:只能聊几十轮
  • Context长:可以聊几百轮

2. 影响文档处理能力

  • Context短:只能处理短文档
  • Context长:可以处理整本书

3. 影响费用

  • Context越长,处理越慢
  • Token越多,费用越高

怎么应对Context限制?

方法一:定期清空对话

  • 重要信息保存下来
  • 开启新对话
  • 重新告诉AI背景信息

方法二:总结历史对话

  • 让AI总结之前的内容
  • 把总结作为新对话的开头
  • 节省Token

方法三:选择大Context的模型

  • 需要处理长文档:用Gemini 3 Pro
  • 长期对话:用Claude Sonnet 4.5

其他重要概念

Max Tokens(最大输出长度)

Max Tokens = 限制AI单次回答的最大长度

  • 设置Max Tokens = 100:AI最多回答100个Token
  • 设置Max Tokens = 2000:AI最多回答2000个Token

为什么要限制?

  • 控制费用(输出Token更贵)
  • 避免AI废话太多
  • 某些场景只需要简短回答

Top P(核采样)

Top P = 另一种控制随机性的方法

和Temperature类似,但原理不同:

  • Top P = 0.1:只考虑概率最高的10%选项
  • Top P = 0.9:考虑概率最高的90%选项

通常:

  • 调Temperature或Top P,选一个就够了
  • 大部分情况用Temperature更直观

Frequency Penalty 和 Presence Penalty

用来减少AI的重复

  • Frequency Penalty:惩罚高频词,减少重复使用同一个词
  • Presence Penalty:惩罚已出现的词,鼓励AI引入新话题

取值范围:-2.0 到 2.0

  • 正值:减少重复
  • 负值:允许更多重复
  • 0:不干预

总结:这些概念怎么用?

日常使用(网页版)

如果你只用网页版,不需要关心这些参数,默认设置就够用了。

但了解这些概念,可以帮你:

  • 理解为什么AI有时"忘记"之前说的话(Context限制)
  • 理解为什么API用户能做到你做不到的事(参数控制)
  • 为将来使用API打基础

使用API时

如果你决定用API,这些参数就非常重要:

基础设置(每次都要):

  • model:选择模型(如gpt-5.2claude-sonnet-4.5
  • max_tokens:限制回答长度

根据需求调整:

  • temperature:事实性任务用0-0.5,创意任务用1-2
  • top_p:通常默认值就好
  • frequency_penalty:如果AI重复太多,设为0.5-1

成本优化:

  • 用缓存功能省钱
  • 控制max_tokens避免浪费
  • 选择合适的模型(不是每次都要用最贵的)
  • 注意不同模型的Token定义不同

下一篇预告

下一篇我们会讲:如何实际调用API

这是很多人期待的实战教程,包括:

  • 如何获取API密钥
  • 如何发送第一个API请求
  • 几个重要的API调用平台介绍
  • 免费或便宜的API调用方法
  • 常见问题和解决方案

如果你想进阶使用AI、节省费用、或者做一些自动化的事情,这一篇不容错过!

使用 Hugo 构建
主题 StackJimmy 设计