Claude Code Token 用量指南：如何查看、降低并规划限制（2026）

AI Free API Team

•2026年3月16日•最后更新 2026年4月2日•19 分钟阅读•Claude Code

Claude Code 并不存在一条统一的“用量进度条”。如果你使用的是 Pro 或 Max 套餐，它消耗的是与 Claude 网页端、桌面端、移动端共享的 5 小时会话和每周用量；如果你走的是 API 路径，它又会变成 RPM、输入 TPM、输出 TPM 与支出上限的问题。本文解释为什么 Claude Code 用量涨得这么快、如何用 `/status` 和 `/cost` 追踪它，以及怎样在不牺牲工作流的前提下降低消耗。

Claude Code Token 用量指南：如何查看、降低并规划限制（2026）

Claude Code 让人觉得“贵”，往往不是因为你发了很多提示词，而是因为它会把上下文、文件、工具结果和模型输出一起卷进代理式循环里。你只觉得自己在终端里发了一条请求，但 Claude Code 可能已经读了代码、跑了命令、检查了结果，再把这些内容重新带进下一轮。更容易让人混淆的是，“用量”现在并不是一个简单数字。如果你登录的是 Pro 或 Max，Claude Code 用的是和 Claude 网页端、桌面端、移动端共享的套餐额度，主要看 5 小时会话与每周限制；如果环境里存在 ANTHROPIC_API_KEY，或者你主动切到按量计费，它就不再像订阅功能，而是变成 API 流量，受 RPM、输入 TPM、输出 TPM 和支出限制约束。把这两套系统分开之后，大多数“Claude Code 为什么这么烧 Token”的问题都会清楚很多。

这篇文章基于 2026 年 4 月 2 日前公开可验证的信息，解释 Claude Code 当前到底怎样计算用量、为什么它会比普通聊天更快吃掉额度、怎样用 Settings > Usage、/status 和 /cost 看懂当前状态，以及在 Anthropic 最近更新帮助中心和文档之后，哪些优化依然真正有效。目标不是再给你一张很快过时的“每周大概能用多少小时”表，而是帮你建立一个可持续的判断框架：你现在到底应该缩小上下文、换模型、开启 extra usage，还是干脆把这次重负载冲刺切到 API 计费上。

快速结论

Claude Code 没有一条统一的“Token 进度条”。在 Pro 和 Max 上，它主要看与 Claude 共享的 5 小时会话和每周限制；在 API 模式下，它主要看 RPM、输入 TPM、输出 TPM 和支出上限。
真正决定用量的往往不是提示词条数，而是上下文大小。代码库范围、长会话、频繁工具调用、MCP 开销和更贵的模型都会叠加。
最值得养成的监控习惯是：在套餐路径下看 Settings > Usage 与 /status，在会话级成本判断时看 /cost。个人 Pro 或 Max 用户目前没有完整的 Claude Code analytics 仪表盘。
Sonnet 4.6 和 Opus 4.6 在 Claude Code 中可以走到 1M 上下文，但在付费 Claude 套餐里，这和 extra usage 的访问条件相关。更大的上下文窗口确实有用，但上下文卫生差的时候，它同样会让成本更快放大。
最有效的节省方法通常不是“少发几句”，而是清掉陈旧会话、及时 compact、默认使用 Sonnet 或 Haiku，并减少 Claude 在动手前必须重新读取的内容。
如果你明明感觉自己没做什么却很快见底，先确认你到底走的是套餐路径还是 API 路径，再检查当前模型、上下文大小，以及是否处在更容易被收紧的高峰时段。

Claude Code 的“用量”现在到底指什么

展示 Claude Code 用量如何分成套餐路径与 API 计费路径的图示

很多人一上来就把 Claude Code 的用量理解成同一套额度，这是最容易出错的地方。Anthropic 现在实际上给了两套不同的计量系统，而 Claude Code 会根据你的认证方式在这两套系统之间切换。

如果你使用的是 Pro 或 Max 订阅，Claude Code 会从和 Claude 网页端、桌面端、移动端共享的套餐额度里扣减。Anthropic 当前的帮助中心会明确引导你去看 Settings > Usage，那里会显示你当前的 5 小时会话限制 和 每周限制。这才是个人订阅用户当前应该采用的官方框架。旧文章里常见的“每日配额”“固定提示词次数”“每周大概多少小时”这种说法，现在都比看起来更容易过时。帮助页面还明确写了两件过去很多人靠猜的事：第一，Claude 和 Claude Code 共享用量；第二，包含额度用尽后，你可以等待重置、开启 extra usage，或者切到按量付费的 API 模式。

如果你使用的是 带 API key 的 Claude Code，计量方式就完全换了。Anthropic 的 API 文档会按 每分钟请求数、每分钟输入 Token、每分钟输出 Token 来算，再叠加不同层级的支出上限。对于 API 用户，关键问题不再是“我的套餐还剩多少”，而是“我撞到了哪一档 rate bucket”。你可能 Console 里还有余额，但已经因为 ITPM 或 RPM 被挡住了。

还有一个经常让人误判的细节：如果环境变量里设置了 ANTHROPIC_API_KEY，Anthropic 的帮助页面明确说 Claude Code 会优先使用这个 key，而不是你的 Pro 或 Max 订阅。于是你以为自己在“烧套餐额度”，实际上已经在走 API 计费。很多人说“Claude Code 一下子把 Token 用完了”，第一件要确认的事情不是具体用了多少 Token，而是当前到底走的是哪条计费路径。

更稳妥的理解方式是：Pro 和 Max 用户主要管理 5 小时和每周额度，API 用户主要管理吞吐和支出。两条路径给人的体感可能相似，因为最后都会把你拦下来，但背后的杠杆完全不同。套餐用户要考虑的是会话窗口、weekly limit、extra usage 和时段影响；API 用户要考虑的是 RPM、ITPM、OTPM、缓存命中和支出上限。把这两件事混在一起，Claude Code 才会显得像个谜。

为什么 Claude Code 比普通聊天更容易烧掉 Token

展示上下文、工具循环、模型路线与长会话如何放大 Claude Code 用量的图示

Claude Code 看起来比聊天更“费”，原因很简单：它不是一个披着终端外壳的单轮聊天工具，而是一个会不断读取上下文、调用工具、修改文件、运行命令、检查结果并继续迭代的代理式编码系统。

最主要的驱动因素是 上下文累积。Anthropic 当前的 Claude Code cost 指南把核心原则写得很直白：成本和上下文大小直接相关。这个道理放到编码工作流里会更明显，因为每多读一个文件、每多带一段对话历史、每多保留一个 MCP 工具定义，下一轮都更重。一个看似“高效”的长线程，往往会在后半段变成最贵的工作方式，因为每次后续请求都要拖着更多历史往前走。

第二个因素是 工具密集型工作。Claude Code 的价值恰恰来自它不只是“回答你”，而是会去搜索、读取、编辑、执行和验证。所以，同一句“帮我修这个 Bug”，如果只在网页聊天里讨论，和让 Claude Code 真的进仓库动手，成本会完全不是一个级别。你看到的只是一个请求，但 Claude Code 可能已经做了多次工具调用，而每次调用又会重新带上系统提示、上下文和新产出的结果。

第三个因素是 模型路线和上下文窗口本身。Anthropic 当前帮助页面说，付费 Claude 套餐一般是 200K 上下文，但 Sonnet 4.6 和 Opus 4.6 在 Claude Code 里可以走到 1M 上下文；API 文档也分别说明 Sonnet 4.6 和 Opus 4.6 支持 1M。更大的窗口确实对大型仓库、跨模块设计和长链路任务很有帮助，但它不是“免费理解力”。它只是让你能够带更多内容。带得越多，成本也会越高。

第四个因素是 你感觉不到的后台开销。Claude Code 文档现在会明确提到：prompt caching 有助于复用重复内容，auto-compaction 会在上下文增长后压缩历史，而且即使工具空闲，一些后台功能也会消耗少量 Token。官方把这部分描述为很小的成本，通常每个会话低于 $0.04，但关键不是这个绝对数字，而是它提醒你：Claude Code 的用量从来不只对应“我打了多少字”。

这也是为什么“我明明没发几条 prompt”是一个很差的成本指标。真正要看的，是这次任务把多大范围的代码带进了上下文、调用了多少工具、会话保持了多久、当前用的是哪条模型路线，以及 Claude 是否一遍又一遍重读了本可以提前缩小的内容。

不靠感觉，应该怎么查看当前用量

如果一篇“用量指南”最后还是让你靠体感去猜，那基本没什么价值。Anthropic 现在确实给了几种可用的查看方法，只是它们分散在不同表层。

对于 Pro 和 Max 订阅用户，最关键的外部入口是 Settings > Usage。当前帮助页面说明那里会显示 当前 5 小时会话的使用情况、每周限制 和重置时间。回到 Claude Code 终端里，Anthropic 也明确建议个人订阅用户用 /status 来看剩余分配。如果你的目标是尽量留在套餐内、不让工作流意外掉到 API 计费，/status 应该是每次大任务前先看的地方。

如果你想判断 这一个会话为什么突然变贵，更关键的是 /cost。Anthropic 的成本文档明确把它作为 Claude Code 内部查看 Token 用量的主要命令。你要回答的不是“我的套餐还剩多少”而是“为什么这个线程开始失控”，那就应该优先看 /cost，而不是猜。文档还提到可以把成本展示放进状态栏。如果你几乎天天用 Claude Code，这个设置很值得开。

对于 Team、Enterprise 或 Console 用户，Anthropic 现在已经提供了更完整的 Claude Code analytics，可以看活动、建议采纳率、被接受的代码行数和花费等信息。但 Anthropic 的帮助页同样写得很清楚：个人 Pro 和 Max 用户目前没有这套 Claude Code usage analytics。所以论坛里那种“去看看你没打开的隐藏 dashboard”式建议，对个人订阅用户并不成立。

可以把当前工具栈粗略理解成这样：

你想回答的问题	最合适的查看方式
我的 Pro / Max 套餐还剩多少？	`Settings > Usage` 和 `/status`
为什么这个 Claude Code 会话突然很贵？	`/cost` 与状态栏成本显示
团队整体怎样使用 Claude Code？	Claude Code analytics（Team / Enterprise / Console）
我到底撞到了哪一档 API 限制？	429 响应头、`retry-after` 和 Console 限制页

如果只保留一个新习惯，我会建议你保留这个：不要再用感觉判断 Claude Code 的用量。在开始重任务前先看 /status，会话中间看 /cost。这比互联网上大多数“每周大概能用多久”的估算表都更可靠。

现在真正重要的定价与限制模型

比较 Claude Code 的 Pro、Max 与 API 三条访问路径的图示

Anthropic 在 2026 年 4 月的公开价格页面，对订阅价格说得很明确，但对“每个套餐到底等于多少精确容量”说得更保守。所以写这部分时，最好把 公开价格合同 和 未公开的有效容量 分开。

在 个人订阅套餐 这边，Anthropic 当前价格页写明 Pro 为 $20/月，年付折合 $17/月，并且明确写着包含 Claude Code 与 Claude Cowork。Max 从 $100/月起，提供相当于 Pro 的 5 倍或 20 倍使用量，同时有更高输出限制和高峰期优先权。这些是当前稳定、公开、可验证的合同信息。比起第三方文章里那些“Pro 每周大概能跑多少小时”之类的估算，直接锚定官方对价格和相对容量的表述更稳妥。如果你主要想解决“Pro 够不够、Max 到底值不值”，可以继续看我们已有的 Claude Code Pro vs Max 对比和 Claude Code 定价指南。

在 API 计费 这边，Anthropic 则给出了明确的 Token 价格。到 2026 年 4 月 2 日为止，价格页显示 Sonnet 4.6 为每百万输入 Token $3、输出 Token $15，Opus 4.6 为 $5 / $25，Haiku 4.5 为 $1 / $5。Prompt caching 会单独计价，Batch 处理依然写着 50% 折扣。如果你的工作方式本来就是短时间、高强度、多轮自动化，那 API 路线往往比订阅营销文案更容易精确算账。

API 层级表 同样非常关键，因为它告诉你“为什么速度出问题”到底是预算问题还是桶限制问题：

API 层级	充值门槛	RPM	Sonnet 输入 TPM	Sonnet 输出 TPM
Tier 1	$5	50	30,000	8,000
Tier 2	$40	1,000	450,000	90,000
Tier 3	$200	2,000	800,000	160,000
Tier 4	$400	4,000	2,000,000	400,000

这些数值都来自 Anthropic 当前 API rate-limit 文档。文档还特别强调了一点：对于多数 Claude 模型，缓存读取不会计入 ITPM。这就是为什么上下文复用做得好，会让 API 路径看起来像“白赚了一档层级”。

上下文窗口这件事也比旧文章里写得更复杂。Anthropic 当前帮助页说付费 Claude 套餐一般是 200K 上下文，但 Sonnet 4.6 和 Opus 4.6 在 Claude Code 中可以走 1M；API 文档则分别说明 Sonnet 4.6 和 Opus 4.6 支持 1M，其余模型通常仍在 200K+。真正有用的结论其实很简单：更大的窗口只在你确实需要时才有价值；上下文选择一旦偷懒，更大的窗口只会让浪费更贵。

所以到底该怎样看套餐选择？如果你想要一个大致可预测的月度支出，而且日常工作负载不至于全天满负荷，Pro 或 Max 加 extra usage 往往是最干净的路径。如果你经常做 burst automation、代理式批处理、团队工作流，或者你就是希望成本能按单次任务拆清楚，API 计费通常更容易管理。真正错误的习惯，是一遇到用量焦虑就默认“我该升更大的套餐”。有时候你需要的只是更干净的会话。

七个不拖慢效率的 Claude Code 降耗方法

最好的优化，不是让你少用 Claude Code，而是让 Claude 少做不必要的工作。

1. 不相关任务之间及时清理旧上下文。 Anthropic 的成本文档会明确建议在切到不相关任务时使用 /clear，因为陈旧上下文会浪费每一轮的 Token。这几乎是重度用户杠杆最高的习惯。如果你还想保留线程，可以先给它改名，之后再 /resume 回来。真正昂贵的不是“多开几个会话”，而是把完全不同的任务硬塞进同一条长线程里。

2. 线程变胖之前就做 compact。 Anthropic 也明确推荐 /compact，甚至允许你在 CLAUDE.md 里补充压缩指令。这适合“任务仍然相关，但对话已经变得很臃肿”的场景。好的 compact 指令应该足够具体，例如保留当前 Bug 假设、改过的文件和剩余测试失败点，不要让 Claude 自己猜该留下什么。

3. 看 /cost，不要只靠直觉。 如果你总是在“已经不爽了”之后才去看成本，那通常已经太晚。会话中间主动跑 /cost，或者把成本显示放进状态栏，问题会在变严重之前暴露出来。

4. 默认从 Sonnet 开始，简单任务更频繁地交给 Haiku。 Anthropic 的成本文档明确说 Sonnet 足够覆盖大多数编码任务，价格又明显低于 Opus；同时也提到 Haiku 适合更简单的子任务。现实里，这意味着格式整理、说明文案、小改动、简单重构不应一律走最贵路线。把 Opus 留给真正复杂的架构判断、难调试、多步推理。

5. 降低 MCP 和探索性开销。 Anthropic 现在会说明 MCP 工具定义默认延迟加载，而 /context 可以帮助你看清哪些内容在吃上下文。文档还建议，只要有成熟 CLI，就优先走 CLI，因为很多场景下它比把一整个 MCP 服务器定义带进会话更省。git、gh、rg、云平台 CLI 往往都比“漂亮但厚重的上下文层”更划算。

6. 让 Claude 在动手前少读一点。 Anthropic 现在推荐在强类型语言里使用 code intelligence 插件，因为更准确的符号导航能减少无意义的文件读取。文档也提到 hooks 和 skills 可以帮助你在 Claude 真正载入上下文前，先过滤或预处理输入。这类优化的价值常被低估。如果你的流程总是先把大日志、完整测试输出或同一套架构发现过程重复喂进去，问题通常不在套餐，而在预处理做得不够。

7. 为当前这一周选对付款模式。 Anthropic 当前的 Pro / Max 帮助页已经把两条官方逃生路线写得很明确：额度不够时，可以开启 extra usage，或者直接切到 pay-as-you-go。对于一次性的迁移冲刺、代理大量跑任务的一周、或者明显高于平常的重构周期，这通常比“死守订阅额度”更理性。有时候最省钱的做法并不是继续压榨现有套餐，而是暂时切到更适合突发负载的表层。

这七条背后的共同逻辑其实只有一句话：缩小上下文、明确模型路线、别让 Claude 一遍遍重新理解你已经知道的东西。

如果你还是觉得用量不对劲

一篇靠谱的用量文章，也应该告诉你什么时候问题可能不完全在你自己。至少有三种情况，会让 Claude Code 的体感和你的预期明显错位。

第一种是 认证路径搞错了。如果环境里有 API key，Claude Code 可能直接走 API 计费，而不是你的订阅。用户体感上会说“Claude Code 怎么突然这么烧 Token”，但真正发生的可能是你不知不觉换了一条计费路线。

第二种是 限制行为本身会波动。2026 年 3 月下旬，GitHub issue、Reddit 讨论和科技媒体都出现过“5 小时额度掉得特别快”“高峰期更容易被收紧”的反馈。Anthropic 的帮助页已经承认 5 小时和每周限制存在，但并不会公开一套永远不变的动态调度表。比较稳妥的结论不是“所有抱怨都是真的”，而是：任何静态估算都不如当前产品里的实时指标更可靠。当你的体验和老文章冲突时，优先相信当下的 Settings > Usage、/status 和 /cost。

第三种是 默认走了过大的上下文路线。最近围绕 1M 上下文的讨论就很容易让人误解，以为“更大的窗口一定更划算”。Anthropic 的官方页面确实确认了 Sonnet 4.6 和 Opus 4.6 在 Claude Code 中能走到 1M，但并没有承诺在所有时间窗口、所有认证路径下，体感都完全一致。如果你最近突然觉得掉得特别快，先按最简单的顺序排查：更小的模型、更小的上下文、新会话、确认没有意外走 API key，再考虑是不是高峰时段问题。

如果你碰到的是明确的报错提示，而不是单纯想理解用量模型，可以继续看我们的 Claude Code “Rate limit reached” 修复指南。这篇文章解决的是“它为什么会这样”；那篇文章解决的是“我现在该怎么恢复工作”。

常见问题

Claude Code 和 Claude 网页端是分开的额度吗？

对于个人 Pro 和 Max 用户，不是。Anthropic 当前帮助中心明确说明，Claude 与 Claude Code 共用同一套套餐分配。如果你走的是 API 计费，那又是完全独立的一套系统，有自己的速率限制和支出逻辑。

Claude Code 里的 1M 上下文是默认都有的吗？

不是。Anthropic 当前帮助页面说明，付费 Claude 套餐一般是 200K，上到 Sonnet 4.6 和 Opus 4.6 的 1M 能力则与 Claude Code 新规则和 extra usage 条件相关。API 路径下，Anthropic 也明确写了 Sonnet 4.6 与 Opus 4.6 支持 1M。不要把“模型支持 1M”理解成“任何路径下都应该默认开最大上下文”。

个人 Pro 或 Max 可以看到 Claude Code analytics 吗？

目前不行。Anthropic 的 usage analytics 帮助页明确写了，这套分析能力面向 Team、Enterprise 和 API Console 用户，不对个人 Pro 或 Max 开放。个人用户应该用 Settings > Usage、/status 和 /cost。

Prompt caching 对 Claude Code 用量真的有帮助吗？

有，但不同路径的帮助方式不一样。Anthropic 的 API 文档明确说明，多数模型的 cache reads 不计入 ITPM，这会直接改善 API 吞吐。更广义地说，Anthropic 也一直把缓存和重复内容复用视为“让额度走得更远”的关键方法。实操上，你只需要记住：稳定重复的上下文，永远比让 Claude 每次都从头读一遍更省。

我应该继续用 Pro、升级到 Max，还是切到 API 计费？

如果 Claude Code 对你有帮助，但还不是全天候主力，先从 Pro 开始通常最合理。平时工作里经常在完成任务前被打断，再考虑 Max。遇到一次性的重负载冲刺、自动化链路、或者你就是需要把成本和吞吐分开管理时，切到 API 计费通常更容易算清楚。

为什么 Claude Code 一开始还好，过一会儿突然就变贵了？

因为会话会越来越重。对话历史、载入的文件、工具结果和模型路线都会持续累积。问题通常不在“你又发了几条 prompt”，而在于你让后续每一轮都拖着更多旧内容往前走。最常见的修复不是少问几句，而是重开会话、及时 compact，或者缩小这次任务真正需要的上下文范围。

Claude Code 让人觉得“贵”，往往不是因为你发了很多提示词，而是因为它会把上下文、文件、工具结果和模型输出一起卷进代理式循环里。你只觉得自己在终端里发了一条请求，但 Claude Code 可能已经读了代码、跑了命令、检查了结果，再把这些内容重新带进下一轮。更容易让人混淆的是，“用量”现在并不是一个简单数字。如果你登录的是 Pro 或 Max，Claude Code 用的是和 Claude 网页端、桌面端、移动端共享的套餐额度，主要看 5 小时会话与每周限制；如果环境里存在 ANTHROPIC_API_KEY，或者你主动切到按量计费，它就不再像订阅功能，而是变成 API 流量，受 RPM、输入 TPM、输出 TPM 和支出限制约束。把这两套系统分开之后，大多数“Claude Code 为什么这么烧 Token”的问题都会清楚很多。

这篇文章基于 2026 年 4 月 2 日前公开可验证的信息，解释 Claude Code 当前到底怎样计算用量、为什么它会比普通聊天更快吃掉额度、怎样用 Settings Usage、/status 和 /cost 看懂当前状态，以及在 Anthropic 最近更新帮助中心和文档之后，哪些优化依然真正有效。目标不是再给你一张很快过时的“每周大概能用多少小时”表，而是帮你建立一个可持续的判断框架：你现在到底应该缩小上下文、换模型、开启 extra usage，还是干脆把这次重负载冲刺切到 API 计费上。

快速结论

- Claude Code 没有一条统一的“Token 进度条”。在 Pro 和 Max 上，它主要看与 Claude 共享的 5 小时会话和每周限制；在 API 模式下，它主要看 RPM、输入 TPM、输出 TPM 和支出上限。 - 真正决定用量的往往不是提示词条数，而是上下文大小。代码库范围、长会话、频繁工具调用、MCP 开销和更贵的模型都会叠加。 - 最值得养成的监控习惯是：在套餐路径下看 Settings Usage 与 /status，在会话级成本判断时看 /cost。个人 Pro 或 Max 用户目前没有完整的 Claude Code analytics 仪表盘。 - Sonnet 4.6 和 Opus 4.6 在 Claude Code 中可以走到 1M 上下文，但在付费 Claude 套餐里，这和 extra usage 的访问条件相关。更大的上下文窗口确实有用，但上下文卫生差的时候，它同样会让成本更快放大。 - 最有效的节省方法通常不是“少发几句”，而是清掉陈旧会话、及时 compact、默认使用 Sonnet 或 Haiku，并减少 Claude 在动手前必须重新读取的内容。 - 如果你明明感觉自己没做什么却很快见底，先确认你到底走的是套餐路径还是 API 路径，再检查当前模型、上下文大小，以及是否处在更容易被收紧的高峰时段。

Claude Code 的“用量”现在到底指什么

如果你使用的是 Pro 或 Max 订阅，Claude Code 会从和 Claude 网页端、桌面端、移动端共享的套餐额度里扣减。Anthropic 当前的帮助中心会明确引导你去看 Settings Usage，那里会显示你当前的 5 小时会话限制和每周限制。这才是个人订阅用户当前应该采用的官方框架。旧文章里常见的“每日配额”“固定提示词次数”“每周大概多少小时”这种说法，现在都比看起来更容易过时。帮助页面还明确写了两件过去很多人靠猜的事：第一，Claude 和 Claude Code 共享用量；第二，包含额度用尽后，你可以等待重置、开启 extra usage，或者切到按量付费的 API 模式。

如果你使用的是带 API key 的 Claude Code，计量方式就完全换了。Anthropic 的 API 文档会按每分钟请求数、每分钟输入 Token、每分钟输出 Token 来算，再叠加不同层级的支出上限。对于 API 用户，关键问题不再是“我的套餐还剩多少”，而是“我撞到了哪一档 rate bucket”。你可能 Console 里还有余额，但已经因为 ITPM 或 RPM 被挡住了。

还有一个经常让人误判的细节：如果环境变量里设置了 ANTHROPIC_API_KEY，Anthropic 的帮助页面明确说 Claude Code 会优先使用这个 key，而不是你的 Pro 或 Max 订阅。于是你以为自己在“烧套餐额度”，实际上已经在走 API 计费。很多人说“Claude Code 一下子把 Token 用完了”，第一件要确认的事情不是具体用了多少 Token，而是当前到底走的是哪条计费路径。

更稳妥的理解方式是：Pro 和 Max 用户主要管理 5 小时和每周额度，API 用户主要管理吞吐和支出。两条路径给人的体感可能相似，因为最后都会把你拦下来，但背后的杠杆完全不同。套餐用户要考虑的是会话窗口、weekly limit、extra usage 和时段影响；API 用户要考虑的是 RPM、ITPM、OTPM、缓存命中和支出上限。把这两件事混在一起，Claude Code 才会显得像个谜。

为什么 Claude Code 比普通聊天更容易烧掉 Token

最主要的驱动因素是上下文累积。Anthropic 当前的 Claude Code cost 指南把核心原则写得很直白：成本和上下文大小直接相关。这个道理放到编码工作流里会更明显，因为每多读一个文件、每多带一段对话历史、每多保留一个 MCP 工具定义，下一轮都更重。一个看似“高效”的长线程，往往会在后半段变成最贵的工作方式，因为每次后续请求都要拖着更多历史往前走。

第二个因素是工具密集型工作。Claude Code 的价值恰恰来自它不只是“回答你”，而是会去搜索、读取、编辑、执行和验证。所以，同一句“帮我修这个 Bug”，如果只在网页聊天里讨论，和让 Claude Code 真的进仓库动手，成本会完全不是一个级别。你看到的只是一个请求，但 Claude Code 可能已经做了多次工具调用，而每次调用又会重新带上系统提示、上下文和新产出的结果。

第三个因素是模型路线和上下文窗口本身。Anthropic 当前帮助页面说，付费 Claude 套餐一般是 200K 上下文，但 Sonnet 4.6 和 Opus 4.6 在 Claude Code 里可以走到 1M 上下文；API 文档也分别说明 Sonnet 4.6 和 Opus 4.6 支持 1M。更大的窗口确实对大型仓库、跨模块设计和长链路任务很有帮助，但它不是“免费理解力”。它只是让你能够带更多内容。带得越多，成本也会越高。

第四个因素是你感觉不到的后台开销。Claude Code 文档现在会明确提到：prompt caching 有助于复用重复内容，auto-compaction 会在上下文增长后压缩历史，而且即使工具空闲，一些后台功能也会消耗少量 Token。官方把这部分描述为很小的成本，通常每个会话低于 $0.04，但关键不是这个绝对数字，而是它提醒你：Claude Code 的用量从来不只对应“我打了多少字”。

不靠感觉，应该怎么查看当前用量

如果一篇“用量指南”最后还是让你靠体感去猜，那基本没什么价值。Anthropic 现在确实给了几种可用的查看方法，只是它们分散在不同表层。

对于 Pro 和 Max 订阅用户，最关键的外部入口是 Settings Usage。当前帮助页面说明那里会显示当前 5 小时会话的使用情况、每周限制和重置时间。回到 Claude Code 终端里，Anthropic 也明确建议个人订阅用户用 /status 来看剩余分配。如果你的目标是尽量留在套餐内、不让工作流意外掉到 API 计费，/status 应该是每次大任务前先看的地方。

如果你想判断这一个会话为什么突然变贵，更关键的是 /cost。Anthropic 的成本文档明确把它作为 Claude Code 内部查看 Token 用量的主要命令。你要回答的不是“我的套餐还剩多少”而是“为什么这个线程开始失控”，那就应该优先看 /cost，而不是猜。文档还提到可以把成本展示放进状态栏。如果你几乎天天用 Claude Code，这个设置很值得开。

对于 Team、Enterprise 或 Console 用户，Anthropic 现在已经提供了更完整的 Claude Code analytics，可以看活动、建议采纳率、被接受的代码行数和花费等信息。但 Anthropic 的帮助页同样写得很清楚：个人 Pro 和 Max 用户目前没有这套 Claude Code usage analytics。所以论坛里那种“去看看你没打开的隐藏 dashboard”式建议，对个人订阅用户并不成立。

可以把当前工具栈粗略理解成这样：

如果只保留一个新习惯，我会建议你保留这个：不要再用感觉判断 Claude Code 的用量。在开始重任务前先看 /status，会话中间看 /cost。这比互联网上大多数“每周大概能用多久”的估算表都更可靠。

现在真正重要的定价与限制模型

Anthropic 在 2026 年 4 月的公开价格页面，对订阅价格说得很明确，但对“每个套餐到底等于多少精确容量”说得更保守。所以写这部分时，最好把公开价格合同和未公开的有效容量分开。

在个人订阅套餐这边，Anthropic 当前价格页写明 Pro 为 $20/月，年付折合 $17/月，并且明确写着包含 Claude Code 与 Claude Cowork。Max 从 $100/月起，提供相当于 Pro 的 5 倍或 20 倍使用量，同时有更高输出限制和高峰期优先权。这些是当前稳定、公开、可验证的合同信息。比起第三方文章里那些“Pro 每周大概能跑多少小时”之类的估算，直接锚定官方对价格和相对容量的表述更稳妥。如果你主要想解决“Pro 够不够、Max 到底值不值”，可以继续看我们已有的 Claude Code Pro vs Max 对比和 Claude Code 定价指南。

在 API 计费这边，Anthropic 则给出了明确的 Token 价格。到 2026 年 4 月 2 日为止，价格页显示 Sonnet 4.6 为每百万输入 Token $3、输出 Token $15，Opus 4.6 为 $5 / $25，Haiku 4.5 为 $1 / $5。Prompt caching 会单独计价，Batch 处理依然写着 50% 折扣。如果你的工作方式本来就是短时间、高强度、多轮自动化，那 API 路线往往比订阅营销文案更容易精确算账。

API 层级表同样非常关键，因为它告诉你“为什么速度出问题”到底是预算问题还是桶限制问题：

这些数值都来自 Anthropic 当前 API rate-limit 文档。文档还特别强调了一点：对于多数 Claude 模型，缓存读取不会计入 ITPM。这就是为什么上下文复用做得好，会让 API 路径看起来像“白赚了一档层级”。

上下文窗口这件事也比旧文章里写得更复杂。Anthropic 当前帮助页说付费 Claude 套餐一般是 200K 上下文，但 Sonnet 4.6 和 Opus 4.6 在 Claude Code 中可以走 1M；API 文档则分别说明 Sonnet 4.6 和 Opus 4.6 支持 1M，其余模型通常仍在 200K+。真正有用的结论其实很简单：更大的窗口只在你确实需要时才有价值；上下文选择一旦偷懒，更大的窗口只会让浪费更贵。

所以到底该怎样看套餐选择？如果你想要一个大致可预测的月度支出，而且日常工作负载不至于全天满负荷，Pro 或 Max 加 extra usage 往往是最干净的路径。如果你经常做 burst automation、代理式批处理、团队工作流，或者你就是希望成本能按单次任务拆清楚，API 计费通常更容易管理。真正错误的习惯，是一遇到用量焦虑就默认“我该升更大的套餐”。有时候你需要的只是更干净的会话。

七个不拖慢效率的 Claude Code 降耗方法

最好的优化，不是让你少用 Claude Code，而是让 Claude 少做不必要的工作。

1. 不相关任务之间及时清理旧上下文。 Anthropic 的成本文档会明确建议在切到不相关任务时使用 /clear，因为陈旧上下文会浪费每一轮的 Token。这几乎是重度用户杠杆最高的习惯。如果你还想保留线程，可以先给它改名，之后再 /resume 回来。真正昂贵的不是“多开几个会话”，而是把完全不同的任务硬塞进同一条长线程里。

2. 线程变胖之前就做 compact。 Anthropic 也明确推荐 /compact，甚至允许你在 CLAUDE.md 里补充压缩指令。这适合“任务仍然相关，但对话已经变得很臃肿”的场景。好的 compact 指令应该足够具体，例如保留当前 Bug 假设、改过的文件和剩余测试失败点，不要让 Claude 自己猜该留下什么。

3. 看 /cost，不要只靠直觉。如果你总是在“已经不爽了”之后才去看成本，那通常已经太晚。会话中间主动跑 /cost，或者把成本显示放进状态栏，问题会在变严重之前暴露出来。

4. 默认从 Sonnet 开始，简单任务更频繁地交给 Haiku。 Anthropic 的成本文档明确说 Sonnet 足够覆盖大多数编码任务，价格又明显低于 Opus；同时也提到 Haiku 适合更简单的子任务。现实里，这意味着格式整理、说明文案、小改动、简单重构不应一律走最贵路线。把 Opus 留给真正复杂的架构判断、难调试、多步推理。

5. 降低 MCP 和探索性开销。 Anthropic 现在会说明 MCP 工具定义默认延迟加载，而 /context 可以帮助你看清哪些内容在吃上下文。文档还建议，只要有成熟 CLI，就优先走 CLI，因为很多场景下它比把一整个 MCP 服务器定义带进会话更省。git、gh、rg、云平台 CLI 往往都比“漂亮但厚重的上下文层”更划算。

6. 让 Claude 在动手前少读一点。 Anthropic 现在推荐在强类型语言里使用 code intelligence 插件，因为更准确的符号导航能减少无意义的文件读取。文档也提到 hooks 和 skills 可以帮助你在 Claude 真正载入上下文前，先过滤或预处理输入。这类优化的价值常被低估。如果你的流程总是先把大日志、完整测试输出或同一套架构发现过程重复喂进去，问题通常不在套餐，而在预处理做得不够。

7. 为当前这一周选对付款模式。 Anthropic 当前的 Pro / Max 帮助页已经把两条官方逃生路线写得很明确：额度不够时，可以开启 extra usage，或者直接切到 pay-as-you-go。对于一次性的迁移冲刺、代理大量跑任务的一周、或者明显高于平常的重构周期，这通常比“死守订阅额度”更理性。有时候最省钱的做法并不是继续压榨现有套餐，而是暂时切到更适合突发负载的表层。

这七条背后的共同逻辑其实只有一句话：缩小上下文、明确模型路线、别让 Claude 一遍遍重新理解你已经知道的东西。

如果你还是觉得用量不对劲

一篇靠谱的用量文章，也应该告诉你什么时候问题可能不完全在你自己。至少有三种情况，会让 Claude Code 的体感和你的预期明显错位。

第一种是认证路径搞错了。如果环境里有 API key，Claude Code 可能直接走 API 计费，而不是你的订阅。用户体感上会说“Claude Code 怎么突然这么烧 Token”，但真正发生的可能是你不知不觉换了一条计费路线。

第二种是限制行为本身会波动。2026 年 3 月下旬，GitHub issue、Reddit 讨论和科技媒体都出现过“5 小时额度掉得特别快”“高峰期更容易被收紧”的反馈。Anthropic 的帮助页已经承认 5 小时和每周限制存在，但并不会公开一套永远不变的动态调度表。比较稳妥的结论不是“所有抱怨都是真的”，而是：任何静态估算都不如当前产品里的实时指标更可靠。当你的体验和老文章冲突时，优先相信当下的 Settings Usage、/status 和 /cost。

第三种是默认走了过大的上下文路线。最近围绕 1M 上下文的讨论就很容易让人误解，以为“更大的窗口一定更划算”。Anthropic 的官方页面确实确认了 Sonnet 4.6 和 Opus 4.6 在 Claude Code 中能走到 1M，但并没有承诺在所有时间窗口、所有认证路径下，体感都完全一致。如果你最近突然觉得掉得特别快，先按最简单的顺序排查：更小的模型、更小的上下文、新会话、确认没有意外走 API key，再考虑是不是高峰时段问题。

常见问题

Claude Code 和 Claude 网页端是分开的额度吗？

Claude Code 里的 1M 上下文是默认都有的吗？

个人 Pro 或 Max 可以看到 Claude Code analytics 吗？

目前不行。Anthropic 的 usage analytics 帮助页明确写了，这套分析能力面向 Team、Enterprise 和 API Console 用户，不对个人 Pro 或 Max 开放。个人用户应该用 Settings Usage、/status 和 /cost。

Prompt caching 对 Claude Code 用量真的有帮助吗？

我应该继续用 Pro、升级到 Max，还是切到 API 计费？

为什么 Claude Code 一开始还好，过一会儿突然就变贵了？

#Claude Code #Token 用量 #用量限制 #API 计费

分享文章:

laozhang.ai

一个 API，所有 AI 模型

文档

AI 图片

Gemini 3 Pro Image

$0.05/张

官方2折

AI 视频

Sora 2 · Veo 3.1

$0.15/个

异步API

AI 对话

GPT · Claude · Gemini

200+ 模型

同官方价

已服务 10万+ 开发者·失败不扣费·企业级稳定·支付宝/微信支付

|@laozhang_cn|送$0.1