Claude Code 요청 제한은 겉보기보다 시스템이 훨씬 복잡하기 때문에 개발자들을 혼란스럽게 만듭니다. Claude 채팅 인터페이스의 단순한 메시지 기반 제한과 달리, Claude Code는 각각 독립적으로 요청을 차단할 수 있는 세 가지 독립 요청 제한 레이어 아래에서 작동합니다. 이 레이어들이 어떻게 상호작용하는지, 그리고 대시보드에 표시된 일일 사용률 6%가 분당 제한에 대한 보호가 되지 않는 이유를 이해하는 것이 생산적인 코딩 세션과 끊임없는 중단의 차이를 만듭니다. 이 가이드에서는 전체 요청 제한 아키텍처를 다루고, Claude Code가 일반 채팅보다 10100배 빠르게 토큰을 소비하는 이유를 설명하며, 출력 품질을 저하시키지 않으면서 실질적인 토큰 소비를 3060% 줄일 수 있는 7가지 구체적인 전략을 제공합니다.
핵심 요약
- Claude Code에는 세 가지 독립적인 요청 제한 레이어가 있습니다: RPM(분당 요청 수), TPM(분당 토큰 수), 일일/주간 할당량. 하나에 걸려도 나머지에는 영향을 주지 않으므로, 일일 사용률이 6%인데도 요청 제한에 걸릴 수 있습니다.
- 단일 Claude Code 명령은 도구 사용을 통해 8~12개의 API 호출을 생성하며, 간단해 보이는 요청에 50,000
150,000개의 토큰을 소비합니다. 이는 동일한 Claude 채팅 상호작용보다 10100배 더 많습니다. - Pro ($20/월)는 주당 약 40
80시간의 Sonnet 사용을 제공합니다. Max 5x ($100/월)는 140280시간을 제공합니다. Max 20x ($200/월)는 240~480시간을 제공합니다. API 과금은 토큰당 요금을 부과하며 하드 캡이 없습니다. - 예방이 대응보다 낫습니다:
.claudeignore설정, 포커스 컨텍스트를 위한--include사용, 간단한 작업은 Haiku로 라우팅, 전략적 세션 관리를 통해 토큰 사용량을 30~60% 줄일 수 있습니다. - 알려진 버그가 존재합니다: 일부 사용자는 플랫폼 측 문제로 인해 낮은 보고 사용률에서도 요청 제한을 보고합니다. 대시보드가 50% 미만을 보여주는데도 제한에 걸린다면, 상세 해결 가이드를 확인하세요.
Claude Code의 3단계 요청 제한 시스템 이해하기

Claude Code 요청 제한에 대한 가장 흔한 혼란의 원인은 세 가지 완전히 별개의 시스템이 각각 독립적으로 요청을 중단시킬 수 있으며, 어떤 것이 트리거되었든 오류 메시지가 동일하게 보인다는 것입니다. 이 아키텍처를 이해하는 것은 단순히 이론적인 문제가 아닙니다. 특정 상황에 어떤 해결책이 효과가 있고 어떤 최적화가 실제로 도움이 되는지를 직접적으로 결정합니다.
첫 번째 레이어는 분당 요청 수(RPM)로, 60초 윈도우 내에서 API를 얼마나 자주 호출할 수 있는지를 제한합니다. 이것은 각 요청이 전달하는 데이터 양과 무관하게 순수 요청 횟수로 측정됩니다. Tier 1 API 접근(5달러 크레딧 구매 후) 개발자의 경우 제한은 50 RPM입니다. 이것은 넉넉하게 들리지만, 단일 Claude Code 명령이 도구 사용 아키텍처를 통해 8~12개의 내부 API 호출을 생성할 수 있다는 점을 고려하면, 연속으로 다섯 개의 빠른 명령을 보내면 몇 초 만에 전체 RPM 예산을 소진할 수 있습니다. RPM 카운터는 매 60초마다 초기화되므로 짧은 대기 시간으로 RPM 문제가 빠르게 해결되지만, 보이는 각 명령 뒤에서 발생하는 보이지 않는 곱셈 효과가 좌절감을 줍니다.
두 번째 레이어는 분당 토큰 수(TPM)로, 60초 윈도우 내에서 API를 통해 흐르는 데이터의 총량을 제한합니다. Anthropic은 입력 토큰과 출력 토큰을 별도로 추적하며, Claude Code 사용자의 경우 입력 토큰이 거의 항상 바인딩 제약조건입니다. 이는 모든 API 호출이 시스템 프롬프트, 대화 기록, 파일 내용, 도구 정의를 포함한 전체 대화 컨텍스트를 전달하기 때문이며, 이 컨텍스트는 세션의 각 교환마다 증가합니다. 동일한 Claude Code 세션에서 30분간 작업한 개발자는 축적된 컨텍스트가 매 호출에 포함되기 때문에 단일 요청이 200,000개 이상의 입력 토큰을 전송하는 것을 발견할 수 있습니다. Tier 1은 Sonnet 모델에 대해 30,000 ITPM을 제공하고, Tier 4(누적 크레딧 구매 400달러 이후)는 2,000,000 ITPM을 제공합니다(Anthropic 공식 문서, 2026년 3월). 여기서 중요한 최적화 세부사항은 Anthropic의 TPM 제한이 캐시를 인식한다는 것입니다: 캐시된 입력 토큰은 대부분의 현재 모델에서 ITPM 제한에 포함되지 않아, 프롬프트 캐싱이 사용 가능한 가장 강력한 처리량 증폭기 중 하나가 됩니다.
세 번째 레이어는 일일 또는 주간 할당량으로, 더 긴 기간에 걸친 사용의 총 예산을 설정합니다. 구독 사용자(Pro, Max)의 경우, 이는 대시보드에 표시되는 사용률 백분율로 나타나며 롤링 윈도우에 대해 측정됩니다. 버스트 활동에 대한 5시간 롤링 윈도우와 2025년 8월 28일에 도입된 7일 주간 상한이 있습니다(TechCrunch, 2025년 7월). "6%"를 표시하는 대시보드 백분율은 이 일일 상한에 대한 소비만 반영합니다. 일일 할당량이 6%인 개발자가 동시에 현재 분의 TPM 할당량의 100%에 도달할 수 있습니다. 이것이 거의 모든 Claude Code 사용자를 어느 시점에서 혼란스럽게 만드는 "예산 내 버스트" 문제입니다: 일일 할당량은 몇 시간의 작업을 유지할 만큼 넉넉하지만, 분당 제한이 그 작업이 얼마나 빠르게 진행될 수 있는지를 제한합니다.
이 세 레이어는 카운터를 공유하지 않으며 상호작용하지 않습니다. 넉넉한 일일 예산이 있어도 분당 처리량이 워크로드에 비해 너무 좁으면 도움이 되지 않습니다. 반대로, 충분한 RPM과 TPM 여유가 있어도 주간 할당량을 소진했다면 아무 소용이 없습니다. 요청 제한 오류를 만났을 때, 어떤 레이어가 트리거했는지 진단하는 것이 해결의 필수적인 첫 번째 단계입니다. 각 레이어의 해결책이 완전히 다르기 때문입니다. RPM 문제는 잠시 멈추거나 명령 간격을 두면 해결됩니다. TPM 문제는 컨텍스트 크기를 줄이거나 더 작은 모델로 전환해야 합니다. 할당량 문제는 리셋 윈도우를 기다리거나 요금제를 업그레이드해야 합니다. 잘못된 해결책을 적용하면 시간을 낭비하지만, 올바른 해결책은 몇 분 안에 코딩으로 복귀시켜 줍니다.
API 사용자의 경우, 추가로 이해할 가치가 있는 뉘앙스가 있습니다: 요청 제한 헤더는 오류 응답뿐만 아니라 모든 API 응답에 동반됩니다. anthropic-ratelimit-requests-remaining과 anthropic-ratelimit-tokens-remaining 헤더는 어떤 제한이 트리거되기 전에 남은 용량을 정확히 알려줍니다. 429 오류가 발생하기 전에 이러한 헤더를 사전에 모니터링하면 중단을 완전히 피하는 지능형 스로틀링을 구현할 수 있습니다.
Claude Code가 토큰을 빠르게 소비하는 이유

Claude Code를 며칠 이상 사용한 모든 개발자는 같은 놀라움을 경험했을 것입니다: 20분간의 가벼운 사용이 어쩐지 일일 할당량의 대부분을 소비했다는 것입니다. 그 설명은 Claude Code와 Claude 채팅 인터페이스 사이의 근본적인 아키텍처 차이에 있으며, 이 차이를 이해하는 것은 요금제 선택과 사용 최적화에 대한 정보에 입각한 결정을 내리는 데 필수적입니다.
Claude 웹 채팅에서 메시지를 입력할 때 토큰 교환은 비교적 간단합니다. 메시지가 들어가고 응답이 돌아오며, 총 토큰 수는 대략 두 텍스트의 합산 길이에 비례합니다. Claude Code는 도구를 광범위하게 사용하는 에이전트 시스템이기 때문에 근본적으로 다르게 작동합니다. 각 상호작용은 시스템 프롬프트(일반적으로 CLAUDE.md와 내장 명령어에서 2,000개 이상의 토큰), 축적된 대화 기록, 컨텍스트로 가져온 파일 내용, 파일 읽기, 코드베이스 검색, bash 명령 실행 등의 작업에 의해 생성된 도구 사용 토큰을 포함하는 다중 턴 대화를 수반합니다.
Claude Code에 "로그인 모듈의 인증 버그를 수정해 주세요"라고 요청하면 어떤 일이 벌어지는지 생각해 보세요. 시스템이 프로젝트 컨텍스트를 위해 CLAUDE.md 파일을 읽습니다. ripgrep을 사용해 관련 파일을 검색하는데, 이것이 도구 호출입니다. 일치하는 각 파일의 내용을 읽습니다. 더 많은 도구 호출, 더 많은 입력 토큰입니다. 코드를 분석하고 변경을 제안하여 출력 토큰을 생성합니다. 또 다른 도구 호출을 통해 변경 사항을 디스크에 씁니다. 수정을 확인하기 위해 테스트를 실행할 수 있으며, 또 다른 도구 호출이 추가됩니다. 이러한 각 단계는 별도의 API 상호작용이며, 각각이 전체 대화 컨텍스트를 전달합니다. 겉보기에 간단한 요청이 8~12개의 내부 API 호출에 걸쳐 35,000개 이상의 토큰을 쉽게 생성할 수 있습니다(SitePoint, 2026년 3월).
토큰 곱셈 효과는 세션이 진행됨에 따라 더욱 극적으로 변합니다. 같은 대화의 각 후속 프롬프트가 증가하는 컨텍스트를 전달하기 때문에, 요청당 토큰 소비가 시간이 지남에 따라 선형적이 아닌 전체 축적된 기록에 비례하여 증가합니다. 세션을 시작하고 15개의 반복 명령을 실행한 개발자는 전체 대화 기록이 매 호출에 포함되기 때문에 마지막 명령이 200,000개 이상의 입력 토큰을 전송하는 것을 발견할 수 있습니다.
이러한 소비 패턴은 특정 워크플로가 다른 것보다 극적으로 빠르게 토큰을 소비한다는 것을 의미합니다. Claude Code가 여러 파일에 걸쳐 코드를 읽고, 분석하고, 수정하고, 검증해야 하는 다중 파일 리팩토링 세션은 단일 파일 편집의 3~5배 속도로 토큰을 소비합니다. 각 변경 후 테스트를 실행하면 테스트 출력, 오류 메시지, 재시도 로직이 모두 대화 컨텍스트에 기여하여 각 반복마다 증가하기 때문에 또 다른 곱셈 효과가 추가됩니다. 아래 표는 일반적인 개발 작업에 기반한 대략적인 추정치를 제공합니다:
| 작업 유형 | 일반적인 토큰 수 | API 호출 수 | 세션 지속 영향 |
|---|---|---|---|
| 단일 파일 편집 | 30,000~60,000 | 4~6 | 낮음 |
| 코드 리뷰 (1개 파일) | 40,000~80,000 | 6~8 | 낮음~중간 |
| 다중 파일 리팩토링 | 100,000~300,000 | 10~15 | 높음 |
| "린트, 수정, 테스트, 수정" 사이클 | 150,000~400,000 | 12~20 | 매우 높음 |
| 전체 프로젝트 분석 | 200,000~500,000+ | 15~25 | 극심 |
이러한 소비 패턴을 이해하면 특정 워크플로에 가장 큰 영향을 미치는 최적화 전략이 무엇인지 직접적으로 파악할 수 있습니다. 주로 단일 파일 편집을 한다면 병목은 TPM이 아닌 RPM일 가능성이 높습니다. 광범위한 다중 파일 작업을 한다면 컨텍스트 관리와 세션 초기화가 중요해집니다.
알아야 할 모든 요청 제한 수치
Anthropic은 의도적으로 일부 요청 제한 수치를 대략적으로 유지하고 있으며, 특히 구독 요금제에서는 정확한 토큰 수가 아닌 "활동 제한"으로 설명됩니다. 아래 수치는 공식 문서와 여러 서드파티 분석에서 얻은 가장 정확한 데이터를 나타내며, 2026년 3월 기준으로 검증되었습니다.
구독 요금제 제한
| 요금제 | 월 비용 | 주간 Sonnet 시간 | 주간 Opus 시간 | 5시간 윈도우 | 적합 대상 |
|---|---|---|---|---|---|
| Free | $0 | 매우 제한적 | 사용 불가 | 2~5 프롬프트 | 빠른 실험 |
| Pro | $20/월 (연간 $17) | 40~80시간 | 사용 불가 | 10~40 프롬프트 | 하루 2~3시간 코딩 |
| Max 5x | $100/월 | 140~280시간 | 15~35시간 | 50~200 프롬프트 | 하루 4~6시간 코딩 |
| Max 20x | $200/월 | 240~480시간 | 24~40시간 | 200~800 프롬프트 | 풀타임 개발 |
모든 구독 요금제는 Claude 채팅 인터페이스와 Claude Code 간에 공통 사용 버킷을 공유합니다. Max 요금제는 Pro 대비 허용량을 배수로 늘리지만, 분당 제한(RPM/TPM)에 대한 정확한 배수는 공개적으로 문서화되어 있지 않습니다(claude.com/pricing, 2026년 3월). 주간 상한은 2025년 8월 28일에 도입되었으며 Anthropic에 따르면 사용 패턴 기준으로 구독자의 5% 미만에게 영향을 미칩니다.
티어별 API 요청 제한
자체 API 키로 Claude Code를 사용하는 개발자의 경우, 제한은 명시적이며 누적 크레딧 구매에 따라 확장됩니다:
| 티어 | 크레딧 요구사항 | RPM | 입력 TPM (Sonnet) | 출력 TPM | 일일 예산 |
|---|---|---|---|---|---|
| Tier 1 | $5 | 50 | 30,000 | 8,000 | ~1,000만 토큰 |
| Tier 2 | $40 | 1,000 | 450,000 | 90,000 | ~3,300만 토큰 |
| Tier 3 | $200 | 2,000 | 800,000 | 160,000 | ~8,300만 토큰 |
| Tier 4 | $400 | 4,000 | 2,000,000 | 400,000 | ~1억 6,600만 토큰 |
Anthropic API는 토큰 버킷 알고리즘을 사용하므로, 고정 간격으로 리셋되는 것이 아니라 최대값까지 지속적으로 용량이 보충됩니다(platform.claude.com/docs/en/api/rate-limits, 2026년 3월). 이것이 중요한 이유는 전체 분당 예산을 초과하지 않는 한 초당 속도 이상의 짧은 버스트가 때때로 허용되기 때문입니다.
현재 프로모션
2026년 3월 기준으로 Anthropic은 2026년 3월 27일까지 비피크 시간대, 구체적으로 동부 시간 오전 8시~오후 2시 외의 시간에 5시간 사용 할당량을 두 배로 늘리는 프로모션을 진행 중입니다(support.claude.com, 2026년 3월 13일). 이러한 프로모션이 항상 널리 알려지지는 않으므로, Claude 도움말 센터를 주기적으로 확인하는 것이 좋습니다.
Pro vs Max vs API 과금: 올바른 요금제 선택하기

올바른 요금제를 선택하는 것은 근본적으로 실제 사용 패턴을 비용이나 중단을 최소화하는 가격 구조에 맞추는 문제입니다. 잘못된 선택은 사용하지 않는 용량에 돈을 낭비하거나, 구독료 절약분보다 더 많은 생산성 손실을 초래하는 지속적인 요청 제한 중단을 만듭니다.
하루 2~3시간 집중적으로 코딩하는 경우, 월 $20의 Pro가 일반적으로 충분합니다. 일일 리셋은 매일 새로운 할당량으로 시작할 수 있게 해주며, 이는 일관적이고 적당한 사용에 적합합니다. 오전 코드 리뷰, 오후 디버깅 세션, 가끔의 아키텍처 질문은 Pro 제한 내에서 편안하게 수용됩니다. 일일 할당량을 초과하는 집중 세션이 있을 때 이 요금제가 한계를 보입니다. 주 2회 이상 작업을 마치기 전에 Pro 제한에 도달한다면 업그레이드 계산이 Max에 유리합니다.
하루 4~6시간 코딩하며 Claude Code를 주요 개발 도구로 사용하는 경우, 월 $100의 Max 5x가 최적의 선택입니다. Pro 대비 5배 배수는 연장된 코딩 세션에 상당히 더 많은 여유를 제공하며, Max 요금제에는 트래픽이 많은 시간대의 우선 접근이 포함되어 개인 할당량 소진이 아닌 플랫폼 전체 용량 제약으로 인한 요청 제한이 줄어듭니다. Pro와 Max 5x의 손익분기점은 대략 하루 4~5시간의 Claude Code 사용 시 발생합니다. 작업을 마치기 전에 Pro 제한을 일관되게 소진한다면, 월 $80의 프리미엄은 일반적으로 첫 주 내에 회복된 생산성으로 자체적으로 지불됩니다.
하루 8시간 이상 코딩하거나 동시 세션을 실행하는 경우, 월 $200의 Max 20x가 구독 티어에서 사용 가능한 최고 처리량을 제공합니다. 이 티어는 광범위한 자동 리팩토링, 여러 Claude Code 인스턴스 실행, 또는 요청당 컨텍스트 크기가 정기적으로 100,000 토큰을 초과하는 대규모 코드베이스에서 작업하는 파워 유저를 위해 설계되었습니다.
API 종량제 과금은 구독 제한을 완전히 제거하고 토큰당 요금을 부과합니다: Sonnet 4.6의 경우 입력 토큰 백만 개당 $3, 출력 토큰 백만 개당 $15입니다(claude.com/pricing, 2026년 3월). 하루 평균 100,000개의 합산 토큰을 사용하는 개발자의 경우 월 비용은 약 $25~$40으로 Pro와 비슷하지만 하드 제한이 없습니다. 장점은 완전한 유연성입니다. 더 많은 크레딧을 예치하여 상향 조정할 수 있는 분당 API 티어 제한만 있습니다. 단점은 비용 예측 불가능성입니다: 집중 세션은 하루에 $20~$50의 비용이 발생할 수 있습니다. API 기반 접근을 평가하는 팀의 경우, laozhang.ai와 같은 서비스가 경쟁력 있는 토큰당 가격과 속도 제한 없이 API 중계 접근을 제공하여, 구독 요청 제한을 완전히 피하면서 직접 Anthropic 과금에 대한 비용 효율적인 대안을 제공합니다.
Batch API는 긴급하지 않은 작업에 고려할 가치가 있습니다. 표준 가격의 50%로 요청을 비동기적으로 처리하며 실시간 사용과 별도의 요청 제한에서 운영됩니다(claude.com/pricing, 2026년 3월). 배치 호환 작업(문서 생성, 여러 모듈에 걸친 코드 품질 분석, 리뷰 요약, 테스트 생성)을 Batch API로 오프로드하면 대화형 개발을 위한 실시간 할당량이 확보됩니다. 이는 일부 작업은 시간에 민감하고(활성 디버깅, 실시간 코드 리뷰) 다른 작업은 수 분에서 수 시간의 지연을 허용할 수 있는(종합 문서 생성, 코드베이스 전체 보안 감사 실행) 팀에 특히 강력합니다. 비용 절약은 빠르게 복리로 증가합니다: Batch API를 통해 월 1,000페이지의 문서를 생성하는 팀은 실시간 가격 대비 약 50%를 절약하면서 동시에 기다릴 수 없는 대화형 작업을 위한 실시간 용량을 보존합니다.
결정을 구체화하기 위해, 요금제 변경을 결정하기 전에 일주일간 실제 사용량을 추적하는 것을 고려하세요. 요청 제한에 몇 번 걸렸는지, 제한이 하루 중 언제 발생했는지, 제한이 트리거되었을 때 어떤 유형의 작업을 하고 있었는지 모니터링하세요. 이 데이터는 요금제 결정을 추측에서 계산으로 변환합니다. 집중적인 오후 코딩 세션 중에 주로 제한에 걸리고 오전에는 거의 걸리지 않는다면, 2026년 3월 비피크 프로모션만으로도 요금제 업그레이드 없이 문제를 해결할 수 있습니다. 하루 종일 지속적으로 제한에 걸린다면 티어 업그레이드 또는 API 과금으로의 전환이 적절한 해결책입니다.
요청 제한을 사전에 방지하는 7가지 전략
요청 제한을 피하는 가장 효과적인 방법은 출력 품질을 유지하면서 상호작용당 토큰 소비를 줄이는 것입니다. 이러한 전략은 30분 이내에 구현할 수 있으며 일반적으로 실질적 토큰 사용량을 30~60% 줄입니다.
전략 1: .claudeignore를 설정하여 관련 없는 파일을 제외하세요. Claude Code가 프로젝트를 인덱싱할 때 컨텍스트 윈도우에 들어가는 모든 파일이 토큰을 소비합니다. 프로젝트 루트에 .claudeignore 파일을 생성하세요. 구문은 .gitignore와 동일합니다. node_modules/, dist/, .git/, build/, 대용량 데이터 파일, 생성된 코드, 바이너리 에셋과 같은 디렉터리를 제외하세요. 일반적인 JavaScript 프로젝트는 잘 구성된 .claudeignore 파일로 요청당 컨텍스트를 4070% 줄일 수 있습니다. 이것은 워크플로를 전혀 변경하지 않으면서 이후 모든 상호작용의 토큰 소비를 줄이기 때문에 가장 큰 영향을 미치는 단일 최적화입니다. 실용적인 출발점으로, 대부분의 웹 프로젝트는 테스트 픽스처, 모의 데이터, 컴파일된 출력, 벤더 의존성을 무시하면 도움이 됩니다. 핵심 통찰은 Claude Code가 수정을 요청하지 않을 파일을 볼 필요가 없다는 것이며, 대부분의 코드베이스에서 7090%의 파일이 해당됩니다. 프로젝트 구조가 발전함에 따라 주기적으로 .claudeignore를 검토하세요. 새로운 빌드 아티팩트나 생성된 파일이 시간이 지남에 따라 컨텍스트 크기를 조용히 부풀릴 수 있기 때문입니다.
전략 2: --include 플래그로 포커스 컨텍스트를 사용하세요. Claude Code가 관련 파일을 찾기 위해 전체 프로젝트를 검색하도록 하는 대신, --include 플래그를 사용하여 로드할 파일을 정확히 지정하세요. claude "review the auth logic" --include src/auth/**를 실행하면 컨텍스트가 인증 모듈로 제한되어 관련 없는 코드를 로드하는 토큰 비용을 피할 수 있습니다. 특정 모듈의 버그 수정과 같은 타깃 작업에서 이 단일 변경만으로 포커스 없는 요청 대비 입력 토큰을 50~80% 줄일 수 있습니다.
전략 3: 적절한 모델로 작업을 라우팅하세요. 모든 작업이 가장 강력한 모델을 필요로 하는 것은 아닙니다. Opus 4.6는 복잡한 다중 파일 리팩토링, 보안에 민감한 코드 리뷰, 추론 깊이가 중요한 아키텍처 결정에 예약하세요. Sonnet 4.6는 표준 코드 리뷰, 문서 생성, 간단한 구현에 사용하세요. Opus 토큰 비용의 일부로 대부분의 전문 개발 작업을 처리합니다. Haiku 4.5는 빠른 질문, 간단한 편집, 구문 검사, 포맷팅 작업에 전환하세요. 세션 중에 /model sonnet 또는 /model haiku로 모델을 전환할 수 있으며, 이 변경은 다음 프롬프트에 즉시 적용됩니다. 많은 개발자들이 Haiku가 루틴 코딩 작업의 6070%를 토큰 예산의 일부만 소비하면서 적절히 처리한다는 것을 발견합니다. 실용적인 라우팅 경험 법칙: 작업이 여러 파일 간의 관계를 이해하거나 창의적 문제 해결을 필요로 한다면 Sonnet 또는 Opus를 사용하고, 단일 파일에 알려진 패턴을 적용하는 작업이라면 Haiku로 충분합니다. 이 사고 모델은 각 상호작용을 과도하게 고민하지 않고 빠른 라우팅 결정을 내리는 데 도움이 되며, 일주일 동안 전체 토큰 소비를 2540% 줄일 수 있습니다.
전략 4: 세션을 관리하여 컨텍스트 증가를 제어하세요. Claude Code 대화는 시간이 지남에 따라 컨텍스트를 축적하며, 5,000 토큰의 기록으로 시작한 세션이 30분간의 활발한 개발 후 50,000 토큰에 도달할 수 있습니다. 각 후속 프롬프트가 이 증가하는 컨텍스트를 전달하므로, 세션의 15번째 명령이 첫 번째보다 극적으로 더 많은 토큰을 소비합니다. 명령이 더 복잡해서가 아니라 축적된 기록이 팽창했기 때문입니다. 가장 효과적인 완화책은 긴 세션을 더 짧고 집중된 대화로 나누는 것입니다. 하나의 논리적 작업(버그 수정, 기능 구현, 모듈 리뷰)을 마치면 같은 대화를 계속하지 말고 다음 작업을 위한 새 Claude Code 세션을 시작하세요. 이렇게 하면 컨텍스트 윈도우가 리셋되어 상호작용당 비용이 급증하는 것을 방지합니다. /compact 명령은 전체 세션 리셋과 컨텍스트 증가를 그대로 두는 것 사이의 중간 지점을 제공합니다. 현재 대화를 요약하여 핵심 결정과 컨텍스트를 보존하면서 장황한 중간 교환을 폐기합니다. 10~15회 교환마다 또는 응답 시간이 느려지는 것을 감지할 때마다 /compact를 사용하세요. 느린 응답은 종종 컨텍스트 윈도우가 성능과 토큰 소비 모두에 영향을 미칠 만큼 커졌다는 신호입니다.
전략 5: 관련 요청을 단일 프롬프트로 일괄 처리하세요. 모든 새 프롬프트가 전체 대화 컨텍스트를 전달하므로, 다섯 개의 작은 질문이 하나의 포괄적인 요청보다 훨씬 더 많은 토큰을 소비합니다. "함수 X가 무엇을 하나요?" 다음에 "함수 Y가 무엇을 하나요?" 다음에 "X와 Y가 어떻게 상호작용하나요?"라고 묻는 대신, "함수 X와 Y를 설명하고 공유 상태와 의존성을 포함하여 어떻게 상호작용하는지 설명해 주세요"라는 단일 프롬프트로 결합하세요. 이렇게 하면 API 호출이 세 번에서 한 번으로 줄고 중복 컨텍스트 전송이 제거됩니다.
전략 6: 복잡한 설명을 로컬에 저장하세요. Claude Code가 코드베이스 아키텍처, 데이터베이스 스키마 또는 API 설계에 대한 상세한 설명을 제공하면 로컬 파일에 저장하세요: claude "explain the database schema" > docs/schema-explanation.md. 나중에 저장된 파일을 참조하면 Claude Code에 동일한 코드를 처음부터 다시 분석하고 다시 설명하도록 요청하는 것보다 훨씬 적은 토큰을 소비합니다. 이 접근 방식은 오프라인이거나 요청 제한 중일 때도 가치 있는 문서를 즉시 사용할 수 있게 합니다.
전략 7: 집중 작업을 전략적으로 스케줄링하세요. 분당 카운터는 매 60초마다 리셋되며, 일일 할당량은 요금제 유형에 따라 다른 일정으로 리셋됩니다. 가장 토큰 집약적인 작업을 2시간 버스트에 집중하는 대신 하루에 분산하면 반복적인 TPM 상한 충돌을 방지합니다. 비피크 시간대로 작업을 옮길 수 있다면, 현재 2026년 3월 이중 사용량 기간(3월 27일까지 동부 시간 오전 8시~오후 2시 외)과 같은 프로모션이 추가 비용 없이 사실상 두 배의 할당량을 제공합니다.
제한에 걸렸을 때 대처 방법
최선의 예방 전략에도 불구하고, 특히 집중적인 코딩 세션 중이나 플랫폼 전체 수요가 높을 때 요청 제한이 가끔 트리거됩니다. 핵심은 문제를 빠르게 해결하고 몇 시간이 아닌 몇 분 안에 작업으로 복귀하는 것입니다.
가장 빠른 해결책은 더 가벼운 모델로 전환하는 것입니다. Claude Code 세션에서 /model haiku를 입력하여 Haiku 4.5로 전환하면, Sonnet 또는 Opus 할당량이 소진되었을 때도 여전히 사용 가능한 할당량이 있을 수 있습니다. Haiku는 포맷팅, 간단한 편집, 구문 질문과 같은 간단한 작업을 효과적으로 처리하여 주요 모델 할당량이 회복되는 동안 생산적인 작업을 계속할 수 있게 합니다.
모델 전환이 도움이 되지 않는다면, 정확한 사용량과 리셋 시간을 확인하세요. 터미널에서 claude --account를 실행하여 구독 티어와 대략적인 사용량을 확인하세요. claude.ai에 방문하여 설정으로 이동하고 사용률과 다음 리셋까지의 카운트다운을 확인하세요. Pro 요금제는 일일 롤링 리셋을 사용하고, Max 요금제는 주간 롤링 윈도우를 사용합니다.
다운타임을 감당할 수 없는 개발자의 경우, API 과금으로 전환하면 즉각적인 해소가 됩니다. console.anthropic.com을 통한 API 과금은 하드 구독 캡 없이 토큰당 요금을 부과합니다. claude config set apiKey YOUR_API_KEY를 실행하여 API 키로 Claude Code를 설정하세요. 이 접근 방식은 비용 예측 가능성을 보장된 가용성과 교환합니다.
낮은 보고 사용률에도 불구하고 오류가 지속된다면, 합법적인 요청 제한이 아닌 알려진 버그를 만났을 수 있습니다. GitHub 이슈 #29579는 Max 구독자가 보고된 사용률 16%에서 요청 제한 오류를 받은 사례를 문서화하고 있으며, 이슈 #33120은 실제 활동과 관계없이 모든 명령이 요청 제한 오류를 반환하는 시나리오를 설명합니다. claude logout으로 로그아웃한 후 claude login으로 다시 로그인하고, ps aux | grep claude로 고아 백그라운드 프로세스를 확인하고, 문제가 여러 기기에서 지속되면 Anthropic 지원팀에 문의하세요. 모든 진단 단계에 대한 종합적인 안내는 "요청 제한 도달" 오류에 대한 상세 해결 가이드에서 구독 vs API vs 버그 식별을 포함한 전체 진단 흐름도를 다룹니다.
요청 제한 중에는 작업을 완전히 중단하는 대신 대체 도구를 사용하여 생산성을 유지하는 것을 고려하세요. Gemini CLI는 Google OAuth 인증을 통해 60 RPM과 하루 1,000개 요청, 100만 토큰의 대규모 컨텍스트 윈도우를 제공하는 넉넉한 무료 티어를 제공합니다. Claude Code와 함께 설치하면 2분 이내에 설정할 수 있는 대체 수단이 됩니다. GitHub Copilot CLI는 Copilot 구독에 포함되어 있으며 대부분의 개발자에게 친숙한 인터페이스를 통해 자동 완성과 채팅을 효과적으로 처리합니다. 요청 제한 문제를 완전히 제거하는 셀프 호스팅 대안과 Claude Code의 상세 비교는 Claude Code vs OpenClaw 분석을 참조하세요.
요청 제한 기간 중 가장 생산적인 접근 방식은 AI 지원이 진정으로 필요하지 않은 작업에 집중하는 것입니다: 수동으로 테스트 작성, 팀원의 풀 리퀘스트 리뷰, 문서 업데이트, 관리 작업 처리, 또는 코드베이스에 대한 기존 지식에 의존하는 간단한 버그 수정 등입니다. 많은 개발자들이 AI 지원 코딩에서 강제로 벗어나는 것이 실제로 자신의 프로젝트에 대한 이해를 향상시킨다고 보고합니다. 인지 작업을 AI 도구에 위임하는 대신 코드를 읽고 추론하는 데 더 많은 시간을 보내기 때문입니다. 요청 제한은 순간적으로 좌절스럽지만, 인간의 판단이 더 빠르고 더 신뢰할 수 있는 작업에 대한 AI 지원 과의존을 방지하는 자연스러운 체크포인트 역할을 할 수 있습니다.
자주 묻는 질문
Claude Code 요청 제한이 리셋되는 데 얼마나 걸리나요?
리셋 시간은 어떤 요청 제한 레이어에 걸렸는지에 따라 다릅니다. RPM과 TPM 카운터는 매 60초마다 리셋되므로 분당 제한은 빠르게 해결됩니다. 구독 일일 할당량은 롤링 방식으로 리셋됩니다. Pro 요금제는 하루 종일 지속적으로 리셋되고 Max 요금제는 주간 롤링 윈도우를 사용합니다. 정확한 리셋 시간은 claude.ai 설정 패널에 표시됩니다. API 티어 제한은 지속적으로 보충되는 토큰 버킷 알고리즘을 사용하므로, 사용 간의 공백이 있으면 몇 초 내에 부분 용량이 돌아옵니다.
Claude Code가 Claude 채팅보다 왜 이렇게 많은 토큰을 사용하나요?
Claude Code는 요청을 수행하는 과정에서 도구 호출(파일 읽기, 검색, 명령 실행, 파일 쓰기)을 실행하는 에이전트 시스템입니다. 각 도구 호출은 전체 대화 컨텍스트를 전달하는 별도의 API 상호작용입니다. 단일 사용자 명령이 축적된 시스템 프롬프트, 대화 기록, 파일 내용을 각각 전송하는 8~12개의 내부 API 호출을 생성할 수 있습니다. Claude 채팅 인터페이스는 이에 비해 도구 사용 없이 간단한 요청-응답 교환을 수반하여 상호작용당 토큰 소비가 극적으로 낮습니다.
Claude Code만을 위해 Pro에서 Max로 업그레이드할 가치가 있나요?
작업을 마치기 전에 Pro 제한에 일관되게 도달한다면 업그레이드할 가치가 있습니다. 손익분기 계산은 간단합니다: 요청 제한으로 인한 다운타임이 월 $80(Pro와 Max 5x의 가격 차이) 이상의 생산성 손실을 초래한다면 업그레이드가 자체적으로 비용을 충당합니다. 시간당 $100 이상을 청구하는 전문 개발자의 경우 주당 1시간의 다운타임만으로도 비용 차이를 초과합니다. 주 2회 미만으로 Pro 제한에 걸린다면, 최적화 전략(모델 라우팅, 컨텍스트 관리)이 업그레이드보다 비용 효율적일 수 있습니다.
Claude Code를 무료로 사용할 수 있나요?
Claude 무료 요금제는 제한된 일일 메시지를 제공하지만 전체 Claude Code 기능은 포함하지 않습니다. 월 $20(연간 결제 시 $17)의 Pro가 Claude Code와 Cowork 접근이 포함된 최소 티어입니다(claude.com/pricing, 2026년 3월). 무료 AI 코딩 대안으로는 Gemini CLI가 Google OAuth로 60 RPM과 하루 1,000개 요청을 제공하며, GitHub Copilot CLI는 기존 Copilot 구독에 포함되어 있습니다.
429 오류와 529 오류의 차이점은 무엇인가요?
429 HTTP 상태 코드는 요청 제한을 초과했다는 의미입니다. 요청은 유효하지만 더 보내기 전에 기다려야 합니다. 529 상태 코드는 개인 할당량과 무관하게 API 서버가 과부하 상태라는 의미입니다. 둘 다 재시도 로직이 필요하지만 전략이 다릅니다: 429 오류의 경우 retry-after 헤더를 존중하고 지수 백오프를 구현하세요. 529 오류의 경우 1~5초의 시작 지연과 지수 증가를 사용하고, 대기 시간을 요청 제한 백오프 타이머에 포함시키지 마세요. Claude Code에는 둘 다에 대한 내장 재시도 로직이 있으므로, 오류를 볼 때쯤이면 내부 재시도가 이미 시도된 것입니다.
실시간으로 요청 제한 사용량을 모니터링하려면 어떻게 하나요?
Anthropic의 모든 API 응답에는 요청 제한 헤더가 포함됩니다: anthropic-ratelimit-requests-remaining은 현재 분 윈도우에서 남은 요청 수를 보여주고, anthropic-ratelimit-tokens-remaining은 남은 토큰 예산을 보여주며, anthropic-ratelimit-tokens-reset은 제한이 보충되는 시간의 타임스탬프를 제공합니다. 구독 사용자의 경우 claude.ai 설정 페이지에서 사용률과 리셋 카운트다운을 보여주지만, 실제 소비와 대시보드 업데이트 사이에 보고된 지연이 있습니다. 실시간 정확성을 위해 헤더 기반 모니터링만이 유일하게 신뢰할 수 있는 방법입니다. Claude API 위에 도구를 구축하고 있다면, 이러한 헤더를 사전에 모니터링하면 429 오류를 트리거하지 않고 제한에 접근할 때 요청을 줄이는 지능형 스로틀링을 구현할 수 있습니다.
프롬프트 캐싱이 요청 제한에 도움이 되나요?
네, 이것은 사용 가능한 가장 과소평가된 최적화 중 하나입니다. Anthropic의 ITPM(분당 입력 토큰) 제한은 캐시를 인식합니다: 캐시된 입력 토큰은 대부분의 현재 모델에서 ITPM 제한에 포함되지 않습니다. 상호작용 간에 반복되는 일관된 콘텐츠(CLAUDE.md 시스템 프롬프트, 프로젝트 문서, 자주 참조되는 파일)가 있을 때, 프롬프트 캐싱을 통해 입력 토큰 병목을 사실상 우회할 수 있습니다. 80%의 캐시 히트율로 명목 ITPM 제한의 5배를 처리할 수 있으며, 이는 30,000 ITPM 제한의 Tier 1 개발자가 캐시된 콘텐츠의 경우 분당 150,000개의 입력 토큰을 사실상 처리할 수 있다는 의미입니다. 캐시 히트를 극대화하려면 CLAUDE.md 내용을 세션 간에 안정적으로 유지하고 변경되지 않는 컨텍스트가 먼저 나타나도록 프롬프트를 구성하세요.
