프롬프트 캐싱이 실제로 의미하는 것은?

DeepSeek가 드디어 V4 모델을 출시했습니다. 지난 며칠간 사용해봤는데 정말 좋습니다. 특히 Flash 모델은 가성비가 뛰어납니다. 제가 사용하는 가계부 미니 프로그램의 응답 시간이 원래 5초였는데 이제 2.5초로 줄었습니다. 한마디로: 부드럽습니다!

유일한 단점은 Pro 모델이 그리 저렴하지 않다는 점입니다. 공식 웹사이트에 따르면 하반기에 국내 칩 공급이 늘어나면 가격이 더 내려갈 것이라고 합니다.

예상치 못하게, 이틀 후 Pro 모델에 한정 75% 할인이 적용되었습니다(그리고 이 할인이 장기화될 가능성도 있습니다). 어제는 캐시 히트 가격을 원래의 10분의 1로 낮췄습니다! 더 무슨 말이 필요하겠어요? 일어나서 페달을 힘껏 밟을 때입니다!

이것이 우리가 아는 DeepSeek입니다! 며칠 전 저는 특정 Coding Plans이 사용하기 어렵고 경험이 좋지 않다고 비판한 적이 있습니다. DeepSeek는 전체 API 가격을 Coding Plans 이하로 직접 낮추는 것 같습니다. 특히 지금은 많은 Coding Plans이 프로그래밍 외 사용을 금지하고 있어 DeepSeek의 진정성이 더욱 돋보입니다.

일부 Coding Plans의 API는 번역 기능을 통합하면 차단할 수도 있지만, DeepSeek는 신경 쓰지 않습니다. 원하는 대로 사용하세요.

GPT-5.5와 DeepSeek V4는 뛰어난 성능을 보여주고 있습니다. 저는 이미 다음 달에 Claude 구독을 취소하는 것을 고려하고 있습니다. 그리고 주변의 몇몇 전문가들은 이미 사용해봤습니다.

하지만 본론으로 돌아가서, 여러분 중 일부는 궁금할 것입니다: 입력, 출력, 캐시가 실제로 무엇을 의미할까요?

먼저 캐시 히트가 무엇을 의미하는지 소개하겠습니다.

비유를 들어보겠습니다: 여러분이 단골 국수집에 가서 처음으로 “계란 추가한 소고기 칼국수, 고수 빼주세요"를 주문합니다. 주인은 소고기를 신선하게 썰고, 반죽을 치대고, 계란을 삶고, 재료를 준비해야 합니다. 전체 과정에 시간이 좀 걸립니다. 10분 후, 친구가 와서 똑같은 것을 주문합니다. 주인은 냄비에 재료가 아직 뜨겁고 면도 같은 배치인 것을 보고 바로 서빙합니다. 이것이 “히트"입니다.

AI가 입력을 처리할 때, 기본적으로 보낸 모든 텍스트(시스템 프롬프트, 대화 기록, 현재 질문 포함)를 “씹어서” 모델의 내부 중간 상태로 변환해야 합니다. 이 단계는 정말 계산 집약적입니다.

AI가 이번에 보낸 내용의 큰 시작 부분이 이전과 정확히 동일하다는 것을 발견하면, 이전의 중간 상태를 직접 재사용하여 다시 씹을 필요가 없습니다. 이것이 캐시 히트입니다.

세 가지 핵심 사항을 기억하세요:

정확한 접두사 일치여야 합니다. 시작 부분에 공백 하나를 추가하거나 구두점 하나를 바꿔도 캐시가 무효화되어 처음부터 다시 시작합니다.
시간 제한이 있습니다. 제공자에 따라 다릅니다. 예를 들어 Anthropic의 기본값은 5분에 불과합니다(화장실 다녀오면 만료됩니다). 1시간 옵션을 원하면 추가 요금을 내야 합니다(기본 입력 가격의 2배). DeepSeek의 캐시는 몇 시간에서 며칠까지 지속됩니다.
같은 대화에서는 자연스럽게 히트됩니다. 대화가 한 턴씩 추가될 때마다 새 입력 = 이전 전체 기록 + AI 응답 + 새 질문이기 때문입니다. 앞부분의 긴 기록이 정확히 동일하므로 자연스럽게 히트됩니다.

캐시가 히트되느냐 아니냐는 가격에 큰 영향을 미칩니다. 그래서 같은 대화 안에서 관련 내용만 논의하는 것을 권장합니다. 문맥을 기억하는 것뿐만 아니라 캐시 히트에도 영향을 미치기 때문입니다. 새 대화를 시작하면 처음부터 비용을 지불해야 하지만, 대화를 계속하면 할인을 받는 셈입니다.

따라서 “백만 토큰당 입력(캐시 히트)”, “백만 토큰당 입력(캐시 미스)”, “백만 토큰당 출력"의 의미는 다음과 같습니다:

백만 토큰당 입력(캐시 미스): 이번에 보낸 내용 중 AI가 이전 계산에서 재사용할 수 없어 처음부터 다시 씹어야 하는 부분에 적용되는 가격입니다. 여기에는 첫 번째 채팅, 새 세션, 또는 시작 부분의 프롬프트 변경이 포함됩니다.

백만 토큰당 입력(캐시 히트): 이번에 보낸 내용 중 시작 부분이 이전 사례와 정확히 일치하여 AI가 직접 재사용하는 부분에 적용되는 (훨씬 저렴한) 가격입니다. 같은 대화에서 두 번째, 세 번째 턴 등의 기록이 여기에 해당합니다.

백만 토큰당 출력: AI가 생성한 응답에 적용되는 가격입니다. 이는 항상 가장 비싼데, “생성"이 “이해"보다 더 많은 컴퓨팅 파워를 소비하기 때문입니다. 하나는 AI가 머릿속에서 반복적으로 초안을 작성하고 단어를 선택하며 문장을 구성하는 과정이고, 다른 하나는 AI가 자료를 검토하는 과정일 뿐입니다.

구체적인 예를 들어 감을 잡아보겠습니다. DeepSeek를 사용하여 3000토큰짜리 코드를 수정한다고 가정해보겠습니다.

첫 번째 질문: 입력 3000토큰(전부 미스) + AI 출력 500토큰
그런 다음 “이것을 더 최적화할 수 있나요?“라고 물어봅니다: 입력이 3500토큰 이상이 됩니다(이 중 3500토큰은 이전 기록으로 전부 캐시 히트; 새로 추가한 몇십 토큰만 미스) + AI 출력 600토큰
새 대화를 시작하고 코드를 다시 붙여넣은 후 같은 질문을 합니다: 다시 3000토큰 전부 미스

미스 가격이 히트 가격의 10배라면, “같은 대화에서 후속 질문"과 “새 대화를 시작하여 다시 질문” 사이의 입력 비용 차이는 거의 10배가 될 수 있습니다.

그래서 이번에 DeepSeek는 캐시 히트 가격을 원래의 10분의 1로 낮추고, Pro 모델 75% 할인과 결합했습니다. 긴 컨텍스트 + 다중 턴 대화(코딩, 문서 분석, 긴 채팅 등) 사용 사례의 경우, 이는 거의 뼈를 깎는 가격 인하입니다. Skills를 작성하거나 자동화 워크플로우를 설정해본 사람이라면 긴 프롬프트를 반복적으로 호출하는 것이 일상이라는 것을 알고 있습니다. 이 가격 인하로 인한 실제 절감 효과는 종이에 보이는 것보다 훨씬 극적입니다.

마지막으로 실용적인 팁: 새 대화를 시작하기 전에 같은 대화 안에서 주제를 마무리하는 습관을 들이세요. 항상 “지우고 새로 시작"하지 마세요. AI가 당신을 기억할 뿐만 아니라 비용도 절약됩니다.

요약

오늘 배운 내용:

캐시 히트란 무엇인가 — AI가 이전에 씹은 입력을 저장합니다. 이번에 시작 부분이 같으면 직접 재사용하여 계산력을 절약하고 가격도 할인됩니다.
세 가지 핵심 조건 — 정확한 접두사 일치여야 하며, 시간 제한이 있고(제공자에 따라 몇 분에서 며칠), 같은 대화에서는 자연스럽게 히트됩니다.
세 가지 가격이 의미하는 것 — 캐시 미스 = 재계산되는 입력; 캐시 히트 = 재사용된 입력(가장 저렴); 출력 = AI 생성 응답(가장 비쌈).
출력이 가장 비싼 이유 — “생성"이 “이해"보다 더 많은 컴퓨팅 파워를 소비합니다. AI가 머릿속에서 반복적으로 초안을 작성하며, 가격은 보통 입력 미스의 몇 배입니다.

핵심 요점:

같은 대화를 계속하면 자동 할인; 자주 새 대화를 시작하면 매번 정가를 지불합니다.
프롬프트는 끝부분을 수정하세요. 시작 부분을 바꾸면 캐시가 무효화됩니다.
긴 컨텍스트 + 다중 턴 대화 시나리오(코딩, 문서 분석, 긴 채팅)가 가장 큰 혜택을 봅니다. DeepSeek의 가격 인하는 그러한 사용자에게 거의 뼈를 깎는 수준입니다.