/크롤 버짓 (Crawl Budget)
📘개념

크롤 버짓 (Crawl Budget)

최종 업데이트:

정의

크롤 버짓(Crawl Budget)은 구글봇(Googlebot)이 특정 기간(보통 하루) 동안 한 웹사이트를 크롤하는 URL의 총 횟수다. Google Search Central 공식 문서에서는 크롤 버짓을 두 가지 요소의 결합으로 정의한다.

  • 크롤 속도 한도(Crawl Rate Limit): 서버 과부하를 방지하기 위해 구글봇이 스스로 조정하는 요청 속도
  • 크롤 수요(Crawl Demand): 구글이 사이트를 얼마나 가치 있게 평가하는지에 따른 크롤 우선순위

크롤 버짓은 고정된 수치가 아니라 사이트 권위·서버 성능·콘텐츠 변경 빈도에 따라 동적으로 변한다.


요약

소규모 사이트는 크롤 버짓을 걱정할 필요가 없다. 수천 페이지 이상 사이트에서만 크롤 버짓 최적화가 실질적 효과를 낸다. 최우선 대응: 저품질·중복 페이지 제거 또는 noindex 처리.


크롤 버짓이 중요한 사이트 유형

Google Search Central은 다음 상황에서만 크롤 버짓이 의미 있다고 명시한다.

크롤 버짓 관리가 필요한 경우

사이트 유형이유
10만 페이지 이상 대규모 사이트구글봇이 전체를 크롤하기 어려움
자동 생성 URL 다수 (전자상거래, 여행)URL 파라미터로 무한 URL 생성
빠른 콘텐츠 변경 사이트 (뉴스)최신 콘텐츠 빠른 색인이 중요
중복 콘텐츠 비율 높은 사이트크롤 낭비 비율이 높음

크롤 버짓을 걱정할 필요 없는 경우

  • 1,000페이지 이하 소규모 사이트
  • 콘텐츠 발행 빈도가 낮은 사이트
  • 대부분 정적 콘텐츠로 구성된 사이트

크롤 버짓 낭비 주요 원인

[DIAGRAM: 크롤 버짓 배분 — 핵심 페이지 vs 낭비 페이지 비율]

1. URL 파라미터 중복

같은 콘텐츠에 다양한 URL이 생성되는 경우.

/products?sort=price&color=red
/products?color=red&sort=price
/products?sort=price&color=red&page=1

이 모든 URL이 크롤되면 핵심 페이지에 써야 할 크롤을 낭비한다.

해결: GSC URL 파라미터 설정 또는 canonical 태그로 중복 처리.

2. 세션 ID URL

/page?sessionid=abc123&product=X
/page?sessionid=def456&product=X

세션 ID가 URL에 포함되면 동일 콘텐츠가 무한한 URL로 복제된다.

해결: 세션 관리를 쿠키로 전환, URL에서 세션 ID 제거.

3. 페이지네이션 무한 확장

필터 조합이 많은 전자상거래 사이트에서 페이지네이션 URL이 과도하게 생성된다.

해결: 필터 조합 URL에 noindex 또는 canonical 적용.

4. 씬 콘텐츠 페이지 다수

품질이 낮은 페이지(태그 페이지, 빈 카테고리 페이지, 자동 생성 페이지)에 크롤이 낭비된다.

해결: 씬 콘텐츠 페이지 noindex 처리 또는 페이지 통합.

5. 리다이렉트 체인

5단계 이상의 리다이렉트 체인은 구글봇이 최종 URL에 도달하기 전에 크롤을 포기할 수 있다.

해결: 301 리다이렉트를 최종 목적지로 직접 연결.

6. 서버 응답 오류

5xx 오류 페이지에 구글봇이 계속 접근하면 크롤 버짓이 낭비되고, 구글봇이 크롤 속도를 낮춘다.

해결: 5xx 오류 페이지 즉각 수정.


크롤 버짓 진단 방법

GSC 크롤 통계 보고서

GSC → 설정 → 크롤 통계

확인할 지표:

  • 총 크롤 요청 수 (일별 추이)
  • 응답 코드별 분포 (2xx, 3xx, 4xx, 5xx)
  • 크롤된 파일 유형
  • 크롤 지연 시간 평균

크롤 통계에서 3xx, 4xx, 5xx 응답 비율이 높으면 크롤 낭비가 심한 것이다.

서버 로그 분석

가장 정확한 크롤 버짓 진단 방법은 서버 로그 분석이다. Apache/Nginx 액세스 로그에서 Googlebot 요청을 필터링하면 실제 크롤 패턴을 확인할 수 있다.

grep -i "googlebot" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20

크롤 빈도가 높은 URL 상위 20개를 확인하고, 중요하지 않은 URL이 과도하게 크롤되고 있는지 점검한다.

Screaming Frog 활용

Screaming Frog의 서버 로그 분석 기능을 사용해 구글봇 크롤 패턴을 시각화할 수 있다.


크롤 버짓 최적화 전략

전략 1: robots.txt로 불필요한 URL 차단

관리자 페이지, 검색 결과 페이지, 내부 필터 URL 등은 robots.txt로 구글봇 접근을 차단한다.

User-agent: Googlebot
Disallow: /admin/
Disallow: /search?
Disallow: /cart/
Disallow: /checkout/

단, robots.txt 차단은 색인을 보장하지 않는다. 이미 색인된 URL을 제거하려면 noindex가 필요하다. 자세히는 robots.txt 작성 가이드 항목 참조.

전략 2: 씬 콘텐츠 noindex 처리

가치가 낮은 페이지(빈 카테고리, 태그 아카이브, 자동 생성 페이지)에 noindex를 추가해 크롤봇이 색인을 시도하지 않도록 한다.

<meta name="robots" content="noindex, follow" />

noindex, follow를 사용해 내부 링크 크롤은 허용하면서 색인은 차단한다. 자세히는 noindex 사용 가이드 항목 참조.

전략 3: XML 사이트맵 최적화

사이트맵에는 색인시키고 싶은 페이지만 포함한다. 404, noindex, 리다이렉트 URL이 사이트맵에 포함되면 크롤 신뢰도가 낮아진다.

사이트맵 건강도 체크:

  • 사이트맵 내 404 URL = 0
  • 사이트맵 내 noindex URL = 0
  • 사이트맵 내 리다이렉트 URL = 0

전략 4: 내부 링크로 크롤 경로 최적화

구글봇은 내부 링크를 따라 페이지를 발견한다. 핵심 페이지로 내부 링크를 집중시키면 크롤 우선순위가 높아진다. 반대로, 저품질 페이지로의 내부 링크를 줄이면 크롤 낭비를 막는다.

자세히는 내부 링크 전략 항목 참조.

전략 5: 서버 응답 속도 개선

구글봇의 크롤 속도 한도는 서버 성능에 연동된다. 서버가 빠르게 응답하면 구글봇이 더 많은 크롤을 수행할 수 있다. Core Web VitalsTTFB(Time to First Byte) 개선이 크롤 버짓에도 긍정적이다.


크롤 버짓과 색인의 관계

크롤 ≠ 색인

크롤됐다고 색인되는 것은 아니다. 구글봇이 페이지를 방문(크롤)해도 콘텐츠 품질이 낮으면 색인을 거절한다.

상태의미
크롤됨 + 색인됨정상
크롤됨 + 색인 안 됨콘텐츠 품질·기술 문제
발견됨 + 크롤 안 됨크롤 버짓 부족 또는 우선순위 낮음
미발견내부 링크·사이트맵 누락

"발견됨 — 색인 안 됨" 상태의 페이지가 많다면 크롤 버짓 부족이 원인일 수 있다. 자세히는 인덱싱 커버리지 진단 항목 참조.


뉴스·전자상거래 사이트의 크롤 버짓 특이사항

뉴스 사이트

최신 기사가 빠르게 색인되려면 구글봇이 자주 크롤해야 한다. 뉴스 사이트는 크롤 버짓 낭비를 특히 철저히 관리해야 한다.

권장 방법:

  • News Sitemap 사용 (최신 기사 우선 크롤 유도)
  • 아카이브 페이지 noindex 처리
  • 태그·카테고리 페이지 정리

전자상거래 사이트

수만 개 SKU를 가진 쇼핑몰에서 URL 파라미터 중복이 가장 큰 크롤 버짓 문제다.

권장 방법:

  • 필터 URL에 canonical 태그 적용
  • 재고 없는 상품 페이지 noindex 또는 삭제
  • 계층적 카테고리 URL 구조로 중복 최소화

한국 시장 적용

한국 사이트의 흔한 크롤 버짓 문제

  • 뉴스 사이트: 기사 페이지 외 태그·기자 페이지·검색 결과 페이지가 과다 크롤
  • 쇼핑몰: 네이버 쇼핑 연동 파라미터 URL(?utm_source=naver_shopping)이 중복 URL 생성
  • 커뮤니티/블로그: 무한 페이지네이션과 태그 아카이브 URL 과다

네이버봇 크롤 버짓

네이버도 자체 크롤봇(Yeti)이 있으며, 크롤 버짓 개념이 동일하게 적용된다. 네이버 서치어드바이저에서 네이버봇 크롤 로그를 일부 확인할 수 있다. 구글봇과 네이버봇을 모두 고려해 robots.txt를 설정해야 한다.


자주 묻는 질문

Q. 내 사이트가 500페이지인데 크롤 버짓을 신경 써야 하나요?
A. 일반적으로 신경 쓸 필요 없다. Google Search Central 공식 문서에서도 소규모 사이트의 크롤 버짓 걱정은 불필요하다고 명시한다. 모든 페이지가 적절히 내부 링크되어 있고 robots.txt나 noindex로 차단하지 않았다면 정상적으로 크롤된다.

Q. 구글봇이 내 사이트를 너무 자주 크롤해서 서버가 느려집니다. 어떻게 하나요?
A. GSC → 설정 → 크롤링에서 크롤 속도를 수동으로 제한할 수 있다. 단, 이 설정은 크롤 버짓을 줄이므로 색인 속도에 영향을 준다. 서버 성능을 개선하는 것이 근본적인 해결책이다.

Q. noindex 페이지도 크롤 버짓을 소비하나요?
A. 그렇다. noindex 태그를 읽으려면 구글봇이 일단 페이지를 크롤해야 한다. noindex 페이지가 많다면 robots.txt로 크롤 자체를 차단하는 것이 크롤 버짓 절약에 더 효율적이다. 단, robots.txt 차단은 이미 색인된 URL을 제거하지 않는다.

Q. 크롤 버짓을 늘리는 방법이 있나요?
A. 직접 늘리는 설정은 없다. 사이트 권위 향상(백링크·E-E-A-T), 서버 응답 속도 개선, 크롤 낭비 감소가 간접적으로 크롤 버짓을 늘리는 방법이다. 구글봇은 가치 있다고 판단하는 사이트를 더 자주 크롤한다.

Q. 크롤 버짓 최적화를 언제 시작해야 하나요?
A. GSC에서 "발견됨 — 색인 안 됨" 페이지가 전체 페이지의 20% 이상이거나, 크롤 통계에서 3xx+4xx+5xx 응답 비율이 30% 이상이면 크롤 버짓 최적화가 필요한 신호다. 소규모 사이트에서 이 현상이 발생한다면 크롤 버짓보다 콘텐츠 품질 문제를 먼저 확인한다.


관련 출처

이 페이지를 참조하는 항목

관련 항목

📘개념
Helpful Content System: 구글의 사람 중심 콘텐츠 평가 시스템
Helpful Content System은 구글이 2022년 도입한 사이트 전체 단위 신호로, 검색 엔진 순위를 위해 제작된 콘텐츠보다 사람을 위해 만든 콘텐츠를 우선시하는 알고리즘이다.
📘개념Pillar
구글 서치 콘솔 (Google Search Console) 완전 활용 가이드
구글 서치 콘솔(GSC)은 구글이 무료 제공하는 웹마스터 도구로, 검색 노출·클릭·색인 상태·크롤 오류를 직접 측정해 SEO 성과를 관리하는 필수 플랫폼이다.
📙How-to
인덱싱 커버리지 진단
인덱싱 커버리지 진단은 GSC 색인 보고서로 사이트의 전체 색인 상태를 점검하고, 색인되지 않은 페이지의 원인을 파악해 수정하는 SEO 핵심 작업이다.
📘개념Pillar
캐노니컬 태그 (Canonical Tag)
캐노니컬 태그(canonical tag)는 중복·유사 콘텐츠가 여러 URL에 존재할 때 검색엔진에 '이 URL이 대표 버전'임을 알려주는 HTML 메타 태그로, 중복 콘텐츠 문제를 해결하고 PageRank를 정규 URL에 집중시키는 온페이지 SEO 핵심 도구다.
📘개념Pillar
내부 링크 전략
내부 링크 전략은 자사 사이트 내 페이지를 의미적으로 연결해 토픽 권위와 봇·사용자 탐색을 최적화하는 작업이다.
📘개념
Noindex (노인덱스)
noindex는 robots meta 태그나 HTTP 헤더로 검색엔진 봇에 '이 페이지를 검색 결과에 포함하지 말라'고 지시하는 온페이지 크롤링 제어 지시자로, 검색 노출이 불필요하거나 해가 되는 페이지를 인덱스에서 제외해 크롤 예산을 절약하고 사이트 품질 시그널을 개선한다.
📘개념
페이지네이션 (Pagination)
페이지네이션(Pagination)은 긴 콘텐츠·상품 목록을 여러 페이지로 분할하는 기법으로, rel=prev/next가 2019년 폐기된 이후 카노니컬·무한 스크롤·자세히 보기 방식으로 대체 관리된다.
📘개념
301 리다이렉트
301 리다이렉트는 URL이 영구적으로 이동했음을 브라우저와 검색엔진에 알리는 HTTP 상태 코드로, 구 URL의 PageRank·백링크 권위를 신 URL로 전달해 SEO 손실 없이 URL 구조를 변경하는 기술 SEO 핵심 도구다.
📘개념
크롤 뎁스 (Crawl Depth)
크롤 뎁스(Crawl Depth)는 홈페이지에서 특정 페이지까지 도달하는 데 필요한 클릭 수로, 검색엔진·AI 봇의 페이지 발견 우선순위와 페이지랭크 전달 효율을 결정하는 사이트 구조의 핵심 지표다.
📘개념Pillar
크롤러빌리티 (Crawlability)
크롤러빌리티(Crawlability)는 검색엔진·AI 봇이 웹사이트 페이지에 접근하고 콘텐츠를 읽을 수 있는 능력으로, SEO·AEO의 가장 기본 조건이며 색인(Indexing)과 랭킹(Ranking)보다 선행되는 필수 단계다.
📘개념
크롤링 vs 인덱싱
크롤링(Crawling)은 검색엔진 봇이 링크를 따라 웹을 순회하며 페이지를 수집하는 과정이고, 인덱싱(Indexing)은 수집된 페이지를 분석해 검색 데이터베이스에 저장하는 과정으로, SEO 3단계(크롤링→인덱싱→랭킹)의 첫 두 단계다.
📙How-to
robots.txt에 AI 봇 허용하는 방법
AI 봇 허용은 GPTBot·ClaudeBot·PerplexityBot 등 주요 AI 크롤러의 사이트 접근을 robots.txt에서 명시해 생성형 AI 답변 인용에 자사 콘텐츠를 노출시키는 기술 설정이다.
📘개념Pillar
사이트 아키텍처 (Site Architecture)
사이트 아키텍처(Site Architecture)는 웹사이트의 페이지 계층·URL 구조·내부 링크 설계의 총체로, 크롤 효율·색인 품질·사용자 탐색 경험을 동시에 결정하는 SEO 기반 요소다.
📙How-to
사이트맵 (XML Sitemap)
XML 사이트맵은 웹사이트의 URL 목록과 각 페이지의 최종 수정일·업데이트 빈도·우선순위 정보를 담은 XML 파일로, 검색엔진 봇에게 사이트 구조를 알려 크롤링 효율과 인덱싱 속도를 높이는 기술 SEO 기반 도구다.
📘개념
URL 파라미터 (URL Parameters)
URL 파라미터(URL Parameters)는 URL 끝에 ?key=value 형태로 추가되는 쿼리 문자열로, 동일 콘텐츠를 여러 URL 변형으로 노출해 중복 콘텐츠 문제와 크롤 예산 낭비를 일으키는 기술 SEO 주요 관리 대상이다.

이런 항목도 있어요

이 페이지가 도움이 됐나요?

게시:

업데이트: