크롤 버짓 (Crawl Budget)
최종 업데이트:
정의
크롤 버짓(Crawl Budget)은 구글봇(Googlebot)이 특정 기간(보통 하루) 동안 한 웹사이트를 크롤하는 URL의 총 횟수다. Google Search Central 공식 문서에서는 크롤 버짓을 두 가지 요소의 결합으로 정의한다.
- 크롤 속도 한도(Crawl Rate Limit): 서버 과부하를 방지하기 위해 구글봇이 스스로 조정하는 요청 속도
- 크롤 수요(Crawl Demand): 구글이 사이트를 얼마나 가치 있게 평가하는지에 따른 크롤 우선순위
크롤 버짓은 고정된 수치가 아니라 사이트 권위·서버 성능·콘텐츠 변경 빈도에 따라 동적으로 변한다.
요약
소규모 사이트는 크롤 버짓을 걱정할 필요가 없다. 수천 페이지 이상 사이트에서만 크롤 버짓 최적화가 실질적 효과를 낸다. 최우선 대응: 저품질·중복 페이지 제거 또는 noindex 처리.
크롤 버짓이 중요한 사이트 유형
Google Search Central은 다음 상황에서만 크롤 버짓이 의미 있다고 명시한다.
크롤 버짓 관리가 필요한 경우
| 사이트 유형 | 이유 |
|---|---|
| 10만 페이지 이상 대규모 사이트 | 구글봇이 전체를 크롤하기 어려움 |
| 자동 생성 URL 다수 (전자상거래, 여행) | URL 파라미터로 무한 URL 생성 |
| 빠른 콘텐츠 변경 사이트 (뉴스) | 최신 콘텐츠 빠른 색인이 중요 |
| 중복 콘텐츠 비율 높은 사이트 | 크롤 낭비 비율이 높음 |
크롤 버짓을 걱정할 필요 없는 경우
- 1,000페이지 이하 소규모 사이트
- 콘텐츠 발행 빈도가 낮은 사이트
- 대부분 정적 콘텐츠로 구성된 사이트
크롤 버짓 낭비 주요 원인
[DIAGRAM: 크롤 버짓 배분 — 핵심 페이지 vs 낭비 페이지 비율]
1. URL 파라미터 중복
같은 콘텐츠에 다양한 URL이 생성되는 경우.
/products?sort=price&color=red
/products?color=red&sort=price
/products?sort=price&color=red&page=1
이 모든 URL이 크롤되면 핵심 페이지에 써야 할 크롤을 낭비한다.
해결: GSC URL 파라미터 설정 또는 canonical 태그로 중복 처리.
2. 세션 ID URL
/page?sessionid=abc123&product=X
/page?sessionid=def456&product=X
세션 ID가 URL에 포함되면 동일 콘텐츠가 무한한 URL로 복제된다.
해결: 세션 관리를 쿠키로 전환, URL에서 세션 ID 제거.
3. 페이지네이션 무한 확장
필터 조합이 많은 전자상거래 사이트에서 페이지네이션 URL이 과도하게 생성된다.
해결: 필터 조합 URL에 noindex 또는 canonical 적용.
4. 씬 콘텐츠 페이지 다수
품질이 낮은 페이지(태그 페이지, 빈 카테고리 페이지, 자동 생성 페이지)에 크롤이 낭비된다.
해결: 씬 콘텐츠 페이지 noindex 처리 또는 페이지 통합.
5. 리다이렉트 체인
5단계 이상의 리다이렉트 체인은 구글봇이 최종 URL에 도달하기 전에 크롤을 포기할 수 있다.
해결: 301 리다이렉트를 최종 목적지로 직접 연결.
6. 서버 응답 오류
5xx 오류 페이지에 구글봇이 계속 접근하면 크롤 버짓이 낭비되고, 구글봇이 크롤 속도를 낮춘다.
해결: 5xx 오류 페이지 즉각 수정.
크롤 버짓 진단 방법
GSC 크롤 통계 보고서
GSC → 설정 → 크롤 통계
확인할 지표:
- 총 크롤 요청 수 (일별 추이)
- 응답 코드별 분포 (2xx, 3xx, 4xx, 5xx)
- 크롤된 파일 유형
- 크롤 지연 시간 평균
크롤 통계에서 3xx, 4xx, 5xx 응답 비율이 높으면 크롤 낭비가 심한 것이다.
서버 로그 분석
가장 정확한 크롤 버짓 진단 방법은 서버 로그 분석이다. Apache/Nginx 액세스 로그에서 Googlebot 요청을 필터링하면 실제 크롤 패턴을 확인할 수 있다.
grep -i "googlebot" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20
크롤 빈도가 높은 URL 상위 20개를 확인하고, 중요하지 않은 URL이 과도하게 크롤되고 있는지 점검한다.
Screaming Frog 활용
Screaming Frog의 서버 로그 분석 기능을 사용해 구글봇 크롤 패턴을 시각화할 수 있다.
크롤 버짓 최적화 전략
전략 1: robots.txt로 불필요한 URL 차단
관리자 페이지, 검색 결과 페이지, 내부 필터 URL 등은 robots.txt로 구글봇 접근을 차단한다.
User-agent: Googlebot
Disallow: /admin/
Disallow: /search?
Disallow: /cart/
Disallow: /checkout/
단, robots.txt 차단은 색인을 보장하지 않는다. 이미 색인된 URL을 제거하려면 noindex가 필요하다. 자세히는 robots.txt 작성 가이드 항목 참조.
전략 2: 씬 콘텐츠 noindex 처리
가치가 낮은 페이지(빈 카테고리, 태그 아카이브, 자동 생성 페이지)에 noindex를 추가해 크롤봇이 색인을 시도하지 않도록 한다.
<meta name="robots" content="noindex, follow" />
noindex, follow를 사용해 내부 링크 크롤은 허용하면서 색인은 차단한다. 자세히는 noindex 사용 가이드 항목 참조.
전략 3: XML 사이트맵 최적화
사이트맵에는 색인시키고 싶은 페이지만 포함한다. 404, noindex, 리다이렉트 URL이 사이트맵에 포함되면 크롤 신뢰도가 낮아진다.
사이트맵 건강도 체크:
- 사이트맵 내 404 URL = 0
- 사이트맵 내 noindex URL = 0
- 사이트맵 내 리다이렉트 URL = 0
전략 4: 내부 링크로 크롤 경로 최적화
구글봇은 내부 링크를 따라 페이지를 발견한다. 핵심 페이지로 내부 링크를 집중시키면 크롤 우선순위가 높아진다. 반대로, 저품질 페이지로의 내부 링크를 줄이면 크롤 낭비를 막는다.
자세히는 내부 링크 전략 항목 참조.
전략 5: 서버 응답 속도 개선
구글봇의 크롤 속도 한도는 서버 성능에 연동된다. 서버가 빠르게 응답하면 구글봇이 더 많은 크롤을 수행할 수 있다. Core Web Vitals의 TTFB(Time to First Byte) 개선이 크롤 버짓에도 긍정적이다.
크롤 버짓과 색인의 관계
크롤 ≠ 색인
크롤됐다고 색인되는 것은 아니다. 구글봇이 페이지를 방문(크롤)해도 콘텐츠 품질이 낮으면 색인을 거절한다.
| 상태 | 의미 |
|---|---|
| 크롤됨 + 색인됨 | 정상 |
| 크롤됨 + 색인 안 됨 | 콘텐츠 품질·기술 문제 |
| 발견됨 + 크롤 안 됨 | 크롤 버짓 부족 또는 우선순위 낮음 |
| 미발견 | 내부 링크·사이트맵 누락 |
"발견됨 — 색인 안 됨" 상태의 페이지가 많다면 크롤 버짓 부족이 원인일 수 있다. 자세히는 인덱싱 커버리지 진단 항목 참조.
뉴스·전자상거래 사이트의 크롤 버짓 특이사항
뉴스 사이트
최신 기사가 빠르게 색인되려면 구글봇이 자주 크롤해야 한다. 뉴스 사이트는 크롤 버짓 낭비를 특히 철저히 관리해야 한다.
권장 방법:
- News Sitemap 사용 (최신 기사 우선 크롤 유도)
- 아카이브 페이지 noindex 처리
- 태그·카테고리 페이지 정리
전자상거래 사이트
수만 개 SKU를 가진 쇼핑몰에서 URL 파라미터 중복이 가장 큰 크롤 버짓 문제다.
권장 방법:
- 필터 URL에 canonical 태그 적용
- 재고 없는 상품 페이지 noindex 또는 삭제
- 계층적 카테고리 URL 구조로 중복 최소화
한국 시장 적용
한국 사이트의 흔한 크롤 버짓 문제
- 뉴스 사이트: 기사 페이지 외 태그·기자 페이지·검색 결과 페이지가 과다 크롤
- 쇼핑몰: 네이버 쇼핑 연동 파라미터 URL(?utm_source=naver_shopping)이 중복 URL 생성
- 커뮤니티/블로그: 무한 페이지네이션과 태그 아카이브 URL 과다
네이버봇 크롤 버짓
네이버도 자체 크롤봇(Yeti)이 있으며, 크롤 버짓 개념이 동일하게 적용된다. 네이버 서치어드바이저에서 네이버봇 크롤 로그를 일부 확인할 수 있다. 구글봇과 네이버봇을 모두 고려해 robots.txt를 설정해야 한다.
자주 묻는 질문
Q. 내 사이트가 500페이지인데 크롤 버짓을 신경 써야 하나요?
A. 일반적으로 신경 쓸 필요 없다. Google Search Central 공식 문서에서도 소규모 사이트의 크롤 버짓 걱정은 불필요하다고 명시한다. 모든 페이지가 적절히 내부 링크되어 있고 robots.txt나 noindex로 차단하지 않았다면 정상적으로 크롤된다.
Q. 구글봇이 내 사이트를 너무 자주 크롤해서 서버가 느려집니다. 어떻게 하나요?
A. GSC → 설정 → 크롤링에서 크롤 속도를 수동으로 제한할 수 있다. 단, 이 설정은 크롤 버짓을 줄이므로 색인 속도에 영향을 준다. 서버 성능을 개선하는 것이 근본적인 해결책이다.
Q. noindex 페이지도 크롤 버짓을 소비하나요?
A. 그렇다. noindex 태그를 읽으려면 구글봇이 일단 페이지를 크롤해야 한다. noindex 페이지가 많다면 robots.txt로 크롤 자체를 차단하는 것이 크롤 버짓 절약에 더 효율적이다. 단, robots.txt 차단은 이미 색인된 URL을 제거하지 않는다.
Q. 크롤 버짓을 늘리는 방법이 있나요?
A. 직접 늘리는 설정은 없다. 사이트 권위 향상(백링크·E-E-A-T), 서버 응답 속도 개선, 크롤 낭비 감소가 간접적으로 크롤 버짓을 늘리는 방법이다. 구글봇은 가치 있다고 판단하는 사이트를 더 자주 크롤한다.
Q. 크롤 버짓 최적화를 언제 시작해야 하나요?
A. GSC에서 "발견됨 — 색인 안 됨" 페이지가 전체 페이지의 20% 이상이거나, 크롤 통계에서 3xx+4xx+5xx 응답 비율이 30% 이상이면 크롤 버짓 최적화가 필요한 신호다. 소규모 사이트에서 이 현상이 발생한다면 크롤 버짓보다 콘텐츠 품질 문제를 먼저 확인한다.
관련 출처
- Google Search Central (2024). What is a crawl budget, and does it matter for SEO? https://developers.google.com/search/docs/crawling-indexing/large-site-managing-crawl-budget
- Google Search Central (2023). Crawl stats report. https://support.google.com/webmasters/answer/9679690
- Illyes, G. (2017). What Crawl Budget Means for Googlebot. Google Search Central Blog. https://developers.google.com/search/blog/2017/01/what-crawl-budget-means-for-googlebot
이 페이지를 참조하는 항목
- 📙How-tollms.txt 작성 가이드
- 📘개념Helpful Content System: 구글의 사람 중심 콘텐츠 평가 시스템
- 📘개념구글 서치 콘솔 (Google Search Console) 완전 활용 가이드
- 📙How-to인덱싱 커버리지 진단
- 📘개념GEO 마스터 가이드: 5대 영역 체크리스트
- 📙How-to콘텐츠 프루닝 (가지치기)
- 📘개념도어웨이 페이지 (Doorway Pages)
- 📘개념씬 콘텐츠 (Thin Content)
- 📙How-to네이버 서치어드바이저 등록 가이드
- 📘개념캐노니컬 태그 (Canonical Tag)
- 📙How-to이미지 alt 텍스트 작성법
- 📘개념내부 링크 전략
- 📘개념Noindex (노인덱스)
- 📘개념페이지네이션 (Pagination)
- 📘개념301 리다이렉트
- 📘개념Core Web Vitals
- 📘개념크롤 뎁스 (Crawl Depth)
- 📘개념크롤러빌리티 (Crawlability)
- 📘개념크롤링 vs 인덱싱
- 📘개념HTTP 상태 코드 (HTTP Status Codes)
- 📙How-torobots.txt에 AI 봇 허용하는 방법
- 📘개념사이트 아키텍처 (Site Architecture)
- 📙How-to사이트맵 (XML Sitemap)
- 📘개념서브도메인 vs 서브디렉토리
- 📘개념TTFB (Time to First Byte)
- 📘개념URL 파라미터 (URL Parameters)
- 📒도구Ahrefs