/크롤러빌리티 (Crawlability)
📘개념⭐️ Pillar

크롤러빌리티 (Crawlability)

최종 업데이트:

정의

크롤러빌리티(Crawlability)는 검색엔진 크롤러(Googlebot 등)와 AI 봇(GPTBot, ClaudeBot 등)이 웹사이트의 페이지에 접근해 콘텐츠를 읽고 파싱할 수 있는 능력을 의미한다.

크롤러빌리티는 SEOAEO 퍼포먼스의 가장 기초적인 조건이다. 봇이 페이지를 크롤할 수 없으면 색인도 불가능하고, 색인이 없으면 랭킹도 없으며, AI 답변 데이터로도 활용되지 않는다. 화려한 콘텐츠와 백링크를 갖추고 있어도 크롤러빌리티가 막혀 있으면 아무런 SEO 효과를 기대할 수 없다.


요약

크롤러빌리티 핵심: ①크롤 가능 → ②색인 가능 → ③랭킹 순서로 진행 → ④1단계 막히면 2·3단계 불가 → ⑤차단 원인 7가지 점검 → ⑥AI 봇은 JS 미실행이므로 SSR/SSG 필수 → ⑦GSC URL 검사 + Screaming Frog로 정기 감사. 특히 Cloudflare AI 봇 자동 차단 설정에 주의한다.


크롤러빌리티 · 인덱싱 · 랭킹의 3단계

[COMPARISON_TABLE: 크롤러빌리티 → 인덱싱 → 랭킹 3단계 순차 구조]

SEO의 작동 과정은 순차적인 3단계다.

1단계: 크롤러빌리티 (접근 가능성)
봇이 페이지 URL에 접근해 HTML을 다운로드하고 콘텐츠를 파싱할 수 있는가? 이 단계가 실패하면 이후 모든 단계가 불가능하다.

2단계: 인덱싱 (저장 가능성)
크롤된 콘텐츠를 구글의 색인에 저장하는 단계. noindex 태그나 저품질 판정으로 저장되지 않을 수 있다. 자세히는 크롤링 vs 색인 참조.

3단계: 랭킹 (노출 순위)
색인된 페이지가 실제 검색 결과에서 특정 순위에 노출되는 단계.

3단계 모두가 충족되어야 검색 트래픽이 발생한다.


크롤러빌리티 차단 7가지 원인

1. robots.txt Disallow

가장 흔한 차단 원인이다. robots.txt에 Disallow: / 또는 특정 경로를 차단하면 해당 경로의 모든 페이지를 크롤할 수 없다.

# 잘못된 예 — 전체 차단
User-agent: *
Disallow: /

# AI 봇 차단 예
User-agent: GPTBot
Disallow: /

자세히는 robots.txt에 AI 봇 허용하는 방법, llms.txt 참조.

2. 방화벽·CDN IP 차단

Cloudflare의 봇 방어 기능이 기본적으로 일부 AI 봇을 차단하는 경우가 있다. WAF(웹 애플리케이션 방화벽) 규칙, 속도 제한(rate limiting)이 크롤러의 요청을 차단할 수 있다.

3. 인증·로그인 필요

회원 전용 콘텐츠, 로그인이 필요한 페이지는 봇이 접근할 수 없다. 의도적인 설계라면 문제없지만, 실수로 공개해야 할 콘텐츠에 인증이 걸려 있다면 색인이 불가능하다.

4. JavaScript 렌더링 의존

CSR(클라이언트 사이드 렌더링)으로 작동하는 페이지는 HTML 소스에 실제 콘텐츠가 없다. Googlebot은 2단계 렌더링(HTML 파싱 → JS 실행)으로 처리하지만 지연이 있다. GPTBot·ClaudeBot·PerplexityBot 등 AI 봇은 JavaScript를 실행하지 않아 빈 페이지만 보인다. 자세히는 JavaScript SEO, 렌더링 참조.

5. 깊은 크롤 뎁스

홈에서 5+ 클릭 깊이의 페이지는 봇이 도달하기 어렵다. 자세히는 크롤 뎁스 참조.

6. 깨진 내부 링크

링크가 가리키는 페이지가 존재하지 않거나(404) 리다이렉트 체인이 깊으면 봇이 원본 페이지에 도달하지 못한다.

7. 서버 오류 (5xx)

500·503 등 서버 오류 응답이 반복되면 봇이 재시도를 줄이고 결국 해당 URL의 크롤 빈도를 낮춘다.


크롤러빌리티 점검 5단계

1단계: robots.txt 직접 확인

example.com/robots.txt에 직접 접근해 Disallow 규칙을 확인한다. 의도치 않게 중요 경로가 차단되어 있지 않은지 점검한다. AI 봇별 설정도 확인한다.

2단계: XML 사이트맵 확인

example.com/sitemap.xml에 접근해 모든 중요 페이지가 포함되어 있는지 확인한다. 사이트맵에 없는 페이지는 봇이 발견하기 어렵다.

3단계: Google Search Console URL 검사

GSC의 "URL 검사" 도구로 특정 페이지의 크롤 상태, 마지막 크롤 시간, 크롤 가능 여부를 확인한다. "URL이 Google에 등록되어 있지 않음" 또는 "크롤 오류" 메시지가 있다면 즉시 대응이 필요하다. 자세히는 구글 서치 콘솔 참조.

4단계: Screaming Frog 전체 크롤 감사

Screaming Frog로 전체 사이트를 크롤해 404 오류·리다이렉트 체인·크롤 깊이·robots.txt 차단 페이지를 한번에 파악한다. User-Agent를 변경해 Googlebot 또는 AI 봇 시뮬레이션도 가능하다.

5단계: 방화벽·CDN 봇 정책 점검

Cloudflare·AWS CloudFront 등 CDN/방화벽 설정에서 봇 관련 규칙을 검토한다. 검색 봇·AI 봇이 차단 목록에 포함되어 있지 않은지 확인하고, 필요한 봇은 화이트리스트에 추가한다. 서버 접근 로그에서 Googlebot·GPTBot 등의 방문 기록을 직접 확인하면 가장 정확한 진단이 가능하다.


AI 봇 크롤러빌리티 (AEO 핵심)

Googlebot의 JS 처리

Googlebot은 JavaScript를 실행하지만 2단계 렌더링 대기열을 사용하므로 실제 인덱싱까지 시간이 걸린다. CSR 페이지는 HTML 인덱싱 후 일정 시간이 지나야 완전히 처리된다. 자세히는 JavaScript SEO 참조.

AI 봇은 HTML만 읽는다

GPTBot(OpenAI), ClaudeBot(Anthropic), PerplexityBot은 JavaScript를 실행하지 않는다. CSR로 렌더링되는 React·Vue·Angular SPA에서는 HTML 소스에 실제 콘텐츠가 없으므로 AI 봇에게 빈 페이지로 보인다.

# AI 봇이 보는 CSR 페이지 HTML 소스
<body>
  <div id="root"></div>  <!-- 텍스트 없음 -->
</body>

# AI 봇이 보는 SSR/SSG 페이지 HTML 소스
<body>
  <h1>SEO란 무엇인가?</h1>
  <p>SEO는 검색엔진 최적화이다...</p>  <!-- 내용 있음 -->
</body>

AEO 관점에서 AI 봇 크롤러빌리티는 AI 답변 데이터 인용의 필수 조건이다. 자세히는 렌더링 참조.


크롤러빌리티와 인덱싱의 4가지 조합

크롤 가능 + 인덱싱 가능 (정상)
가장 바람직한 상태. 검색 결과 노출 가능.

크롤 가능 + 인덱싱 차단 (의도적)
noindex 태그로 크롤은 허용하되 색인을 막는 경우. 관리자 페이지, 스테이징 환경 등에 사용. 자세히는 noindex 태그 활용 참조.

크롤 차단 + 인덱싱 가능 (위험 조합)
robots.txt로 차단했지만 외부 백링크가 있어 URL은 색인된 경우. 콘텐츠 없이 URL만 색인되어 품질 시그널이 낮아진다.

크롤 차단 + 인덱싱 차단 (완전 차단)
robots.txt + noindex 조합 또는 서버 오류 반복. 검색 결과에서 완전히 제외.


크롤러빌리티 개선 5가지

1. robots.txt 정리 및 AI 봇 명시적 허용

AI 봇이 차단되어 있지 않은지 확인하고, AEO를 원한다면 명시적으로 허용한다. 자세히는 robots.txt에 AI 봇 허용하는 방법 참조.

2. SSR·SSG 적용

React·Vue·Angular SPA는 Next.js·Nuxt.js의 SSG/SSR 모드로 전환해 HTML 소스에 실제 콘텐츠를 포함시킨다. 자세히는 JavaScript SEO, 렌더링 참조.

3. XML 사이트맵 최신화 및 자동 생성

콘텐츠 발행 시 사이트맵이 자동으로 업데이트되도록 CMS를 설정한다. GSC에서 사이트맵을 제출해 빠른 크롤 요청을 유도한다.

4. 내부 링크 강화

깊이 있는 페이지에서 새 콘텐츠로, 그리고 새 콘텐츠에서 기존 관련 콘텐츠로의 양방향 링크를 추가한다. 자세히는 내부 링크 전략 참조.

5. 방화벽·CDN 화이트리스트 관리

Cloudflare·AWS 등에서 Googlebot, GPTBot, ClaudeBot, PerplexityBot의 IP 범위를 화이트리스트에 추가하거나 차단 규칙에서 제외한다. 서버 로그로 주기적으로 봇 접근 기록을 모니터링한다.


한국 시장 적용

한국 호스팅의 봇 차단 문제

일부 한국 호스팅 서비스는 보안 목적으로 기본 봇 차단 정책이 강하게 설정되어 있다. Cafe24는 악성 봇 차단 기능을 기본으로 제공하며, 설정에 따라 Googlebot과 AI 봇이 함께 차단될 수 있다. 설정 > 보안 > 봇 관리 페이지에서 검색 봇 허용 여부를 반드시 확인해야 한다.

모바일 m.example.com 분리 사이트

m.example.com 별도 모바일 사이트를 운영하는 경우, 데스크탑·모바일 크롤러빌리티를 각각 점검해야 한다. 모바일 페이지만 크롤 차단되어 있거나 반대로 데스크탑 페이지가 누락되는 경우가 있다. 자세히는 모바일 퍼스트 인덱싱 참조.

네이버 검색 봇(Yeti)

네이버 검색 봇 Yeti도 robots.txt를 준수한다. 구글봇 허용 + Yeti 차단 또는 그 반대 설정이 의도치 않게 발생할 수 있으므로 두 봇의 robots.txt 설정을 별도로 점검한다. 자세히는 네이버 SEO, 네이버 서치어드바이저 참조.


자주 묻는 질문

Q. 크롤러빌리티와 인덱서빌리티(Indexability)는 다른 개념인가요?
A. 다르다. 크롤러빌리티는 봇이 페이지에 접근해 HTML을 읽을 수 있는가의 문제다. 인덱서빌리티는 크롤된 페이지를 구글 색인에 저장할 수 있는가의 문제다. 크롤 가능하더라도 noindex 태그나 저품질 판정으로 색인되지 않을 수 있다. 자세히는 크롤링 vs 색인 참조.

Q. Cloudflare를 사용 중인데 AI 봇이 차단될 수 있나요?
A. 그렇다. Cloudflare의 Bot Fight Mode나 WAF 규칙이 GPTBot·ClaudeBot 등 AI 봇을 차단할 수 있다. Cloudflare 대시보드 > Security > Bots에서 설정을 확인하고, 허용할 AI 봇의 User-Agent를 화이트리스트 규칙에 추가해야 한다.

Q. SSG로 구축된 사이트는 크롤러빌리티 문제가 없나요?
A. SSG(정적 사이트 생성)는 크롤러빌리티 면에서 가장 우수하다. 모든 페이지가 사전에 HTML로 렌더링되어 있어 모든 봇이 JavaScript 실행 없이 전체 콘텐츠를 읽을 수 있다. 단, 빌드 주기가 긴 경우 최신 콘텐츠가 반영되지 않을 수 있으므로 ISR 등의 하이브리드 방식을 고려한다. 자세히는 렌더링 참조.

Q. 크롤 차단이 없는데도 색인이 안 되는 이유는 무엇인가요?
A. 크롤은 되지만 색인이 안 되는 주요 원인: ①noindex 태그 ②중복 콘텐츠(다른 URL이 canonical으로 지정됨) ③얇은 콘텐츠 판정 ④카노니컬 설정 오류 ⑤구글의 크롤 버짓 소진. GSC URL 검사에서 "색인 생성됨"이 아닌 다른 상태가 표시된다면 이유를 확인해야 한다. 자세히는 인덱싱 커버리지 진단 참조.

Q. 크롤러빌리티 정기 점검 주기는 어떻게 되나요?
A. 소규모 사이트는 분기 1회, 중규모 사이트는 월 1회, 콘텐츠 대량 추가 시에는 추가 후 즉시 점검이 권장된다. GSC의 색인 커버리지 리포트를 주간으로 모니터링하면 대부분의 문제를 조기에 발견할 수 있다. 자세히는 크롤 버짓 참조.


관련 출처

이 페이지를 참조하는 항목

관련 항목

📙How-to
llms.txt 작성 가이드
llms.txt는 사이트 콘텐츠를 LLM이 효율적으로 이해하도록 돕는 마크다운 형식 메타데이터 파일로, 사이트 루트(/)에 배치하는 AI 친화적 사이트 가이드다.
📘개념
크롤 버짓 (Crawl Budget)
크롤 버짓(Crawl Budget)은 구글봇이 특정 기간에 한 사이트를 크롤하는 총 횟수로, 대규모 사이트에서 중요한 페이지가 색인되지 않는 주요 원인이다.
📘개념Pillar
구글 서치 콘솔 (Google Search Console) 완전 활용 가이드
구글 서치 콘솔(GSC)은 구글이 무료 제공하는 웹마스터 도구로, 검색 노출·클릭·색인 상태·크롤 오류를 직접 측정해 SEO 성과를 관리하는 필수 플랫폼이다.
📙How-to
인덱싱 커버리지 진단
인덱싱 커버리지 진단은 GSC 색인 보고서로 사이트의 전체 색인 상태를 점검하고, 색인되지 않은 페이지의 원인을 파악해 수정하는 SEO 핵심 작업이다.
📘개념Pillar
GEO 마스터 가이드: 5대 영역 체크리스트
GEO 5대 영역(콘텐츠·구조·기술·외부·측정)을 망라한 생성형 AI 최적화 실행 가이드다.
📘개념Pillar
AEO란?
AEO는 AI 답변 엔진이 콘텐츠를 인용하도록 최적화하는 기법이다.
📙How-to
네이버 서치어드바이저 등록 가이드
네이버 서치어드바이저는 네이버 공식 무료 웹마스터 도구로, 사이트 인덱싱 현황 확인·사이트맵 제출·검색 노출 분석을 제공하는 한국 시장 필수 설정이다.
📘개념Pillar
네이버 SEO 작동 원리
네이버 SEO는 한국 검색 1위 플랫폼 네이버의 통합검색에서 상위 노출을 목표로 하며, 구글과 다른 채널 신뢰도 중심의 C-Rank 알고리즘이 핵심이다.
📘개념Pillar
내부 링크 전략
내부 링크 전략은 자사 사이트 내 페이지를 의미적으로 연결해 토픽 권위와 봇·사용자 탐색을 최적화하는 작업이다.
📘개념
Noindex (노인덱스)
noindex는 robots meta 태그나 HTTP 헤더로 검색엔진 봇에 '이 페이지를 검색 결과에 포함하지 말라'고 지시하는 온페이지 크롤링 제어 지시자로, 검색 노출이 불필요하거나 해가 되는 페이지를 인덱스에서 제외해 크롤 예산을 절약하고 사이트 품질 시그널을 개선한다.
📘개념
301 리다이렉트
301 리다이렉트는 URL이 영구적으로 이동했음을 브라우저와 검색엔진에 알리는 HTTP 상태 코드로, 구 URL의 PageRank·백링크 권위를 신 URL로 전달해 SEO 손실 없이 URL 구조를 변경하는 기술 SEO 핵심 도구다.
📘개념
크롤 뎁스 (Crawl Depth)
크롤 뎁스(Crawl Depth)는 홈페이지에서 특정 페이지까지 도달하는 데 필요한 클릭 수로, 검색엔진·AI 봇의 페이지 발견 우선순위와 페이지랭크 전달 효율을 결정하는 사이트 구조의 핵심 지표다.
📘개념
크롤링 vs 인덱싱
크롤링(Crawling)은 검색엔진 봇이 링크를 따라 웹을 순회하며 페이지를 수집하는 과정이고, 인덱싱(Indexing)은 수집된 페이지를 분석해 검색 데이터베이스에 저장하는 과정으로, SEO 3단계(크롤링→인덱싱→랭킹)의 첫 두 단계다.
📘개념
HTTP 상태 코드 (HTTP Status Codes)
HTTP 상태 코드는 서버가 클라이언트 요청에 응답할 때 반환하는 3자리 숫자 코드로, SEO에서는 200(정상)·301(영구이전)·302(임시이전)·404(없음)·410(영구삭제)·500(서버오류) 등이 크롤링·인덱싱·PageRank 전달에 직접 영향을 미친다.
📘개념Pillar
JavaScript SEO
JavaScript SEO는 JavaScript로 렌더링되는 웹 페이지가 검색엔진과 AI 봇에 올바르게 인식되도록 최적화하는 기술 SEO 영역으로, SSR/SSG와 CSR의 선택이 색인 가능성을 결정한다.
📘개념Pillar
모바일 퍼스트 인덱싱 (Mobile-First Indexing)
모바일 퍼스트 인덱싱(Mobile-First Indexing)은 구글이 사이트의 모바일 버전을 기준으로 크롤·색인·랭킹하는 시스템으로, 2024년 전체 사이트 완전 적용으로 현재 SEO의 기본 전제다.
📘개념Pillar
렌더링 (Rendering)
렌더링(Rendering)은 HTML·CSS·JavaScript를 처리해 사용자와 봇이 보는 최종 화면을 생성하는 과정으로, CSR·SSR·SSG·ISR의 선택이 SEO·AEO 가능성을 결정한다.
📙How-to
robots.txt에 AI 봇 허용하는 방법
AI 봇 허용은 GPTBot·ClaudeBot·PerplexityBot 등 주요 AI 크롤러의 사이트 접근을 robots.txt에서 명시해 생성형 AI 답변 인용에 자사 콘텐츠를 노출시키는 기술 설정이다.
📘개념Pillar
사이트 아키텍처 (Site Architecture)
사이트 아키텍처(Site Architecture)는 웹사이트의 페이지 계층·URL 구조·내부 링크 설계의 총체로, 크롤 효율·색인 품질·사용자 탐색 경험을 동시에 결정하는 SEO 기반 요소다.
📙How-to
사이트맵 (XML Sitemap)
XML 사이트맵은 웹사이트의 URL 목록과 각 페이지의 최종 수정일·업데이트 빈도·우선순위 정보를 담은 XML 파일로, 검색엔진 봇에게 사이트 구조를 알려 크롤링 효율과 인덱싱 속도를 높이는 기술 SEO 기반 도구다.

이런 항목도 있어요

이 페이지가 도움이 됐나요?

게시:

업데이트: