/크롤링 vs 인덱싱
📘개념

크롤링 vs 인덱싱

최종 업데이트:

정의

**크롤링(Crawling)**은 구글봇(Googlebot)·네이버봇(Yeti) 같은 검색엔진 봇이 링크를 따라 웹을 순회하며 페이지의 HTML·CSS·JavaScript를 수집하는 과정이다.

**인덱싱(Indexing)**은 크롤링으로 수집한 페이지를 분석하고, 관련 키워드·구조·품질을 평가해 검색 데이터베이스에 저장하는 과정이다. 인덱싱된 페이지만 검색 결과에 노출될 수 있다.

두 과정은 별개다. 크롤링됐다고 반드시 인덱싱되는 것이 아니고, 인덱싱됐다고 검색 순위가 보장되는 것도 아니다.


요약

크롤링 vs 인덱싱 핵심: ①크롤링 = 봇이 방문해 수집, 인덱싱 = DB에 저장 → ②크롤링은 됐지만 인덱싱 안 되는 이유: 품질 낮음, noindex, 중복 콘텐츠, 렌더링 실패 → ③robots.txt로 크롤링 차단 시 noindex 지시도 읽지 못함 → ④GSC '페이지 색인 보고서'로 단계별 진단 가능 → ⑤JavaScript 콘텐츠는 크롤은 되지만 렌더링 후 인덱싱까지 지연 발생.


SEO 3단계 프레임워크

[DIAGRAM: SEO 3단계 — 크롤링 → 인덱싱 → 랭킹 플로우]

검색 결과에 노출되려면 반드시 이 3단계를 통과해야 한다.

1단계: 크롤링 (Crawling)

  • 봇이 링크를 발견하고 페이지를 방문
  • HTML, CSS, JavaScript 파일 다운로드
  • robots.txt, noindex, 서버 응답 코드 확인
  • 크롤 실패 원인: robots.txt 차단, 서버 오류(5xx), 접근 제한, 크롤 예산 소진

2단계: 인덱싱 (Indexing)

  • 수집된 콘텐츠를 JavaScript 렌더링 후 분석
  • 키워드, 구조, 링크, E-E-A-T 품질 평가
  • 검색 데이터베이스에 저장
  • 인덱싱 거부 원인: 품질 미달, noindex, 중복 콘텐츠, 렌더링 실패

3단계: 랭킹 (Ranking)

  • 쿼리에 맞는 인덱싱된 페이지를 200개+ 신호로 순위 결정
  • E-E-A-T, 백링크, 사용자 신호, 기술 품질 등

이 단계 중 하나라도 막히면 이후 단계는 진행되지 않는다. 자세히는 크롤러빌리티 참조.


크롤링 됐지만 인덱싱 안 되는 5가지 이유

1. 콘텐츠 품질 미달

내용이 너무 얇거나(Thin Content), 다른 페이지와 중복이 심하거나, 사용자에게 가치가 없다고 판단되면 크롤링은 되지만 인덱싱이 거부된다. Helpful Content System 평가 기준을 충족해야 한다.

2. noindex 지시

<meta name="robots" content="noindex"/> 또는 HTTP 헤더 X-Robots-Tag: noindex가 있으면 크롤링은 허용하되 인덱싱은 제외한다. 자세히는 noindex 참조.

3. 캐노니컬에 의한 중복 처리

동일 콘텐츠가 여러 URL에 존재할 때, 구글이 정규 URL 하나만 인덱싱하고 나머지는 제외한다. 자세히는 캐노니컬 태그 참조.

4. JavaScript 렌더링 실패

SPA나 클라이언트 사이드 렌더링 페이지는 크롤링(HTML 수집)과 렌더링(JavaScript 실행)이 분리되어 있다. 렌더링 실패 시 콘텐츠가 빈 페이지로 인식되어 인덱싱이 거부될 수 있다. 자세히는 JavaScript SEO 참조.

5. 서버 오류 반복

5xx 오류가 반복되는 페이지는 크롤봇이 수집을 포기하거나, 수집해도 정상 콘텐츠가 없어 인덱싱되지 않는다.


GSC로 크롤링·인덱싱 진단

Google Search Console의 "페이지 색인 보고서(Page Indexing Report)"에서 크롤링과 인덱싱 상태를 단계별로 확인할 수 있다.

확인 경로: GSC → 색인 생성 → 페이지

주요 상태 코드

GSC 상태의미
색인 생성됨크롤링 + 인덱싱 완료
크롤링됨 - 현재 색인에 없음크롤링 완료, 인덱싱 거부(품질 이슈)
검색됨 - 현재 색인에 없음발견됐지만 크롤링 미완료
robots.txt로 차단됨크롤링 차단
noindex 태그로 제외됨noindex 적용
리다이렉션됨301/302 리다이렉트 처리됨
페이지를 찾을 수 없음 (404)URL 없음

자세히는 인덱싱 커버리지 참조.


AI 봇의 크롤링과 인덱싱

ChatGPT, Perplexity, Google AI Overviews의 AI 봇(GPTBot, PerplexityBot 등)도 크롤링과 학습을 수행한다. 그러나 AI 봇의 "인덱싱"은 검색 DB 저장이 아닌 LLM 학습 데이터 수집이다.

robots.txt에서 AI 봇을 허용해야 AI 검색 답변에 콘텐츠가 인용될 수 있다. AEO(Answer Engine Optimization) 전략에서는 AI 봇의 크롤링 허용이 전제 조건이다. 자세히는 robots.txt와 AI 봇 참조.


한국 시장 적용

네이버봇의 크롤링·인덱싱

네이버 검색봇(Yeti)은 구글봇과 별개로 운영된다. 네이버 서치어드바이저에서 네이버봇 크롤링 현황과 인덱싱 오류를 확인할 수 있다. 네이버 사이트맵을 서치어드바이저에 등록하면 크롤링 효율이 향상된다.

네이버봇의 특성:

  • 네이버 블로그·카페 콘텐츠를 자체 크롤링과 별도로 처리
  • JavaScript 렌더링 지원이 구글봇보다 제한적
  • 네이버 서치어드바이저 로그로 봇 방문 기록 확인 가능

한국 사이트 공통 인덱싱 문제

  • 자바스크립트 렌더링: Next.js SSR 미사용 React 앱에서 인덱싱 누락이 빈번
  • 로그인 후 콘텐츠: 인증 필요 콘텐츠는 구글봇이 접근 불가 → 인덱싱 안 됨
  • IP 기반 차단: 일부 보안 솔루션이 구글봇 IP를 차단해 크롤링 실패

자주 묻는 질문

Q. robots.txt로 차단된 페이지에 noindex를 추가하면 의미가 있나요?
A. 없다. robots.txt로 크롤링이 차단되면 봇이 페이지에 접근하지 않으므로 noindex 지시를 읽을 수 없다. noindex가 효과를 내려면 크롤링은 허용돼야 한다. 인덱싱만 막고 싶다면 robots.txt에서 Disallow를 제거하고 noindex meta 태그만 사용한다.

Q. 사이트맵에 등록하면 크롤링이 빨라지나요?
A. 사이트맵은 구글에 URL 목록을 알려주는 힌트로, 크롤링 속도를 보장하지는 않는다. 그러나 내부 링크가 없는 고아 페이지(orphan page)는 사이트맵 없이 발견하기 어렵다. 대규모 사이트나 신규 URL은 사이트맵 제출로 크롤링 우선순위를 높일 수 있다. 자세히는 사이트맵 참조.

Q. 크롤링은 됐는데 인덱싱이 안 된다면 가장 먼저 확인할 것은?
A. GSC에서 해당 URL의 "색인 생성 오류 이유"를 확인한다. "크롤링됨 - 현재 색인에 없음" 상태는 대부분 품질 미달, 중복 콘텐츠, 캐노니컬 이슈 중 하나다. 콘텐츠 길이와 고유성을 점검하고, 다른 페이지와의 내용 중복 여부를 확인한다.

Q. 페이지를 수정했는데 구글이 언제 다시 크롤링하나요?
A. 구글이 자체 스케줄에 따라 결정하므로 보장할 수 없다. 빠른 재크롤링을 원하면 GSC "URL 검사 → 색인 생성 요청"을 사용한다. 중요도가 높은 페이지(홈, 카테고리 등)는 더 자주 크롤링되며, 수정 후 수일~수주 내에 재인덱싱된다.

Q. 인덱싱된 페이지 수가 실제 페이지 수보다 훨씬 적으면 문제인가요?
A. 반드시 그렇지는 않다. 파라미터 페이지, noindex 페이지, 내부용 페이지 등 의도적으로 제외한 페이지가 많을 수 있다. 그러나 핵심 콘텐츠 페이지가 인덱싱되지 않았다면 문제다. GSC "색인 생성됨" 수와 "색인 생성 안 됨" 이유를 항목별로 분석해 핵심 페이지 누락 여부를 확인한다.


관련 출처

  • Google Search Central (2024). How Google Search Works: Crawling, Indexing, and Ranking. Google Developers.
  • Google Search Central (2024). Page indexing report. Google Search Console Help.
  • John Mueller, Google (2023). Crawling vs. Indexing: What you need to know. Google Search Central Blog.

이 페이지를 참조하는 항목

관련 항목

📘개념
크롤 버짓 (Crawl Budget)
크롤 버짓(Crawl Budget)은 구글봇이 특정 기간에 한 사이트를 크롤하는 총 횟수로, 대규모 사이트에서 중요한 페이지가 색인되지 않는 주요 원인이다.
📘개념Pillar
구글 서치 콘솔 (Google Search Console) 완전 활용 가이드
구글 서치 콘솔(GSC)은 구글이 무료 제공하는 웹마스터 도구로, 검색 노출·클릭·색인 상태·크롤 오류를 직접 측정해 SEO 성과를 관리하는 필수 플랫폼이다.
📙How-to
인덱싱 커버리지 진단
인덱싱 커버리지 진단은 GSC 색인 보고서로 사이트의 전체 색인 상태를 점검하고, 색인되지 않은 페이지의 원인을 파악해 수정하는 SEO 핵심 작업이다.
📘개념Pillar
AEO란?
AEO는 AI 답변 엔진이 콘텐츠를 인용하도록 최적화하는 기법이다.
📘개념Pillar
캐노니컬 태그 (Canonical Tag)
캐노니컬 태그(canonical tag)는 중복·유사 콘텐츠가 여러 URL에 존재할 때 검색엔진에 '이 URL이 대표 버전'임을 알려주는 HTML 메타 태그로, 중복 콘텐츠 문제를 해결하고 PageRank를 정규 URL에 집중시키는 온페이지 SEO 핵심 도구다.
📘개념
Noindex (노인덱스)
noindex는 robots meta 태그나 HTTP 헤더로 검색엔진 봇에 '이 페이지를 검색 결과에 포함하지 말라'고 지시하는 온페이지 크롤링 제어 지시자로, 검색 노출이 불필요하거나 해가 되는 페이지를 인덱스에서 제외해 크롤 예산을 절약하고 사이트 품질 시그널을 개선한다.
📘개념
크롤 뎁스 (Crawl Depth)
크롤 뎁스(Crawl Depth)는 홈페이지에서 특정 페이지까지 도달하는 데 필요한 클릭 수로, 검색엔진·AI 봇의 페이지 발견 우선순위와 페이지랭크 전달 효율을 결정하는 사이트 구조의 핵심 지표다.
📘개념Pillar
크롤러빌리티 (Crawlability)
크롤러빌리티(Crawlability)는 검색엔진·AI 봇이 웹사이트 페이지에 접근하고 콘텐츠를 읽을 수 있는 능력으로, SEO·AEO의 가장 기본 조건이며 색인(Indexing)과 랭킹(Ranking)보다 선행되는 필수 단계다.
📘개념Pillar
JavaScript SEO
JavaScript SEO는 JavaScript로 렌더링되는 웹 페이지가 검색엔진과 AI 봇에 올바르게 인식되도록 최적화하는 기술 SEO 영역으로, SSR/SSG와 CSR의 선택이 색인 가능성을 결정한다.
📘개념Pillar
렌더링 (Rendering)
렌더링(Rendering)은 HTML·CSS·JavaScript를 처리해 사용자와 봇이 보는 최종 화면을 생성하는 과정으로, CSR·SSR·SSG·ISR의 선택이 SEO·AEO 가능성을 결정한다.
📙How-to
robots.txt에 AI 봇 허용하는 방법
AI 봇 허용은 GPTBot·ClaudeBot·PerplexityBot 등 주요 AI 크롤러의 사이트 접근을 robots.txt에서 명시해 생성형 AI 답변 인용에 자사 콘텐츠를 노출시키는 기술 설정이다.
📙How-to
사이트맵 (XML Sitemap)
XML 사이트맵은 웹사이트의 URL 목록과 각 페이지의 최종 수정일·업데이트 빈도·우선순위 정보를 담은 XML 파일로, 검색엔진 봇에게 사이트 구조를 알려 크롤링 효율과 인덱싱 속도를 높이는 기술 SEO 기반 도구다.

이런 항목도 있어요

이 페이지가 도움이 됐나요?

게시:

업데이트: