크롤링 vs 인덱싱
최종 업데이트:
정의
**크롤링(Crawling)**은 구글봇(Googlebot)·네이버봇(Yeti) 같은 검색엔진 봇이 링크를 따라 웹을 순회하며 페이지의 HTML·CSS·JavaScript를 수집하는 과정이다.
**인덱싱(Indexing)**은 크롤링으로 수집한 페이지를 분석하고, 관련 키워드·구조·품질을 평가해 검색 데이터베이스에 저장하는 과정이다. 인덱싱된 페이지만 검색 결과에 노출될 수 있다.
두 과정은 별개다. 크롤링됐다고 반드시 인덱싱되는 것이 아니고, 인덱싱됐다고 검색 순위가 보장되는 것도 아니다.
요약
크롤링 vs 인덱싱 핵심: ①크롤링 = 봇이 방문해 수집, 인덱싱 = DB에 저장 → ②크롤링은 됐지만 인덱싱 안 되는 이유: 품질 낮음, noindex, 중복 콘텐츠, 렌더링 실패 → ③robots.txt로 크롤링 차단 시 noindex 지시도 읽지 못함 → ④GSC '페이지 색인 보고서'로 단계별 진단 가능 → ⑤JavaScript 콘텐츠는 크롤은 되지만 렌더링 후 인덱싱까지 지연 발생.
SEO 3단계 프레임워크
[DIAGRAM: SEO 3단계 — 크롤링 → 인덱싱 → 랭킹 플로우]
검색 결과에 노출되려면 반드시 이 3단계를 통과해야 한다.
1단계: 크롤링 (Crawling)
- 봇이 링크를 발견하고 페이지를 방문
- HTML, CSS, JavaScript 파일 다운로드
- robots.txt, noindex, 서버 응답 코드 확인
- 크롤 실패 원인: robots.txt 차단, 서버 오류(5xx), 접근 제한, 크롤 예산 소진
2단계: 인덱싱 (Indexing)
- 수집된 콘텐츠를 JavaScript 렌더링 후 분석
- 키워드, 구조, 링크, E-E-A-T 품질 평가
- 검색 데이터베이스에 저장
- 인덱싱 거부 원인: 품질 미달, noindex, 중복 콘텐츠, 렌더링 실패
3단계: 랭킹 (Ranking)
- 쿼리에 맞는 인덱싱된 페이지를 200개+ 신호로 순위 결정
- E-E-A-T, 백링크, 사용자 신호, 기술 품질 등
이 단계 중 하나라도 막히면 이후 단계는 진행되지 않는다. 자세히는 크롤러빌리티 참조.
크롤링 됐지만 인덱싱 안 되는 5가지 이유
1. 콘텐츠 품질 미달
내용이 너무 얇거나(Thin Content), 다른 페이지와 중복이 심하거나, 사용자에게 가치가 없다고 판단되면 크롤링은 되지만 인덱싱이 거부된다. Helpful Content System 평가 기준을 충족해야 한다.
2. noindex 지시
<meta name="robots" content="noindex"/> 또는 HTTP 헤더 X-Robots-Tag: noindex가 있으면 크롤링은 허용하되 인덱싱은 제외한다. 자세히는 noindex 참조.
3. 캐노니컬에 의한 중복 처리
동일 콘텐츠가 여러 URL에 존재할 때, 구글이 정규 URL 하나만 인덱싱하고 나머지는 제외한다. 자세히는 캐노니컬 태그 참조.
4. JavaScript 렌더링 실패
SPA나 클라이언트 사이드 렌더링 페이지는 크롤링(HTML 수집)과 렌더링(JavaScript 실행)이 분리되어 있다. 렌더링 실패 시 콘텐츠가 빈 페이지로 인식되어 인덱싱이 거부될 수 있다. 자세히는 JavaScript SEO 참조.
5. 서버 오류 반복
5xx 오류가 반복되는 페이지는 크롤봇이 수집을 포기하거나, 수집해도 정상 콘텐츠가 없어 인덱싱되지 않는다.
GSC로 크롤링·인덱싱 진단
Google Search Console의 "페이지 색인 보고서(Page Indexing Report)"에서 크롤링과 인덱싱 상태를 단계별로 확인할 수 있다.
확인 경로: GSC → 색인 생성 → 페이지
주요 상태 코드
| GSC 상태 | 의미 |
|---|---|
| 색인 생성됨 | 크롤링 + 인덱싱 완료 |
| 크롤링됨 - 현재 색인에 없음 | 크롤링 완료, 인덱싱 거부(품질 이슈) |
| 검색됨 - 현재 색인에 없음 | 발견됐지만 크롤링 미완료 |
| robots.txt로 차단됨 | 크롤링 차단 |
| noindex 태그로 제외됨 | noindex 적용 |
| 리다이렉션됨 | 301/302 리다이렉트 처리됨 |
| 페이지를 찾을 수 없음 (404) | URL 없음 |
자세히는 인덱싱 커버리지 참조.
AI 봇의 크롤링과 인덱싱
ChatGPT, Perplexity, Google AI Overviews의 AI 봇(GPTBot, PerplexityBot 등)도 크롤링과 학습을 수행한다. 그러나 AI 봇의 "인덱싱"은 검색 DB 저장이 아닌 LLM 학습 데이터 수집이다.
robots.txt에서 AI 봇을 허용해야 AI 검색 답변에 콘텐츠가 인용될 수 있다. AEO(Answer Engine Optimization) 전략에서는 AI 봇의 크롤링 허용이 전제 조건이다. 자세히는 robots.txt와 AI 봇 참조.
한국 시장 적용
네이버봇의 크롤링·인덱싱
네이버 검색봇(Yeti)은 구글봇과 별개로 운영된다. 네이버 서치어드바이저에서 네이버봇 크롤링 현황과 인덱싱 오류를 확인할 수 있다. 네이버 사이트맵을 서치어드바이저에 등록하면 크롤링 효율이 향상된다.
네이버봇의 특성:
- 네이버 블로그·카페 콘텐츠를 자체 크롤링과 별도로 처리
- JavaScript 렌더링 지원이 구글봇보다 제한적
- 네이버 서치어드바이저 로그로 봇 방문 기록 확인 가능
한국 사이트 공통 인덱싱 문제
- 자바스크립트 렌더링: Next.js SSR 미사용 React 앱에서 인덱싱 누락이 빈번
- 로그인 후 콘텐츠: 인증 필요 콘텐츠는 구글봇이 접근 불가 → 인덱싱 안 됨
- IP 기반 차단: 일부 보안 솔루션이 구글봇 IP를 차단해 크롤링 실패
자주 묻는 질문
Q. robots.txt로 차단된 페이지에 noindex를 추가하면 의미가 있나요?
A. 없다. robots.txt로 크롤링이 차단되면 봇이 페이지에 접근하지 않으므로 noindex 지시를 읽을 수 없다. noindex가 효과를 내려면 크롤링은 허용돼야 한다. 인덱싱만 막고 싶다면 robots.txt에서 Disallow를 제거하고 noindex meta 태그만 사용한다.
Q. 사이트맵에 등록하면 크롤링이 빨라지나요?
A. 사이트맵은 구글에 URL 목록을 알려주는 힌트로, 크롤링 속도를 보장하지는 않는다. 그러나 내부 링크가 없는 고아 페이지(orphan page)는 사이트맵 없이 발견하기 어렵다. 대규모 사이트나 신규 URL은 사이트맵 제출로 크롤링 우선순위를 높일 수 있다. 자세히는 사이트맵 참조.
Q. 크롤링은 됐는데 인덱싱이 안 된다면 가장 먼저 확인할 것은?
A. GSC에서 해당 URL의 "색인 생성 오류 이유"를 확인한다. "크롤링됨 - 현재 색인에 없음" 상태는 대부분 품질 미달, 중복 콘텐츠, 캐노니컬 이슈 중 하나다. 콘텐츠 길이와 고유성을 점검하고, 다른 페이지와의 내용 중복 여부를 확인한다.
Q. 페이지를 수정했는데 구글이 언제 다시 크롤링하나요?
A. 구글이 자체 스케줄에 따라 결정하므로 보장할 수 없다. 빠른 재크롤링을 원하면 GSC "URL 검사 → 색인 생성 요청"을 사용한다. 중요도가 높은 페이지(홈, 카테고리 등)는 더 자주 크롤링되며, 수정 후 수일~수주 내에 재인덱싱된다.
Q. 인덱싱된 페이지 수가 실제 페이지 수보다 훨씬 적으면 문제인가요?
A. 반드시 그렇지는 않다. 파라미터 페이지, noindex 페이지, 내부용 페이지 등 의도적으로 제외한 페이지가 많을 수 있다. 그러나 핵심 콘텐츠 페이지가 인덱싱되지 않았다면 문제다. GSC "색인 생성됨" 수와 "색인 생성 안 됨" 이유를 항목별로 분석해 핵심 페이지 누락 여부를 확인한다.
관련 출처
- Google Search Central (2024). How Google Search Works: Crawling, Indexing, and Ranking. Google Developers.
- Google Search Central (2024). Page indexing report. Google Search Console Help.
- John Mueller, Google (2023). Crawling vs. Indexing: What you need to know. Google Search Central Blog.
이 페이지를 참조하는 항목
- 📘개념크롤 버짓 (Crawl Budget)
- 📙How-to인덱싱 커버리지 진단
- 📘개념캐노니컬 태그 (Canonical Tag)
- 📘개념Noindex (노인덱스)
- 📘개념크롤 뎁스 (Crawl Depth)
- 📘개념크롤러빌리티 (Crawlability)
- 📘개념HTTP 상태 코드 (HTTP Status Codes)
- 📘개념JavaScript SEO
- 📘개념렌더링 (Rendering)
- 📘개념사이트 아키텍처 (Site Architecture)
- 📙How-to사이트맵 (XML Sitemap)
- 📕체크리스트테크니컬 SEO 체크리스트 2026
- 📘개념URL 파라미터 (URL Parameters)