인덱싱 커버리지 진단
최종 업데이트:
정의
인덱싱 커버리지 진단은 구글이 사이트의 페이지들을 얼마나 제대로 색인하고 있는지 GSC를 통해 점검하고 문제를 수정하는 과정이다. 색인되지 않은 페이지는 검색 결과에 노출되지 않아 트래픽을 받을 수 없다.
요약
색인 문제 진단 순서: GSC 색인 보고서 확인 → 원인 파악 → 우선순위 정하기 → 수정 → 재색인 요청. 수정 없이 재색인 요청만 반복해도 효과가 없다.
이 가이드로 해결되는 문제
- "내 페이지가 구글에 안 뜬다"
- "사이트맵에 있는데 색인이 안 됐다"
- "최근 콘텐츠가 검색에 안 나온다"
- "예전엔 색인됐는데 갑자기 사라졌다"
GSC 색인 상태 4가지 분류
[SCREENSHOT: GSC 색인 보고서 — 색인 상태별 카운트와 원인 목록]
GSC → 색인 → 페이지 보고서에서 다음 네 가지 상태로 분류된다.
| 상태 | 의미 | 우선 대응 |
|---|---|---|
| 색인 생성됨 | 정상 — 검색 결과 노출 가능 | 유지 |
| 색인됨, 사이트맵에 미제출 | 색인은 됐지만 사이트맵 누락 | 사이트맵 갱신 |
| 발견됨 — 색인 안 됨 | 크롤 전 대기 상태 | 내부 링크 강화, 사이트맵 추가 |
| 크롤됨 — 색인 안 됨 | 크롤 후 색인 거절 | 콘텐츠/기술 문제 진단 |
"크롤됨 — 색인 안 됨"이 가장 심각한 상태다. 구글이 페이지를 읽었지만 색인할 가치가 없다고 판단한 것이다.
색인 안 됨 주요 원인 10가지
1. noindex 태그
의도적인 색인 차단. <meta name="robots" content="noindex"> 또는 HTTP 헤더 X-Robots-Tag: noindex가 설정된 경우다. 개발 환경에서 설정한 noindex가 프로덕션에 남아있는 경우가 흔하다.
확인 방법: URL 검사 → "색인 생성 안 됨" → 이유에 "noindex" 표시
2. robots.txt 차단
robots.txt에서 Disallow로 막힌 URL은 크롤도 안 된다. 자세히는 robots.txt에 AI 봇 허용하는 방법 항목 참조.
확인 방법: URL 검사 → "크롤 허용 여부" 확인
3. 캐노니컬 태그 오류
자사 URL에 다른 URL을 canonical로 지정하면, 구글은 canonical URL만 색인한다. 의도하지 않은 canonical 설정으로 중요한 페이지가 색인에서 누락되는 경우가 발생한다.
확인 방법: URL 검사 → "사용자 선언 정식 URL" 확인
4. 소프트 404
페이지가 "404 Not Found" 상태임에도 HTTP 200 응답을 반환하는 경우. 구글이 빈 콘텐츠나 에러 메시지를 가진 200 응답 페이지를 소프트 404로 분류해 색인을 거절한다.
확인 방법: URL 검사 → "크롤됨 — 색인 안 됨" + "소프트 404" 표시
5. 중복 콘텐츠
다른 페이지와 내용이 거의 동일한 경우, 구글은 한 페이지만 "정식(canonical)" 버전으로 선택해 색인한다. 나머지는 중복으로 처리해 색인에서 제외될 수 있다.
6. 씬 콘텐츠
가치 없는 짧은 페이지, 키워드만 나열된 페이지, 자동 생성 페이지 등이 해당된다. Helpful Content System 관점에서 사람에게 도움이 안 되는 콘텐츠로 분류된다. 자세히는 Helpful Content System 항목 참조.
7. 서버 오류 (5xx)
서버가 5xx 응답을 반환하면 구글이 크롤을 포기하고 색인을 하지 않는다.
확인 방법: GSC → 설정 → 크롤 통계 → 응답 코드별 분포 확인
8. 리다이렉트 문제
리다이렉트 체인이 너무 길거나(5단계 이상), 리다이렉트 루프가 있으면 색인에 문제가 생긴다.
9. 크롤 버짓 부족
대규모 사이트에서 구글의 크롤 할당량이 부족해 일부 페이지가 크롤되지 않는 경우. 자세히는 크롤 버짓 항목 참조.
10. Helpful Content 페널티
사이트 전체의 콘텐츠 품질 신호가 낮으면, 개별 페이지 품질과 무관하게 새 페이지가 색인되지 않을 수 있다. 자세히는 Helpful Content System 항목 참조.
인덱싱 커버리지 진단 5단계
1단계: GSC 색인 보고서 확인
GSC → 색인 → 페이지
- 색인된 페이지 수 확인
- "색인 생성 안 됨" 원인별 그룹 확인
- 숫자 클릭 → 해당 URL 목록 확인
2단계: 우선순위 결정
모든 미색인 페이지를 동시에 수정하려면 시간이 너무 오래 걸린다. 다음 순서로 우선순위를 정한다.
- 비즈니스 핵심 페이지 (서비스·제품·전환 페이지)
- 높은 검색량 키워드 타겟 페이지
- 최신 콘텐츠 (발행 후 3개월 내)
- 사이트 전체 영향 문제 (서버 오류, robots.txt 등)
3단계: URL 검사로 개별 진단
GSC → URL 검사 탭에 URL 입력
확인할 정보:
- 마지막 크롤 일시 (오래됐으면 크롤 빈도 낮음)
- 크롤 허용 여부 (robots.txt 차단 여부)
- 색인 여부 + 미색인 이유
- 렌더링 스크린샷 (구글이 실제로 본 페이지 모습)
4단계: 원인별 수정
| 원인 | 수정 방법 |
|---|---|
| noindex 태그 | 태그 제거 또는 속성 변경 |
| robots.txt 차단 | Disallow 규칙 수정 |
| 캐노니컬 오류 | canonical 태그 수정 또는 제거 |
| 소프트 404 | 적절한 콘텐츠 추가 또는 301 리다이렉트 |
| 씬 콘텐츠 | 콘텐츠 대폭 보강 또는 페이지 통합 |
| 서버 오류 | 개발팀과 협력해 서버 안정화 |
5단계: 재색인 요청
수정 완료 후 GSC → URL 검사 → "색인 생성 요청" 버튼 클릭.
중요 사항:
- 하루 약 10–12건 quota
- 대량 재색인은 사이트맵 업데이트로 대체
- 수정 없이 요청만 반복해도 색인되지 않음
인덱싱 모니터링 주기 권장
| 사이트 유형 | 권장 모니터링 주기 |
|---|---|
| 신규 사이트 | 매주 |
| 안정 운영 사이트 | 매월 |
| 대규모 사이트 (1만+ 페이지) | 매주 + 자동화 (Looker Studio) |
| 콘텐츠 발행 빈도 높은 사이트 | 발행 후 1주 내 확인 |
site: 연산자로 빠른 색인 확인
site:example.com
구글에서 이 검색을 실행하면 색인된 페이지의 일부를 빠르게 확인할 수 있다. 단, 구글 공식 색인 데이터가 아닌 샘플이므로 정확한 수치는 GSC를 사용한다. 자세히는 구글 검색 연산자 활용 항목 참조.
한국 시장 적용
한국 사이트 흔한 색인 문제
- m. 서브도메인 분리: m.example.com과 example.com을 분리 운영하면서 canonical이 잘못 설정된 경우
- 한국 CMS 자동 noindex: 일부 한국 웹호스팅/CMS가 특정 페이지 유형(태그 페이지, 검색 결과 페이지)에 자동으로 noindex를 설정하는 경우
- 한국어 UTF-8 URL: URL에 한국어가 포함된 경우 인코딩 문제로 크롤 오류가 발생할 수 있음
네이버 색인 별도 점검
구글 GSC에서 색인이 됐다고 네이버에서도 색인되는 것이 아니다. 네이버 서치어드바이저에서 별도로 네이버 색인 상태를 점검해야 한다. 자세히는 네이버 서치어드바이저 등록 가이드 항목 참조.
자주 묻는 질문
Q. 색인 요청을 했는데 며칠이 지나도 색인이 안 됩니다. 어떻게 해야 하나요?
A. URL 검사에서 "색인 생성 요청"은 우선 크롤을 요청하는 것이지, 즉시 색인을 보장하지 않는다. 구글이 크롤한 후에도 콘텐츠 품질이 낮거나 기술 문제가 있으면 색인을 거절할 수 있다. 원인 파악이 선행돼야 한다.
Q. 색인된 페이지 수가 갑자기 줄었습니다. 무엇이 문제인가요?
A. 갑자기 색인이 줄었다면 ①robots.txt 변경 여부, ②noindex 태그 추가 여부, ③서버 오류 여부, ④구글 코어 업데이트 타이밍을 순서대로 확인한다. GSC 색인 보고서에서 날짜와 원인을 매칭한다.
Q. 내부 링크가 없는 페이지는 색인이 안 되나요?
A. 반드시 그런 것은 아니다. 사이트맵에 포함돼 있으면 크롤 기회는 있다. 그러나 내부 링크가 없으면 크롤 우선순위가 낮아 늦게 색인되거나 "발견됨 — 색인 안 됨" 상태로 오래 유지될 수 있다.
Q. 경쟁사보다 내 사이트 색인률이 낮은 이유는 무엇인가요?
A. 도메인 권위, 콘텐츠 품질, 내부 링크 구조, 크롤 예산 등 여러 요인이 복합적으로 작용한다. 경쟁사 분석보다는 자사의 미색인 원인 파악이 우선이다.
Q. 사이트맵에 있는 페이지가 색인이 안 되는 이유는 무엇인가요?
A. 사이트맵은 크롤 가이드일 뿐, 색인 보장이 아니다. 콘텐츠 품질(씬 콘텐츠), 기술 문제(노인덱스·캐노니컬), 크롤 버짓 부족 등의 이유로 사이트맵에 있어도 색인되지 않을 수 있다.
관련 출처
- Google Search Central (2024). Index Coverage report. https://support.google.com/webmasters/answer/7440203
- Google Search Central (2024). Why Google isn't indexing your page. https://developers.google.com/search/docs/crawling-indexing/googlebot
- Google Search Central (2024). Indexing FAQ. https://developers.google.com/search/docs/crawling-indexing/index
이 페이지를 참조하는 항목
- 📙How-tollms.txt 작성 가이드
- 📘개념구글 코어 업데이트: 이해와 대응 전략
- 📘개념구글 PageRank: 링크 기반 권위 알고리즘 완전 해설
- 📘개념Helpful Content System: 구글의 사람 중심 콘텐츠 평가 시스템
- 📙How-to구글 수동 조치(Manual Action): 패널티 원인과 해제 방법
- 📘개념SpamBrain: 구글의 AI 기반 스팸 탐지 시스템
- 📗용어AI Visibility Score
- 📘개념크롤 버짓 (Crawl Budget)
- 📘개념구글 서치 콘솔 (Google Search Console) 완전 활용 가이드
- 📘개념검색 노출수 (Impressions)
- 📙How-to구글 검색 연산자 활용
- 📘개념GEO 마스터 가이드: 5대 영역 체크리스트
- 📘개념클로킹 (Cloaking)
- 📙How-to콘텐츠 프루닝 (가지치기)
- 📘개념도어웨이 페이지 (Doorway Pages)
- 📘개념중복 콘텐츠 (Duplicate Content)
- 📘개념키워드 카니발리제이션 (Keyword Cannibalization)
- 📘개념씬 콘텐츠 (Thin Content)
- 📙How-to키워드 갭 분석
- 📙How-to네이버 서치어드바이저 등록 가이드
- 📘개념네이버 SEO 작동 원리
- 📘개념브레드크럼 (Breadcrumb)
- 📘개념캐노니컬 태그 (Canonical Tag)
- 📙How-to이미지 alt 텍스트 작성법
- 📘개념내부 링크 전략
- 📘개념메타 키워드 (Meta Keywords)
- 📘개념Noindex (노인덱스)
- 📘개념페이지네이션 (Pagination)
- 📘개념피처드 스니펫 (Featured Snippet)
- 📘개념301 리다이렉트
- 📘개념Core Web Vitals
- 📘개념크롤 뎁스 (Crawl Depth)
- 📘개념크롤러빌리티 (Crawlability)
- 📘개념크롤링 vs 인덱싱
- 📘개념hreflang 태그
- 📘개념HTTP 상태 코드 (HTTP Status Codes)
- 📘개념JavaScript SEO
- 📘개념렌더링 (Rendering)
- 📙How-torobots.txt에 AI 봇 허용하는 방법
- 📘개념사이트 아키텍처 (Site Architecture)
- 📙How-to사이트맵 (XML Sitemap)
- 📘개념TTFB (Time to First Byte)
- 📒도구Ahrefs