/인덱싱 커버리지 진단
📙How-to

인덱싱 커버리지 진단

최종 업데이트:

정의

인덱싱 커버리지 진단은 구글이 사이트의 페이지들을 얼마나 제대로 색인하고 있는지 GSC를 통해 점검하고 문제를 수정하는 과정이다. 색인되지 않은 페이지는 검색 결과에 노출되지 않아 트래픽을 받을 수 없다.


요약

색인 문제 진단 순서: GSC 색인 보고서 확인 → 원인 파악 → 우선순위 정하기 → 수정 → 재색인 요청. 수정 없이 재색인 요청만 반복해도 효과가 없다.


이 가이드로 해결되는 문제

  • "내 페이지가 구글에 안 뜬다"
  • "사이트맵에 있는데 색인이 안 됐다"
  • "최근 콘텐츠가 검색에 안 나온다"
  • "예전엔 색인됐는데 갑자기 사라졌다"

GSC 색인 상태 4가지 분류

[SCREENSHOT: GSC 색인 보고서 — 색인 상태별 카운트와 원인 목록]

GSC → 색인 → 페이지 보고서에서 다음 네 가지 상태로 분류된다.

상태의미우선 대응
색인 생성됨정상 — 검색 결과 노출 가능유지
색인됨, 사이트맵에 미제출색인은 됐지만 사이트맵 누락사이트맵 갱신
발견됨 — 색인 안 됨크롤 전 대기 상태내부 링크 강화, 사이트맵 추가
크롤됨 — 색인 안 됨크롤 후 색인 거절콘텐츠/기술 문제 진단

"크롤됨 — 색인 안 됨"이 가장 심각한 상태다. 구글이 페이지를 읽었지만 색인할 가치가 없다고 판단한 것이다.


색인 안 됨 주요 원인 10가지

1. noindex 태그

의도적인 색인 차단. <meta name="robots" content="noindex"> 또는 HTTP 헤더 X-Robots-Tag: noindex가 설정된 경우다. 개발 환경에서 설정한 noindex가 프로덕션에 남아있는 경우가 흔하다.

확인 방법: URL 검사 → "색인 생성 안 됨" → 이유에 "noindex" 표시

2. robots.txt 차단

robots.txt에서 Disallow로 막힌 URL은 크롤도 안 된다. 자세히는 robots.txt에 AI 봇 허용하는 방법 항목 참조.

확인 방법: URL 검사 → "크롤 허용 여부" 확인

3. 캐노니컬 태그 오류

자사 URL에 다른 URL을 canonical로 지정하면, 구글은 canonical URL만 색인한다. 의도하지 않은 canonical 설정으로 중요한 페이지가 색인에서 누락되는 경우가 발생한다.

확인 방법: URL 검사 → "사용자 선언 정식 URL" 확인

4. 소프트 404

페이지가 "404 Not Found" 상태임에도 HTTP 200 응답을 반환하는 경우. 구글이 빈 콘텐츠나 에러 메시지를 가진 200 응답 페이지를 소프트 404로 분류해 색인을 거절한다.

확인 방법: URL 검사 → "크롤됨 — 색인 안 됨" + "소프트 404" 표시

5. 중복 콘텐츠

다른 페이지와 내용이 거의 동일한 경우, 구글은 한 페이지만 "정식(canonical)" 버전으로 선택해 색인한다. 나머지는 중복으로 처리해 색인에서 제외될 수 있다.

6. 씬 콘텐츠

가치 없는 짧은 페이지, 키워드만 나열된 페이지, 자동 생성 페이지 등이 해당된다. Helpful Content System 관점에서 사람에게 도움이 안 되는 콘텐츠로 분류된다. 자세히는 Helpful Content System 항목 참조.

7. 서버 오류 (5xx)

서버가 5xx 응답을 반환하면 구글이 크롤을 포기하고 색인을 하지 않는다.

확인 방법: GSC → 설정 → 크롤 통계 → 응답 코드별 분포 확인

8. 리다이렉트 문제

리다이렉트 체인이 너무 길거나(5단계 이상), 리다이렉트 루프가 있으면 색인에 문제가 생긴다.

9. 크롤 버짓 부족

대규모 사이트에서 구글의 크롤 할당량이 부족해 일부 페이지가 크롤되지 않는 경우. 자세히는 크롤 버짓 항목 참조.

10. Helpful Content 페널티

사이트 전체의 콘텐츠 품질 신호가 낮으면, 개별 페이지 품질과 무관하게 새 페이지가 색인되지 않을 수 있다. 자세히는 Helpful Content System 항목 참조.


인덱싱 커버리지 진단 5단계

1단계: GSC 색인 보고서 확인

GSC → 색인 → 페이지

  • 색인된 페이지 수 확인
  • "색인 생성 안 됨" 원인별 그룹 확인
  • 숫자 클릭 → 해당 URL 목록 확인

2단계: 우선순위 결정

모든 미색인 페이지를 동시에 수정하려면 시간이 너무 오래 걸린다. 다음 순서로 우선순위를 정한다.

  1. 비즈니스 핵심 페이지 (서비스·제품·전환 페이지)
  2. 높은 검색량 키워드 타겟 페이지
  3. 최신 콘텐츠 (발행 후 3개월 내)
  4. 사이트 전체 영향 문제 (서버 오류, robots.txt 등)

3단계: URL 검사로 개별 진단

GSC → URL 검사 탭에 URL 입력

확인할 정보:

  • 마지막 크롤 일시 (오래됐으면 크롤 빈도 낮음)
  • 크롤 허용 여부 (robots.txt 차단 여부)
  • 색인 여부 + 미색인 이유
  • 렌더링 스크린샷 (구글이 실제로 본 페이지 모습)

4단계: 원인별 수정

원인수정 방법
noindex 태그태그 제거 또는 속성 변경
robots.txt 차단Disallow 규칙 수정
캐노니컬 오류canonical 태그 수정 또는 제거
소프트 404적절한 콘텐츠 추가 또는 301 리다이렉트
씬 콘텐츠콘텐츠 대폭 보강 또는 페이지 통합
서버 오류개발팀과 협력해 서버 안정화

5단계: 재색인 요청

수정 완료 후 GSC → URL 검사 → "색인 생성 요청" 버튼 클릭.

중요 사항:

  • 하루 약 10–12건 quota
  • 대량 재색인은 사이트맵 업데이트로 대체
  • 수정 없이 요청만 반복해도 색인되지 않음

인덱싱 모니터링 주기 권장

사이트 유형권장 모니터링 주기
신규 사이트매주
안정 운영 사이트매월
대규모 사이트 (1만+ 페이지)매주 + 자동화 (Looker Studio)
콘텐츠 발행 빈도 높은 사이트발행 후 1주 내 확인

site: 연산자로 빠른 색인 확인

site:example.com

구글에서 이 검색을 실행하면 색인된 페이지의 일부를 빠르게 확인할 수 있다. 단, 구글 공식 색인 데이터가 아닌 샘플이므로 정확한 수치는 GSC를 사용한다. 자세히는 구글 검색 연산자 활용 항목 참조.


한국 시장 적용

한국 사이트 흔한 색인 문제

  • m. 서브도메인 분리: m.example.comexample.com을 분리 운영하면서 canonical이 잘못 설정된 경우
  • 한국 CMS 자동 noindex: 일부 한국 웹호스팅/CMS가 특정 페이지 유형(태그 페이지, 검색 결과 페이지)에 자동으로 noindex를 설정하는 경우
  • 한국어 UTF-8 URL: URL에 한국어가 포함된 경우 인코딩 문제로 크롤 오류가 발생할 수 있음

네이버 색인 별도 점검

구글 GSC에서 색인이 됐다고 네이버에서도 색인되는 것이 아니다. 네이버 서치어드바이저에서 별도로 네이버 색인 상태를 점검해야 한다. 자세히는 네이버 서치어드바이저 등록 가이드 항목 참조.


자주 묻는 질문

Q. 색인 요청을 했는데 며칠이 지나도 색인이 안 됩니다. 어떻게 해야 하나요?
A. URL 검사에서 "색인 생성 요청"은 우선 크롤을 요청하는 것이지, 즉시 색인을 보장하지 않는다. 구글이 크롤한 후에도 콘텐츠 품질이 낮거나 기술 문제가 있으면 색인을 거절할 수 있다. 원인 파악이 선행돼야 한다.

Q. 색인된 페이지 수가 갑자기 줄었습니다. 무엇이 문제인가요?
A. 갑자기 색인이 줄었다면 ①robots.txt 변경 여부, ②noindex 태그 추가 여부, ③서버 오류 여부, ④구글 코어 업데이트 타이밍을 순서대로 확인한다. GSC 색인 보고서에서 날짜와 원인을 매칭한다.

Q. 내부 링크가 없는 페이지는 색인이 안 되나요?
A. 반드시 그런 것은 아니다. 사이트맵에 포함돼 있으면 크롤 기회는 있다. 그러나 내부 링크가 없으면 크롤 우선순위가 낮아 늦게 색인되거나 "발견됨 — 색인 안 됨" 상태로 오래 유지될 수 있다.

Q. 경쟁사보다 내 사이트 색인률이 낮은 이유는 무엇인가요?
A. 도메인 권위, 콘텐츠 품질, 내부 링크 구조, 크롤 예산 등 여러 요인이 복합적으로 작용한다. 경쟁사 분석보다는 자사의 미색인 원인 파악이 우선이다.

Q. 사이트맵에 있는 페이지가 색인이 안 되는 이유는 무엇인가요?
A. 사이트맵은 크롤 가이드일 뿐, 색인 보장이 아니다. 콘텐츠 품질(씬 콘텐츠), 기술 문제(노인덱스·캐노니컬), 크롤 버짓 부족 등의 이유로 사이트맵에 있어도 색인되지 않을 수 있다.


관련 출처

이 페이지를 참조하는 항목

관련 항목

📘개념
Helpful Content System: 구글의 사람 중심 콘텐츠 평가 시스템
Helpful Content System은 구글이 2022년 도입한 사이트 전체 단위 신호로, 검색 엔진 순위를 위해 제작된 콘텐츠보다 사람을 위해 만든 콘텐츠를 우선시하는 알고리즘이다.
📘개념
크롤 버짓 (Crawl Budget)
크롤 버짓(Crawl Budget)은 구글봇이 특정 기간에 한 사이트를 크롤하는 총 횟수로, 대규모 사이트에서 중요한 페이지가 색인되지 않는 주요 원인이다.
📘개념Pillar
구글 서치 콘솔 (Google Search Console) 완전 활용 가이드
구글 서치 콘솔(GSC)은 구글이 무료 제공하는 웹마스터 도구로, 검색 노출·클릭·색인 상태·크롤 오류를 직접 측정해 SEO 성과를 관리하는 필수 플랫폼이다.
📘개념
검색 노출수 (Impressions)
검색 노출수(Impressions)는 사용자가 검색 결과에서 자사 URL을 본 횟수로, 클릭 여부와 무관하게 SEO 도달 범위를 측정하는 기본 지표다.
📘개념Pillar
AEO란?
AEO는 AI 답변 엔진이 콘텐츠를 인용하도록 최적화하는 기법이다.
📘개념Pillar
중복 콘텐츠 (Duplicate Content)
중복 콘텐츠(Duplicate Content)는 여러 URL에 같거나 매우 유사한 콘텐츠가 존재하는 상태로, 검색엔진의 권위 분산과 색인 혼란을 일으키는 흔한 기술 SEO 문제다.
📘개념Pillar
씬 콘텐츠 (Thin Content)
씬 콘텐츠(Thin Content)는 사용자에게 충분한 가치를 제공하지 못하는 얕은 페이지로, Helpful Content 시스템이 감지해 사이트 전체 품질을 낮추는 SEO 페널티 원인이다.
📙How-to
네이버 서치어드바이저 등록 가이드
네이버 서치어드바이저는 네이버 공식 무료 웹마스터 도구로, 사이트 인덱싱 현황 확인·사이트맵 제출·검색 노출 분석을 제공하는 한국 시장 필수 설정이다.
📘개념Pillar
캐노니컬 태그 (Canonical Tag)
캐노니컬 태그(canonical tag)는 중복·유사 콘텐츠가 여러 URL에 존재할 때 검색엔진에 '이 URL이 대표 버전'임을 알려주는 HTML 메타 태그로, 중복 콘텐츠 문제를 해결하고 PageRank를 정규 URL에 집중시키는 온페이지 SEO 핵심 도구다.
📘개념
Noindex (노인덱스)
noindex는 robots meta 태그나 HTTP 헤더로 검색엔진 봇에 '이 페이지를 검색 결과에 포함하지 말라'고 지시하는 온페이지 크롤링 제어 지시자로, 검색 노출이 불필요하거나 해가 되는 페이지를 인덱스에서 제외해 크롤 예산을 절약하고 사이트 품질 시그널을 개선한다.
📘개념Pillar
크롤러빌리티 (Crawlability)
크롤러빌리티(Crawlability)는 검색엔진·AI 봇이 웹사이트 페이지에 접근하고 콘텐츠를 읽을 수 있는 능력으로, SEO·AEO의 가장 기본 조건이며 색인(Indexing)과 랭킹(Ranking)보다 선행되는 필수 단계다.
📘개념
크롤링 vs 인덱싱
크롤링(Crawling)은 검색엔진 봇이 링크를 따라 웹을 순회하며 페이지를 수집하는 과정이고, 인덱싱(Indexing)은 수집된 페이지를 분석해 검색 데이터베이스에 저장하는 과정으로, SEO 3단계(크롤링→인덱싱→랭킹)의 첫 두 단계다.
📘개념Pillar
hreflang 태그
hreflang은 같은 콘텐츠의 다국어·다지역 버전을 구글에 명시하는 HTML 속성으로, 올바른 언어·지역 페이지를 적절한 사용자에게 노출하고 중복 콘텐츠 신호를 방지한다.
📘개념
HTTP 상태 코드 (HTTP Status Codes)
HTTP 상태 코드는 서버가 클라이언트 요청에 응답할 때 반환하는 3자리 숫자 코드로, SEO에서는 200(정상)·301(영구이전)·302(임시이전)·404(없음)·410(영구삭제)·500(서버오류) 등이 크롤링·인덱싱·PageRank 전달에 직접 영향을 미친다.
📘개념Pillar
JavaScript SEO
JavaScript SEO는 JavaScript로 렌더링되는 웹 페이지가 검색엔진과 AI 봇에 올바르게 인식되도록 최적화하는 기술 SEO 영역으로, SSR/SSG와 CSR의 선택이 색인 가능성을 결정한다.
📘개념Pillar
렌더링 (Rendering)
렌더링(Rendering)은 HTML·CSS·JavaScript를 처리해 사용자와 봇이 보는 최종 화면을 생성하는 과정으로, CSR·SSR·SSG·ISR의 선택이 SEO·AEO 가능성을 결정한다.
📙How-to
robots.txt에 AI 봇 허용하는 방법
AI 봇 허용은 GPTBot·ClaudeBot·PerplexityBot 등 주요 AI 크롤러의 사이트 접근을 robots.txt에서 명시해 생성형 AI 답변 인용에 자사 콘텐츠를 노출시키는 기술 설정이다.
📘개념Pillar
사이트 아키텍처 (Site Architecture)
사이트 아키텍처(Site Architecture)는 웹사이트의 페이지 계층·URL 구조·내부 링크 설계의 총체로, 크롤 효율·색인 품질·사용자 탐색 경험을 동시에 결정하는 SEO 기반 요소다.
📙How-to
사이트맵 (XML Sitemap)
XML 사이트맵은 웹사이트의 URL 목록과 각 페이지의 최종 수정일·업데이트 빈도·우선순위 정보를 담은 XML 파일로, 검색엔진 봇에게 사이트 구조를 알려 크롤링 효율과 인덱싱 속도를 높이는 기술 SEO 기반 도구다.

이런 항목도 있어요

이 페이지가 도움이 됐나요?

게시:

업데이트: