/Noindex (노인덱스)
📘개념

Noindex (노인덱스)

최종 업데이트:

정의

noindex는 웹 페이지가 검색엔진 인덱스(색인)에 등록되지 않도록 지시하는 크롤링 제어 메커니즘이다. robots meta 태그 또는 HTTP 응답 헤더를 통해 전달된다.

noindex는 크롤링과 인덱싱을 분리한다. 봇은 페이지를 계속 방문(크롤링)하면서 noindex 지시를 읽고, 그 페이지를 검색 결과에 표시하지 않는다. robots.txt로 페이지 접근을 완전히 차단하면 noindex 지시 자체를 읽지 못하므로 결과가 다르다. 자세히는 크롤링 vs 인덱싱 참조.


요약

noindex 핵심: ①<meta name="robots" content="noindex"/><head> 삽입 → ②봇이 크롤링은 하되 인덱싱 제외 → ③robots.txt로 차단하면 noindex를 읽지 못해 효과 없음 → ④적합 대상: 감사 페이지·로그인·내부 검색 결과·파라미터 페이지 → ⑤페이지 완전 삭제는 410 응답 코드가 더 확실하다.


noindex 적합 대상 7가지

1. 감사·완료 페이지

결제 완료, 폼 제출 완료 같은 트랜잭션 후속 페이지. 검색에 노출되면 무의미한 사용자 경험을 제공하고 크롤 예산을 낭비한다.

2. 로그인·회원가입 페이지

인증 필요 서비스의 로그인/회원가입 페이지는 비인증 방문자에게 가치 없다. noindex로 크롤 예산을 실제 콘텐츠 페이지에 집중한다.

3. 내부 검색 결과 페이지

/search?q=키워드 형태의 사이트 내 검색 결과 페이지. 무한한 URL 조합이 발생해 크롤 예산을 소진하고, 구글은 이런 페이지를 품질이 낮은 자동 생성 페이지로 평가할 수 있다.

4. URL 파라미터 중복 페이지

캐노니컬 태그로 처리했음에도 크롤링이 계속되는 파라미터 변형 URL은 noindex를 추가 적용할 수 있다. 자세히는 URL 파라미터 참조.

5. 얇은 콘텐츠 페이지

카테고리 필터가 만들어내는 수백 개의 얇은 목록 페이지, 태그 아카이브 페이지 등. 고유 가치가 없는 페이지는 noindex해 전체 사이트의 인덱싱 품질을 높인다. 자세히는 콘텐츠 가지치기 참조.

6. 스테이징·테스트 환경

프로덕션 배포 전 staging.example.com 등 테스트 서버가 실수로 구글에 인덱싱되지 않도록 noindex 처리한다.

7. 개인정보·내부 문서

공개하지 않아야 하는 내부 문서가 실수로 크롤 가능한 경우. 다만 이 경우는 인증 보호가 우선이고 noindex는 보조 수단이다.


noindex 구현 방법

HTML meta 태그 (가장 일반적)

<head>
  <meta name="robots" content="noindex" />
</head>

크롤링도 막으려면:

<meta name="robots" content="noindex, nofollow" />

특정 봇만 제어:

<meta name="googlebot" content="noindex" />

HTTP 헤더 (비-HTML 리소스에 활용)

PDF, 이미지, JavaScript 파일 등:

X-Robots-Tag: noindex

noindex vs nofollow 차이

  • noindex: 이 페이지를 인덱스에서 제외. 페이지 내 링크는 여전히 따라감.
  • nofollow: 이 페이지 내 링크를 따라가지 않음. 페이지 자체는 인덱싱될 수 있음.
  • noindex, nofollow: 인덱싱 제외 + 링크 미추적 동시 적용.

noindex와 robots.txt 차이

[COMPARISON_TABLE: noindex vs robots.txt 차이]

noindex (meta/헤더)

  • 봇 방문: ✅ 허용
  • 인덱싱: ❌ 제외
  • 링크 추적: 별도 설정 가능
  • PageRank: 전달 가능 (nofollow 없으면)
  • 적합 상황: 접근은 허용하되 검색 노출 제외

robots.txt Disallow

  • 봇 방문: ❌ 차단
  • 인덱싱: 회색 지대 (차단되면 noindex 읽지 못함)
  • 링크 추적: ❌ 차단
  • PageRank: 전달 안 됨
  • 적합 상황: 크롤 예산 보호, 민감한 리소스 완전 차단

중요: robots.txt로 차단된 페이지는 noindex 지시를 읽지 못한다. 인덱싱만 제외하려면 반드시 크롤링은 허용한 상태에서 noindex meta 태그를 사용해야 한다.

자세히는 robots.txt와 AI 참조.


noindex 제거 후 재인덱싱

noindex를 제거한 후 구글이 페이지를 재인덱싱하는 데는 시간이 걸린다. 빠르게 처리하려면:

  1. Google Search Console 내 "URL 검사 → 색인 생성 요청"을 수행한다
  2. XML 사이트맵에 해당 URL을 포함해 제출한다
  3. 내부 링크에서 해당 페이지로 링크가 있는지 확인한다

자세히는 인덱싱 커버리지 참조.


한국 시장 적용

네이버 검색 noindex 지원

네이버 검색봇(Yeti)은 <meta name="robots" content="noindex"/>를 지원한다. 그러나 네이버 검색 노출을 제어하는 더 확실한 방법은 네이버 서치어드바이저에서 URL 차단 기능을 사용하는 것이다.

한국 이커머스 noindex 사례

한국 이커머스 사이트에서 흔한 noindex 적용 사례:

  • 정렬 필터 URL (?sort=price, ?sort=latest)
  • 장바구니·주문 완료 페이지
  • 회원 전용 마이페이지
  • 상품 재고 없음 임시 페이지 (재입고 예정이면 noindex, 영구 단종이면 410)

CMS별 구현

WordPress에서 Yoast SEO 또는 RankMath 플러그인의 "검색 노출" 설정으로 페이지별 noindex를 설정한다. Next.js는 generateMetadata()에서 robots: { index: false }로 설정한다.


자주 묻는 질문

Q. noindex를 설정한 페이지는 바로 검색에서 사라지나요?
A. 아니다. 구글이 다음에 해당 페이지를 크롤링할 때 noindex를 읽고 나서야 인덱스에서 제거한다. 이 과정은 며칠에서 수주가 걸릴 수 있다. 빠른 제거가 필요하면 Google Search Console의 "URL 삭제" 기능을 임시 조치로 사용하고, 근본적으로는 noindex 또는 410 응답을 유지해야 한다.

Q. 중요한 페이지에 실수로 noindex를 설정하면 어떻게 되나요?
A. 구글이 다음 크롤링 시 인덱스에서 제거한다. 발견 즉시 noindex를 제거하고 Google Search Console에서 재색인을 요청한다. 기존 순위 회복에는 수주가 걸릴 수 있다. 배포 전 스테이징에서 noindex 실수를 방지하는 QA 체크리스트를 유지하는 것이 중요하다.

Q. noindex 페이지에서 다른 페이지로의 링크도 무시되나요?
A. noindex만 설정하면 링크는 여전히 추적된다(PageRank가 전달될 수 있음). 링크 추적도 막으려면 noindex, nofollow를 함께 사용한다. 단, 대부분의 noindex 대상 페이지(감사 페이지, 로그인 페이지)에서 외부 링크가 없으므로 실제로는 noindex 단독 사용이 일반적이다.

Q. 페이지를 아예 없애려면 noindex보다 더 좋은 방법이 있나요?
A. 페이지를 영구적으로 삭제한다면 410(Gone) HTTP 상태 코드가 가장 확실하다. 구글은 410을 보고 해당 URL이 영구적으로 사라졌음을 인식하고 인덱스에서 빠르게 제거한다. noindex는 페이지가 살아있지만 검색에 노출하지 않을 때, 410은 페이지 자체를 삭제할 때 사용한다.

Q. noindex와 캐노니컬 태그를 같은 페이지에 함께 써도 되나요?
A. 권장하지 않는다. 캐노니컬은 "이 URL을 대표로 처리해달라"는 인덱싱 요청이고, noindex는 "인덱싱하지 말라"는 요청이므로 서로 모순된다. 구글은 이 경우 noindex를 우선 처리하는 경향이 있지만, 혼란을 주어 예상치 못한 결과가 나올 수 있다. 한 페이지에는 둘 중 하나만 사용한다.


관련 출처

  • Google Search Central (2024). Block search indexing with noindex. Google Developers.
  • Google Search Central (2024). robots.txt vs noindex — Which should I use? Google Search Central Blog.
  • John Mueller, Google (2023). How Google processes noindex directives. Google Search Central.

이 페이지를 참조하는 항목

관련 항목

📘개념
크롤 버짓 (Crawl Budget)
크롤 버짓(Crawl Budget)은 구글봇이 특정 기간에 한 사이트를 크롤하는 총 횟수로, 대규모 사이트에서 중요한 페이지가 색인되지 않는 주요 원인이다.
📘개념Pillar
구글 서치 콘솔 (Google Search Console) 완전 활용 가이드
구글 서치 콘솔(GSC)은 구글이 무료 제공하는 웹마스터 도구로, 검색 노출·클릭·색인 상태·크롤 오류를 직접 측정해 SEO 성과를 관리하는 필수 플랫폼이다.
📙How-to
인덱싱 커버리지 진단
인덱싱 커버리지 진단은 GSC 색인 보고서로 사이트의 전체 색인 상태를 점검하고, 색인되지 않은 페이지의 원인을 파악해 수정하는 SEO 핵심 작업이다.
📘개념Pillar
AEO란?
AEO는 AI 답변 엔진이 콘텐츠를 인용하도록 최적화하는 기법이다.
📙How-to
콘텐츠 프루닝 (가지치기)
콘텐츠 프루닝(Content Pruning)은 사이트의 저품질·오래된 페이지를 체계적으로 개선·통합·삭제해 사이트 전체 품질 시그널을 강화하는 SEO 전략이다.
📘개념Pillar
캐노니컬 태그 (Canonical Tag)
캐노니컬 태그(canonical tag)는 중복·유사 콘텐츠가 여러 URL에 존재할 때 검색엔진에 '이 URL이 대표 버전'임을 알려주는 HTML 메타 태그로, 중복 콘텐츠 문제를 해결하고 PageRank를 정규 URL에 집중시키는 온페이지 SEO 핵심 도구다.
📘개념
크롤링 vs 인덱싱
크롤링(Crawling)은 검색엔진 봇이 링크를 따라 웹을 순회하며 페이지를 수집하는 과정이고, 인덱싱(Indexing)은 수집된 페이지를 분석해 검색 데이터베이스에 저장하는 과정으로, SEO 3단계(크롤링→인덱싱→랭킹)의 첫 두 단계다.
📘개념
HTTP 상태 코드 (HTTP Status Codes)
HTTP 상태 코드는 서버가 클라이언트 요청에 응답할 때 반환하는 3자리 숫자 코드로, SEO에서는 200(정상)·301(영구이전)·302(임시이전)·404(없음)·410(영구삭제)·500(서버오류) 등이 크롤링·인덱싱·PageRank 전달에 직접 영향을 미친다.
📙How-to
robots.txt에 AI 봇 허용하는 방법
AI 봇 허용은 GPTBot·ClaudeBot·PerplexityBot 등 주요 AI 크롤러의 사이트 접근을 robots.txt에서 명시해 생성형 AI 답변 인용에 자사 콘텐츠를 노출시키는 기술 설정이다.
📘개념Pillar
사이트 아키텍처 (Site Architecture)
사이트 아키텍처(Site Architecture)는 웹사이트의 페이지 계층·URL 구조·내부 링크 설계의 총체로, 크롤 효율·색인 품질·사용자 탐색 경험을 동시에 결정하는 SEO 기반 요소다.

이런 항목도 있어요

이 페이지가 도움이 됐나요?

게시:

업데이트: