/Anthropic 봇 완전 가이드 (ClaudeBot · Claude-User · Claude-SearchBot)
📘개념⭐️ Pillar

Anthropic 봇 완전 가이드 (ClaudeBot · Claude-User · Claude-SearchBot)

최종 업데이트:

Anthropic 봇이란

Anthropic은 Claude AI 모델 운영을 위해 3종의 웹 크롤러를 운영한다. OpenAI와 마찬가지로 목적별로 봇을 분리해 운영하며, 각각을 robots.txt로 독립적으로 통제할 수 있다. Anthropic은 공식 문서에서 robots.txt 준수를 명시적으로 약속하고 있다.


TL;DR

ClaudeBot(학습)·Claude-User(사용자 브라우징)·Claude-SearchBot(검색 인덱스) 3종을 구분해야 한다. Anthropic은 robots.txt를 준수한다고 공식 명시하며, CAPTCHA 우회 기술을 사용하지 않는다고 밝히고 있다. IP 범위는 claude.com/crawling/bots.json에서 확인 가능하다.


봇별 식별 정보

아래 정보는 Anthropic 공식 지원 문서(support.claude.com, 2026년 6월 확인)를 기반으로 한다.

봇 이름robots.txt 키주 용도차단 효과
ClaudeBotClaudeBotAI 모델 학습 데이터 수집AI 학습 데이터셋에서 제외 신호
Claude-UserClaude-User사용자가 Claude에서 URL 접근 시사용자 웹 검색 가시성 저하 가능
Claude-SearchBotClaude-SearchBotClaude 검색 품질 개선을 위한 인덱스검색 결과 정확도·가시성 저하 가능

IP 범위 확인: https://claude.com/crawling/bots.json

Anthropic 공식 문서는 "의심스러운 크롤 트래픽을 발견하면 도메인을 포함해 Anthropic 지원팀에 문의하라"고 안내한다.


봇별 동작 방식

ClaudeBot — 학습용

ClaudeBot은 Claude 모델 학습을 위한 웹 데이터를 수집한다. Anthropic 공식 문서는 ClaudeBot을 차단하면 "AI 학습 데이터셋에서 제외된다는 신호를 보내는 것"이라고 설명한다. robots.txt로 차단하면 미래 학습 수집은 막히지만, 이미 수집된 데이터에는 영향이 없다.

Claude-User — 사용자 브라우징

Claude.ai 또는 Claude API를 통해 사용자가 특정 URL을 Claude에 전달하거나 웹 검색을 요청할 때 동작한다. Anthropic 문서는 차단 시 "사용자 기반 웹 검색에서 사이트 가시성이 저하될 수 있다"고 명시한다. Claude의 실시간 답변 인용과 관련이 있다.

Claude-SearchBot — 검색 인덱스

Claude 내 검색 기능의 결과 품질을 높이기 위한 인덱스를 구축한다. 차단 시 Claude 검색에서 해당 사이트의 노출 정확도가 낮아질 수 있다.


Anthropic의 크롤링 정책 공약

Anthropic 공식 문서에 명시된 내용:

  • robots.txt 준수: "do not crawl" 신호를 존중한다
  • 비침습적 크롤링: 사이트 운영에 지장을 주지 않는다
  • 투명성: 크롤러에 대해 공개적으로 정보를 제공한다
  • CAPTCHA 우회 미사용: CAPTCHA 우회 기술을 사용하지 않는다
  • 서브도메인 별도 적용: 메인 도메인과 서브도메인의 robots.txt를 각각 별도로 적용한다

robots.txt 예시 3종

시나리오 A. 완전 허용 (기본 상태)

# 별도 설정 불필요. 모든 Anthropic 봇이 기본 정책대로 동작.

시나리오 B. 학습만 차단, 답변 인용·검색은 허용 (권장)

# ClaudeBot: 학습 데이터 수집 차단
User-agent: ClaudeBot
Disallow: /

# Claude-User, Claude-SearchBot은 허용
# → Claude 답변 인용 및 검색 노출 유지

시나리오 C. 전체 차단

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-User
Disallow: /

User-agent: Claude-SearchBot
Disallow: /

서브도메인 주의

# 서브도메인은 별도로 적용해야 함 (Anthropic 공식 문서 명시)
# blog.example.com/robots.txt 에도 동일 설정 필요

권장 시나리오 (한국 SMB 기준)

일반 SMB: 시나리오 B 권장. ClaudeBot만 차단해 학습 데이터 제공을 최소화하면서 Claude 답변 인용 기회는 유지한다.

콘텐츠 자산형 비즈니스: 시나리오 C. 학습·인용 모두 차단. Claude에서의 노출이 사라진다.

AI 노출 극대화 전략: 시나리오 A(완전 허용). Anthropic이 robots.txt를 준수하므로 신뢰도가 높은 선택지다.


검증 방법

# 서버 로그에서 Anthropic 봇 필터링
grep -iE "ClaudeBot|Claude-User|Claude-SearchBot" /var/log/nginx/access.log \
  | awk '{print $4, $7, $12}' \
  | tail -50

# IP 범위 확인 (봇 인증용 참조만 — 차단 목적 IP 차단은 비권장)
# curl https://claude.com/crawling/bots.json

⚠️ IP 차단 비권장 Anthropic 공식 문서는 "IP 주소 차단은 Anthropic이 robots.txt를 읽는 것을 방해해 opt-out이 올바르게 또는 지속적으로 보장되지 않을 수 있다"고 명시한다. Anthropic 봇을 차단할 때는 IP 차단보다 robots.txt를 사용할 것을 공식적으로 권장한다.


자주 묻는 질문

Q. ClaudeBot을 차단하면 Claude 답변에 안 나오나요?
A. ClaudeBot 차단과 Claude 답변 인용은 직접 연결되지 않는다. 답변 인용은 주로 Claude-User와 Claude-SearchBot이 담당한다. ClaudeBot만 차단하면 학습 데이터 제공만 막히고, Claude의 실시간 답변 인용 채널은 열려 있다.

Q. Claude Citations API와 ClaudeBot은 어떤 관계인가요?
A. Anthropic의 Citations API는 Claude API를 통해 개발자가 답변에 출처를 명시하는 기능이다. ClaudeBot의 크롤링과는 별개 시스템이다. Citations API는 개발자가 제공하는 문서를 기반으로 작동하며, ClaudeBot의 웹 크롤링 데이터와는 직접 연결되지 않는다.

Q. Anthropic은 정말 robots.txt를 지키나요?
A. Anthropic은 공식 문서에서 robots.txt 준수와 CAPTCHA 우회 미사용을 명시적으로 약속하고 있다. OpenAI나 Perplexity에서 논란이 된 것과 달리, Anthropic의 robots.txt 무시 사례는 공개적으로 보고된 바가 없다.

Q. 서브도메인도 별도로 설정해야 하나요?
A. 그렇다. Anthropic 공식 문서는 서브도메인의 robots.txt는 메인 도메인과 별도로 적용해야 한다고 명시한다. blog.example.com에 대한 설정은 blog.example.com/robots.txt에 따로 추가해야 한다.

Q. Crawl-delay를 설정할 수 있나요?
A. 가능하다. Anthropic은 비표준 Crawl-delay 디렉티브를 지원한다. 크롤링 빈도를 줄이고 싶다면 Crawl-delay: 10 (초 단위) 형태로 추가할 수 있다.


참고

이 페이지를 참조하는 항목

이런 항목도 있어요

이 페이지가 도움이 됐나요?