robots.txt에 AI 봇 허용하는 방법

왜 AI 봇 허용이 필요한가

"내 콘텐츠가 ChatGPT/Claude/Perplexity 답변에 전혀 인용되지 않는다"는 문제의 원인 중 하나가 AI 크롤러 차단이다.

생성형 AI 엔진은 두 가지 방식으로 콘텐츠를 수집한다.

학습 데이터 수집: LLM 사전 학습 시 웹을 크롤링해 콘텐츠를 학습 데이터로 수집한다.
실시간 검색 보강: 사용자 질문에 답변 시 실시간으로 웹을 크롤링해 최신 정보를 보강한다(RAG).

두 경우 모두 robots.txt 차단 시 해당 봇이 접근하지 못한다. AI 답변에서 자사 콘텐츠가 인용되려면 크롤러 접근을 허용해야 한다.

허용해야 할 AI 봇 8종

OpenAI, Anthropic, Perplexity 등은 각각 별도 User-agent를 운영한다. 서비스별로 역할이 구분되므로 개별 허용이 필요하다.

서비스	User-agent	역할
OpenAI	GPTBot	ChatGPT 학습 데이터 수집
OpenAI	OAI-SearchBot	ChatGPT Search 실시간 인용 (학습과 별개)
OpenAI	ChatGPT-User	사용자가 ChatGPT에서 URL 직접 방문 시
Anthropic	ClaudeBot	Claude 학습 및 답변 보강
Perplexity	PerplexityBot	실시간 답변 인용
Google	Google-Extended	Gemini AI 학습용 (Googlebot과 별개)
Common Crawl	CCBot	오픈소스 LLM 학습 데이터의 주요 원천
Meta	Meta-ExternalAgent	Meta AI 학습

중요: OpenAI는 GPTBot(학습), OAI-SearchBot(검색 인덱싱), ChatGPT-User(사용자 직접 요청) 세 봇을 각각 독립적으로 운영한다. GPTBot만 허용하면 ChatGPT Search 인용에는 효과가 없다.

Google-Extended 주의: Google AI Overviews는 표준 Googlebot을 사용하므로 Google-Extended 차단이 AI Overviews 노출을 막지 않는다. Google-Extended는 Gemini 모델 학습 데이터 수집을 제어하는 토큰이다.

robots.txt 작성 예시

# 기본 허용
User-agent: *
Allow: /

# OpenAI 크롤러 명시적 허용
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

# Anthropic Claude
User-agent: ClaudeBot
Allow: /

# Perplexity
User-agent: PerplexityBot
Allow: /

# Google Gemini 학습
User-agent: Google-Extended
Allow: /

# Common Crawl (LLM 학습 데이터 원천)
User-agent: CCBot
Allow: /

# Meta AI
User-agent: Meta-ExternalAgent
Allow: /

# 사이트맵 명시
Sitemap: https://example.com/sitemap.xml

특정 디렉토리만 허용할 경우:

User-agent: GPTBot
Allow: /blog/
Allow: /docs/
Disallow: /private/
Disallow: /members/

적용 4단계

1단계: 현재 상태 진단

https://yourdomain.com/robots.txt에 직접 접속해 현재 설정을 확인한다. AI 봇 User-agent 블록이 없거나 Disallow: /로 전체 차단된 경우 수정이 필요하다.

2단계: robots.txt 업데이트

위 예시를 기존 파일과 병합한다. 기존 /admin, /private 등 Disallow 규칙은 반드시 보존한다.

3단계: 방화벽·CDN 설정 확인 (중요)

robots.txt만 수정해도 CDN이나 방화벽이 AI 봇을 차단하고 있으면 효과가 없다.

Cloudflare: Security → Bots → Bot Fight Mode 또는 AI Scrapers and Crawlers 설정 확인. 일부 플랜에서 기본값이 차단이므로 해제 필요.
AWS WAF: Bot Control 룰셋에서 AI 크롤러 분류 항목 확인.
NGINX/Apache: User-Agent 기반 차단 규칙 확인 및 AI 봇 예외 추가.
방화벽 하드웨어: IP 기반 차단이 AI 봇에 영향을 줄 수 있음.

4단계: 검증

robots.txt 직접 접속으로 변경 내용 확인
Google Search Console → robots.txt 테스터 활용
서버 액세스 로그에서 AI 봇 접근 기록 확인 (변경 후 2~7일 내 봇 방문 예상)

한국 시장 적용

한국에서 많이 사용하는 플랫폼별 설정 방법이 다르다.

Cafe24: FTP 또는 관리자 패널에서 robots.txt 직접 편집 가능. Cafe24 자체 방화벽 설정도 별도 확인 권장.
아임웹: robots.txt 편집이 제한적. 아임웹 고객센터를 통해 설정 요청 가능.
가비아 일반 호스팅: FTP로 루트 디렉토리에 직접 편집 가능.
Vercel/Netlify: public/robots.txt 파일 또는 next.config.js 설정으로 관리.

한국 검색엔진도 함께 명시하면 좋다.

# 네이버 검색봇
User-agent: Yeti
Allow: /

User-agent: NaverBot
Allow: /

한국 IP 기반 차단 정책이 글로벌 AI 봇에도 영향을 줄 수 있으므로, WAF나 방화벽에서 AI 봇 IP 대역을 별도 허용하는 것도 고려한다.

AI 봇 차단이 필요한 경우

# 학습 데이터 수집 봇 전체 차단
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

단, AEO 관점에서 트레이드오프가 발생한다. 차단은 AI 답변에서 자사 콘텐츠가 인용될 기회를 포기하는 것이다. 유료 구독 콘텐츠나 경쟁 민감 정보가 아닌 일반 마케팅·블로그 콘텐츠는 허용을 권장한다.

자주 묻는 질문

robots.txt 변경 후 효과가 나타나려면 얼마나 걸리나요? 크롤러마다 다르다. OpenAI 문서 기준으로 robots.txt 변경이 시스템에 반영되는 데 약 24시간이 소요된다고 명시되어 있다. 실제 AI 답변에 새 콘텐츠가 반영되는 건 실시간 검색(RAG) 모드에서는 빠르지만, 학습 데이터 기반 답변에는 다음 모델 재학습 시점에 반영된다.

이미 ChatGPT가 우리 사이트를 알고 있는데 굳이 허용해야 하나요? 학습 데이터 기준으로는 이미 수집됐을 수 있지만, ChatGPT Search처럼 실시간 인덱싱을 사용하는 기능은 OAI-SearchBot의 최근 접근 허용 여부에 따라 달라진다. 명시적 허용이 없으면 업데이트된 콘텐츠가 반영되지 않을 수 있다.

robots.txt와 llms.txt는 어떻게 다른가요? robots.txt는 "봇이 내 사이트에 접근할 수 있는지"를 제어한다. llms.txt는 "봇이 내 사이트를 어떻게 이해해야 하는지"를 안내한다. 두 파일은 보완 관계이며 함께 운영하는 것이 이상적이다.

Cloudflare를 쓰는데 robots.txt만 바꿔도 되나요? Cloudflare의 Bot Fight Mode나 Super Bot Fight Mode가 활성화된 경우 robots.txt 설정과 무관하게 AI 봇이 차단된다. Cloudflare 대시보드에서 AI 봇 관련 설정을 별도로 확인하고 해제해야 한다.

Meta-ExternalAgent도 허용해야 하나요? Meta AI는 아직 ChatGPT, Claude, Perplexity 대비 국내 사용률이 낮다. 허용해도 트래픽 부담이 크지 않으며, 미래 대비 차원에서 함께 허용해 두는 것을 권장한다.

robots.txt에 AI 봇 허용하는 방법

왜 AI 봇 허용이 필요한가

허용해야 할 AI 봇 8종

robots.txt 작성 예시

적용 4단계

한국 시장 적용

AI 봇 차단이 필요한 경우

자주 묻는 질문

관련 출처

이 페이지를 참조하는 항목

관련 항목

이런 항목도 있어요