robots.txt에 AI 봇 허용하는 방법
최종 업데이트:
이 가이드로 해결되는 문제
AI 봇 허용은 GPTBot·ClaudeBot·PerplexityBot 등 주요 AI 크롤러의 사이트 접근을 robots.txt에서 명시해 생성형 AI 답변 인용에 자사 콘텐츠를 노출시키는 기술 설정이다.
요약
AEO를 목표로 한다면 AI 봇을 차단하지 말고 허용해야 한다. robots.txt에 GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, PerplexityBot, Google-Extended, CCBot, Meta-ExternalAgent 8종을 명시적으로 허용한다. Cloudflare 같은 CDN이 기본으로 AI 봇을 차단하는 경우가 있으므로 방화벽 설정도 함께 확인해야 한다.
왜 AI 봇 허용이 필요한가
"내 콘텐츠가 ChatGPT/Claude/Perplexity 답변에 전혀 인용되지 않는다"는 문제의 원인 중 하나가 AI 크롤러 차단이다.
생성형 AI 엔진은 두 가지 방식으로 콘텐츠를 수집한다.
- 학습 데이터 수집: LLM 사전 학습 시 웹을 크롤링해 콘텐츠를 학습 데이터로 수집한다.
- 실시간 검색 보강: 사용자 질문에 답변 시 실시간으로 웹을 크롤링해 최신 정보를 보강한다(RAG).
두 경우 모두 robots.txt 차단 시 해당 봇이 접근하지 못한다. AI 답변에서 자사 콘텐츠가 인용되려면 크롤러 접근을 허용해야 한다.
허용해야 할 AI 봇 8종
OpenAI, Anthropic, Perplexity 등은 각각 별도 User-agent를 운영한다. 서비스별로 역할이 구분되므로 개별 허용이 필요하다.
| 서비스 | User-agent | 역할 |
|---|---|---|
| OpenAI | GPTBot | ChatGPT 학습 데이터 수집 |
| OpenAI | OAI-SearchBot | ChatGPT Search 실시간 인용 (학습과 별개) |
| OpenAI | ChatGPT-User | 사용자가 ChatGPT에서 URL 직접 방문 시 |
| Anthropic | ClaudeBot | Claude 학습 및 답변 보강 |
| Perplexity | PerplexityBot | 실시간 답변 인용 |
| Google-Extended | Gemini AI 학습용 (Googlebot과 별개) | |
| Common Crawl | CCBot | 오픈소스 LLM 학습 데이터의 주요 원천 |
| Meta | Meta-ExternalAgent | Meta AI 학습 |
중요: OpenAI는 GPTBot(학습), OAI-SearchBot(검색 인덱싱), ChatGPT-User(사용자 직접 요청) 세 봇을 각각 독립적으로 운영한다. GPTBot만 허용하면 ChatGPT Search 인용에는 효과가 없다.
Google-Extended 주의: Google AI Overviews는 표준 Googlebot을 사용하므로 Google-Extended 차단이 AI Overviews 노출을 막지 않는다. Google-Extended는 Gemini 모델 학습 데이터 수집을 제어하는 토큰이다.
robots.txt 작성 예시
# 기본 허용
User-agent: *
Allow: /
# OpenAI 크롤러 명시적 허용
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
# Anthropic Claude
User-agent: ClaudeBot
Allow: /
# Perplexity
User-agent: PerplexityBot
Allow: /
# Google Gemini 학습
User-agent: Google-Extended
Allow: /
# Common Crawl (LLM 학습 데이터 원천)
User-agent: CCBot
Allow: /
# Meta AI
User-agent: Meta-ExternalAgent
Allow: /
# 사이트맵 명시
Sitemap: https://example.com/sitemap.xml
특정 디렉토리만 허용할 경우:
User-agent: GPTBot
Allow: /blog/
Allow: /docs/
Disallow: /private/
Disallow: /members/
적용 4단계
1단계: 현재 상태 진단
https://yourdomain.com/robots.txt에 직접 접속해 현재 설정을 확인한다. AI 봇 User-agent 블록이 없거나 Disallow: /로 전체 차단된 경우 수정이 필요하다.
2단계: robots.txt 업데이트
위 예시를 기존 파일과 병합한다. 기존 /admin, /private 등 Disallow 규칙은 반드시 보존한다.
3단계: 방화벽·CDN 설정 확인 (중요)
robots.txt만 수정해도 CDN이나 방화벽이 AI 봇을 차단하고 있으면 효과가 없다.
- Cloudflare: Security → Bots → Bot Fight Mode 또는 AI Scrapers and Crawlers 설정 확인. 일부 플랜에서 기본값이 차단이므로 해제 필요.
- AWS WAF: Bot Control 룰셋에서 AI 크롤러 분류 항목 확인.
- NGINX/Apache: User-Agent 기반 차단 규칙 확인 및 AI 봇 예외 추가.
- 방화벽 하드웨어: IP 기반 차단이 AI 봇에 영향을 줄 수 있음.
4단계: 검증
- robots.txt 직접 접속으로 변경 내용 확인
- Google Search Console → robots.txt 테스터 활용
- 서버 액세스 로그에서 AI 봇 접근 기록 확인 (변경 후 2~7일 내 봇 방문 예상)
한국 시장 적용
한국에서 많이 사용하는 플랫폼별 설정 방법이 다르다.
- Cafe24: FTP 또는 관리자 패널에서 robots.txt 직접 편집 가능. Cafe24 자체 방화벽 설정도 별도 확인 권장.
- 아임웹: robots.txt 편집이 제한적. 아임웹 고객센터를 통해 설정 요청 가능.
- 가비아 일반 호스팅: FTP로 루트 디렉토리에 직접 편집 가능.
- Vercel/Netlify:
public/robots.txt파일 또는next.config.js설정으로 관리.
한국 검색엔진도 함께 명시하면 좋다.
# 네이버 검색봇
User-agent: Yeti
Allow: /
User-agent: NaverBot
Allow: /
한국 IP 기반 차단 정책이 글로벌 AI 봇에도 영향을 줄 수 있으므로, WAF나 방화벽에서 AI 봇 IP 대역을 별도 허용하는 것도 고려한다.
AI 봇 차단이 필요한 경우
저작권 보호나 유료 콘텐츠 보호 목적으로 차단이 필요한 경우:
# 학습 데이터 수집 봇 전체 차단
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
단, AEO 관점에서 트레이드오프가 발생한다. 차단은 AI 답변에서 자사 콘텐츠가 인용될 기회를 포기하는 것이다. 유료 구독 콘텐츠나 경쟁 민감 정보가 아닌 일반 마케팅·블로그 콘텐츠는 허용을 권장한다.
자주 묻는 질문
robots.txt 변경 후 효과가 나타나려면 얼마나 걸리나요? 크롤러마다 다르다. OpenAI 문서 기준으로 robots.txt 변경이 시스템에 반영되는 데 약 24시간이 소요된다고 명시되어 있다. 실제 AI 답변에 새 콘텐츠가 반영되는 건 실시간 검색(RAG) 모드에서는 빠르지만, 학습 데이터 기반 답변에는 다음 모델 재학습 시점에 반영된다.
이미 ChatGPT가 우리 사이트를 알고 있는데 굳이 허용해야 하나요? 학습 데이터 기준으로는 이미 수집됐을 수 있지만, ChatGPT Search처럼 실시간 인덱싱을 사용하는 기능은 OAI-SearchBot의 최근 접근 허용 여부에 따라 달라진다. 명시적 허용이 없으면 업데이트된 콘텐츠가 반영되지 않을 수 있다.
robots.txt와 llms.txt는 어떻게 다른가요? robots.txt는 "봇이 내 사이트에 접근할 수 있는지"를 제어한다. llms.txt는 "봇이 내 사이트를 어떻게 이해해야 하는지"를 안내한다. 두 파일은 보완 관계이며 함께 운영하는 것이 이상적이다.
Cloudflare를 쓰는데 robots.txt만 바꿔도 되나요? Cloudflare의 Bot Fight Mode나 Super Bot Fight Mode가 활성화된 경우 robots.txt 설정과 무관하게 AI 봇이 차단된다. Cloudflare 대시보드에서 AI 봇 관련 설정을 별도로 확인하고 해제해야 한다.
Meta-ExternalAgent도 허용해야 하나요? Meta AI는 아직 ChatGPT, Claude, Perplexity 대비 국내 사용률이 낮다. 허용해도 트래픽 부담이 크지 않으며, 미래 대비 차원에서 함께 허용해 두는 것을 권장한다.
관련 출처
- OpenAI Crawlers 공식 문서: https://platform.openai.com/docs/bots
- Anthropic ClaudeBot 공식 문서: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-the-web-and-how-can-site-owners-block-the-anthropic-crawler
- Perplexity 크롤러 공식 문서: https://docs.perplexity.ai/docs/resources/perplexity-crawlers
- Google-Extended 설명: https://developers.google.com/search/docs/crawling-indexing/google-extended
이 페이지를 참조하는 항목
- 📙How-tollms.txt 작성 가이드
- 📘개념GEO 마스터 가이드: 5대 영역 체크리스트
- 📘개념AEO란?
- 📘개념GEO란?
- 📘개념SEO란?
- 📙How-to네이버 서치어드바이저 등록 가이드
- 📙How-toH 태그 위계 설계
- 📙How-to이미지 alt 텍스트 작성법
- 📘개념내부 링크 전략
- 📘개념메타 디스크립션 (Meta Description)
- 📘개념타이틀 태그 (Title Tag)
- 📙How-toChatGPT 인용 최적화
- 📘개념Google AI Overviews
- 📙How-toPerplexity 인용 최적화
- 📘개념Core Web Vitals
- 📕체크리스트테크니컬 SEO 체크리스트 2026
관련 항목
이런 항목도 있어요
llms.txt 작성 가이드
llms.txt는 사이트 콘텐츠를 LLM이 효율적으로 이해하도록 돕는 마크다운 형식 메타데이터 파일로, 사이트 루트(/)에 배치하는 AI 친화적 사이트 가이드다.
ChatGPT 인용 최적화
ChatGPT 인용 최적화는 ChatGPT 답변에 콘텐츠가 인용되도록 하는 작업이다.
Perplexity 인용 최적화
Perplexity 인용 최적화는 실시간 웹 검색 기반 AI의 인용을 확보하는 작업이다.
Google AI Overviews
Google AI Overviews는 검색 SERP에 AI 답변 블록을 추가하는 기능이다.