/OpenAI 봇 완전 가이드 (GPTBot · ChatGPT-User · OAI-SearchBot · OAI-AdsBot)
📘개념⭐️ Pillar

OpenAI 봇 완전 가이드 (GPTBot · ChatGPT-User · OAI-SearchBot · OAI-AdsBot)

최종 업데이트:

OpenAI 봇이란

OpenAI는 단일 봇이 아니라 목적별로 분리된 4개의 크롤러를 운영한다. 하나의 User-Agent로 모든 수집을 처리하는 방식이 아니라, 학습·인용·검색·광고 검증을 각각 다른 봇이 담당한다. robots.txt에서 특정 봇만 선별 차단할 수 있다는 점이 이 구조의 핵심이다.


TL;DR

GPTBot(학습)·ChatGPT-User(사용자 브라우징)·OAI-SearchBot(ChatGPT Search 인덱스)·OAI-AdsBot(광고 검증) 4종을 구분해야 한다. 학습은 차단하되 AI 답변 인용은 허용하고 싶다면 GPTBot만 차단하고 나머지는 허용하는 것이 권장 설정이다.


봇별 식별 정보

아래 정보는 OpenAI 공식 문서(developers.openai.com/api/docs/bots, 2026년 6월 확인)에 명시된 내용이다.

봇 이름robots.txt 키주 용도IP 범위 공개
GPTBotGPTBotAI 모델 학습 데이터 수집openai.com/gptbot.json
ChatGPT-UserChatGPT-User사용자가 ChatGPT 브라우징 기능 사용 시openai.com/chatgpt-user.json
OAI-SearchBotOAI-SearchBotChatGPT Search 인덱스 구축openai.com/searchbot.json
OAI-AdsBotOAI-AdsBotChatGPT 광고 안전성 검증 (학습 미사용)

User-Agent 문자열 (공식 문서 기준)

# GPTBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.3; +https://openai.com/gptbot

# ChatGPT-User
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

# OAI-SearchBot
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.3; +https://openai.com/searchbot

# OAI-AdsBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-AdsBot/1.0; +https://openai.com/adsbot

⚠️ 주의 User-Agent 버전 번호(예: /1.3)는 변경될 수 있다. 서버 로그 필터링 시 버전 번호 없이 GPTBot만으로 매칭하는 것이 안전하다.


봇별 동작 방식

GPTBot — 학습용

GPTBot은 OpenAI의 AI 모델 학습을 위한 웹 데이터를 수집한다. 수집된 콘텐츠는 GPT 계열 모델의 사전 학습(pre-training) 또는 파인튜닝에 활용될 수 있다. robots.txt를 통해 차단하면 미래 학습 데이터 수집은 차단되지만, 이미 수집된 데이터에는 영향이 없다.

ChatGPT-User — 사용자 브라우징

ChatGPT-User는 사용자가 ChatGPT에서 URL을 입력하거나 브라우징 기능을 사용할 때 해당 페이지를 가져오기 위해 동작한다. OpenAI 공식 문서는 "이 봇의 방문은 사용자 요청에 의한 것이므로 robots.txt 규칙이 적용되지 않을 수 있다"고 명시하고 있다. ChatGPT의 답변 인용과 직접 연결된 봇이다.

OAI-SearchBot — ChatGPT Search 인덱스

OAI-SearchBot은 ChatGPT의 웹 검색 기능(ChatGPT Search)을 위한 검색 인덱스를 구축한다. Bing 인덱스와 별도로 운영되는 OpenAI 자체 인덱스에 해당 사이트를 포함할지 여부를 통제한다.

OAI-AdsBot — 광고 검증

광고주가 ChatGPT 광고로 등록한 페이지의 안전성을 검증하기 위해 동작한다. 수집된 데이터는 모델 학습에 사용되지 않는다.


robots.txt 예시 3종

시나리오 A. 완전 허용 (기본 상태 — 아무것도 안 해도 됨)

# 별도 설정 불필요. 모든 OpenAI 봇이 기본 정책대로 동작.

시나리오 B. 학습만 차단, 답변 인용·검색은 허용 (한국 SMB 권장)

# GPTBot: 학습 데이터 수집 차단
User-agent: GPTBot
Disallow: /

# ChatGPT-User, OAI-SearchBot, OAI-AdsBot은 허용 (기본값)
# → ChatGPT 답변 인용 및 ChatGPT Search 노출 유지

시나리오 C. 전체 차단

# 모든 OpenAI 봇 차단
# ChatGPT 답변 인용·ChatGPT Search 노출도 사라질 수 있음

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: OAI-AdsBot
Disallow: /

권장 시나리오 (한국 SMB 기준)

일반 SMB (카페·병원·에이전시 등): 시나리오 B 권장. 학습 데이터 제공은 최소화하면서 ChatGPT 답변에 노출될 기회는 유지한다.

콘텐츠 자산형 비즈니스 (미디어·교육·출판): 콘텐츠 무단 학습에 민감하다면 시나리오 C를 선택한다. 단, ChatGPT 답변 및 검색에서의 노출이 사라진다는 점을 감안해야 한다.

AI 노출 최대화 전략: 시나리오 A(완전 허용). AI 모델 학습 데이터로 제공되면 장기적으로 AI 답변에서 권위 있는 출처로 인용될 가능성이 높아진다.


검증 방법 — 서버 로그에서 봇 트래픽 확인

# Nginx access.log에서 OpenAI 봇 필터링
grep -iE "GPTBot|ChatGPT-User|OAI-SearchBot|OAI-AdsBot" /var/log/nginx/access.log \
  | awk '{print $4, $7, $12}' \
  | tail -50

# 봇 IP 범위 확인 (공개된 JSON 파일)
# curl https://openai.com/gptbot.json
# curl https://openai.com/chatgpt-user.json

자주 묻는 질문

Q. GPTBot을 차단하면 ChatGPT 답변에 안 나오나요?
A. 꼭 그렇지 않다. ChatGPT 답변 인용은 주로 ChatGPT-User와 OAI-SearchBot이 담당한다. GPTBot만 차단하면 학습 데이터 제공은 막히지만, 답변 인용 채널은 열려 있다. 답변 인용까지 막으려면 ChatGPT-User와 OAI-SearchBot도 함께 차단해야 한다.

Q. robots.txt 변경 후 얼마나 지나야 반영되나요?
A. GPTBot은 통상 수일~수주 내에 변경된 robots.txt를 인식한다. ChatGPT-User는 사용자 요청 시 실시간으로 동작하므로 즉시 적용될 수 있다. 정확한 반영 시점은 OpenAI가 공식적으로 명시하지 않는다.

Q. ChatGPT-User는 robots.txt를 무시한다는 게 사실인가요?
A. OpenAI 공식 문서는 "ChatGPT-User의 방문은 사용자 요청에 의한 것이므로 robots.txt 규칙이 적용되지 않을 수 있다"고 명시한다. 즉, robots.txt로 완전 차단이 보장되지 않을 수 있다.

Q. User-Agent 문자열에 버전 번호가 바뀌면 차단이 풀리나요?
A. robots.txt는 User-Agent 전체가 아닌 봇 이름(GPTBot, ChatGPT-User 등)만으로 매칭된다. 버전 번호가 바뀌어도 봇 이름이 동일하면 차단이 유지된다.

Q. IP 범위로 차단하는 것과 robots.txt 차단의 차이는?
A. robots.txt 차단은 "정책 고지"로, 봇이 이를 존중하는지 여부는 운영사 정책에 달려 있다. IP 범위 차단은 서버 수준에서 물리적으로 요청을 거부한다. 강도는 IP 차단이 높지만, OpenAI가 IP 범위를 변경하면 유지 관리가 필요하다. 두 방법을 병행하는 것이 가장 확실하다.


참고

이 페이지를 참조하는 항목

관련 항목

📕체크리스트Pillar
AI 봇별 robots.txt 매트릭스 — 종합 비교 및 설정 가이드
주요 AI 답변 엔진과 LLM 학습 봇 6종의 정책·robots.txt 설정·권장 시나리오를 한 화면에서 비교하고, 시나리오별로 즉시 복사 가능한 robots.txt 템플릿을 제공하는 통합 참조 가이드다.
📘개념Pillar
Anthropic 봇 완전 가이드 (ClaudeBot · Claude-User · Claude-SearchBot)
Anthropic은 학습(ClaudeBot)·사용자 브라우징(Claude-User)·검색 인덱스(Claude-SearchBot) 3종의 봇을 운영하며, robots.txt로 각각 독립적으로 통제할 수 있고, Anthropic은 robots.txt를 공식적으로 준수한다고 명시하고 있다.
📘개념Pillar
Google-Extended 완전 가이드 — 봇이 아닌 정책 토큰
Google-Extended는 독립적인 크롤러가 아니라 robots.txt 제어 토큰으로, Googlebot이 이미 수집한 데이터를 Gemini 모델 학습 및 Vertex AI 그라운딩에 사용할지 여부만 통제하며, Google 검색 노출이나 순위에는 영향을 주지 않는다.
📙How-to
llms.txt 작성 가이드
llms.txt는 사이트 콘텐츠를 LLM이 효율적으로 이해하도록 돕는 마크다운 형식 메타데이터 파일로, 사이트 루트(/)에 배치하는 AI 친화적 사이트 가이드다.
📘개념Pillar
Perplexity 봇 완전 가이드 (PerplexityBot · Perplexity-User)
Perplexity는 검색 인덱스용 PerplexityBot과 사용자 요청 기반 Perplexity-User 2종의 봇을 운영하며, PerplexityBot은 robots.txt를 준수하지만 Perplexity-User는 robots.txt를 일반적으로 무시한다고 공식 문서에 명시되어 있다.
📙How-toPillar
AI Citation Tracking 방법론
AI Citation Tracking은 ChatGPT·Perplexity·Claude·Gemini 등 AI 답변 엔진이 자사 콘텐츠를 인용하는 횟수와 맥락을 체계적으로 측정하는 방법론으로, AEO·GEO 성과 검증의 기본 인프라다.
📙How-to
ChatGPT 인용 최적화
ChatGPT 인용 최적화는 ChatGPT 답변에 콘텐츠가 인용되도록 하는 작업이다.
📙How-to
robots.txt에 AI 봇 허용하는 방법
AI 봇 허용은 GPTBot·ClaudeBot·PerplexityBot 등 주요 AI 크롤러의 사이트 접근을 robots.txt에서 명시해 생성형 AI 답변 인용에 자사 콘텐츠를 노출시키는 기술 설정이다.

이런 항목도 있어요

이 페이지가 도움이 됐나요?