CCBot (Common Crawl) 완전 가이드

CCBot이란

CCBot은 비영리 재단 Common Crawl(커먼 크롤)이 운영하는 웹 크롤러다. AI 기업이 아닌 비영리 단체가 운영한다는 점에서 다른 봇들과 근본적으로 다르다. Common Crawl은 수집한 웹 데이터를 오픈 데이터셋으로 무료 공개하며, 이 데이터는 학계·연구자·기업 누구나 활용할 수 있다.

다른 봇들과의 결정적 차이: GPTBot을 차단하면 OpenAI의 학습만 막힌다. CCBot을 차단해도 이미 Common Crawl 데이터셋에 수집된 데이터는 계속 누구에게나 제공된다. 차단은 미래 수집만 막는다.

TL;DR

CCBot은 비영리 오픈 웹 아카이브 크롤러다. 수집 데이터는 공개 배포되어 다수 LLM 학습에 사용됐다. robots.txt로 미래 수집은 차단 가능하지만, 기존 수집·배포 데이터에는 소급 효력이 없다. 이미 CCBot에 수집된 데이터는 어떤 설정을 해도 회수할 수 없다.

Common Crawl이 사용된 LLM 학습

Common Crawl 데이터는 다양한 AI 모델 학습에 활용되어 왔다. 학술 논문이나 해당 모델의 기술 보고서에서 확인된 내용이다. Common Crawl 자체가 학습에 사용된다고 보장하거나 요구하지 않으며, 각 기업·연구자가 자체 판단으로 활용한다.

CCBot 식별 정보

Common Crawl 공식 문서(commoncrawl.org/ccbot, 2026년 6월 확인)에 명시된 정보:

User-Agent 문자열:

CCBot/2.0 (https://commoncrawl.org/faq/)

IP 범위 확인:

공개 JSON: https://index.commoncrawl.org/ccbot.json
역방향 DNS: [IP].crawl.commoncrawl.org 패턴

⚠️ 주의 Common Crawl 공식 문서는 "CCBot을 사칭하는 크롤러가 존재한다"고 경고한다. User-Agent만으로 판단하지 말고 IP의 역방향 DNS를 함께 확인할 것을 권장한다.

robots.txt 차단 — 그 의미와 한계

차단하면 막히는 것

User-agent: CCBot
Disallow: /

위 설정은 지금 이 시점 이후의 CCBot 크롤링을 막는다.

차단해도 막히지 않는 것

이미 수집된 데이터: Common Crawl은 과거 크롤 데이터를 AWS S3에 공개 배포한다. 이미 배포된 데이터셋은 차단 후에도 누구나 다운로드해 사용할 수 있다.
기존 학습 모델: 이미 Common Crawl 데이터로 학습된 LLM에는 소급 효력이 없다.

이 점이 GPTBot·ClaudeBot 차단과 본질적으로 다르다. 다른 AI 봇을 차단하면 해당 회사의 미래 학습을 막지만, CCBot을 차단해도 이미 공개된 데이터는 회수가 불가능하다.

Common Crawl Opt-Out Registry

Common Crawl은 robots.txt 외에도 별도의 Opt-Out Registry를 운영한다. 웹마스터가 자신의 도메인을 제외 신청하면 미래 크롤에서 제외된다. 단, 이 역시 이미 수집된 데이터에는 소급 적용되지 않는다.

robots.txt 예시 3종

시나리오 A. 완전 허용 (현재 수집 중이라면 기본 상태)

# 별도 설정 불필요. CCBot이 정상 크롤.

시나리오 B. 미래 수집 차단

# CCBot의 미래 크롤 차단
# 기존 배포된 데이터에는 영향 없음을 유의
User-agent: CCBot
Disallow: /

시나리오 C. 특정 경로만 차단

User-agent: CCBot
Disallow: /private/
Disallow: /members/

차단 의미 분석 — 언제 차단이 의미 있는가

상황	CCBot 차단 효과
사이트 운영 초기 (아직 수집 안 됨)	✅ 효과 있음 — 미래 수집 방지
이미 Common Crawl에 수집됨	제한적 — 추가 수집만 방지
신규 콘텐츠 보호	✅ 효과 있음 — 신규 페이지 수집 방지
기존 배포 데이터 회수 목적	❌ 불가 — Opt-Out Registry도 소급 불가

권장 시나리오

신규 사이트 또는 콘텐츠 자산 보호 중심: 시나리오 B 권장. 미래 수집을 차단해 오픈 데이터셋에 새로운 콘텐츠가 추가되는 것을 방지한다.

일반 SMB: 특별한 이유가 없다면 시나리오 A. Common Crawl 데이터는 직접적인 AI 답변 인용보다 학습 데이터 풀에 기여하는 성격이 강하다. 차단 여부가 단기 AI 노출에 미치는 영향은 크지 않다.

검증 방법

# 서버 로그에서 CCBot 트래픽 확인
grep -i "CCBot" /var/log/nginx/access.log | awk '{print $4, $7, $1}' | tail -50

# IP 역방향 DNS 검증 (스푸핑 확인)
host [IP주소]
# 결과에 .crawl.commoncrawl.org 포함되어야 정상 CCBot

자주 묻는 질문

Q. CCBot을 차단하면 GPT에서 내 사이트 정보가 사라지나요?
A. 그렇지 않다. GPT 모델은 Common Crawl 데이터 외에도 다양한 출처의 학습 데이터를 사용한다. 또한 이미 학습된 모델은 CCBot 차단과 무관하게 기존 지식을 보유한다. ChatGPT의 실시간 검색(OAI-SearchBot)은 별도 채널이므로 CCBot 차단과 무관하다.

Q. Common Crawl은 영리 목적으로 데이터를 판매하나요?
A. 아니다. Common Crawl은 비영리 재단이며 수집 데이터를 무료로 공개한다. 데이터를 상업적으로 판매하지 않는다. 단, 이 데이터를 활용하는 기업·연구자는 각자의 상업적 목적으로 사용할 수 있다.

Q. CCBot과 다른 AI 봇을 동시에 차단하는 설정은?
A. 각 User-Agent를 별도로 설정한다. AI 봇별 robots.txt 매트릭스 글에서 전체 템플릿을 확인할 수 있다.

Q. CCBot이 정말 내 사이트를 크롤하고 있는지 확인하려면?
A. 서버 로그에서 CCBot 키워드로 필터링한다. 확인된 IP의 역방향 DNS가 .crawl.commoncrawl.org 패턴인지 검증해 스푸핑 여부를 확인한다.

참고

Common Crawl 공식 CCBot 문서: https://commoncrawl.org/ccbot (2026년 6월 확인)
Common Crawl IP 범위: https://index.commoncrawl.org/ccbot.json
Common Crawl Opt-Out Registry: https://commoncrawl.org/blog (관련 포스트 참조)