중복 콘텐츠 (Duplicate Content)
최종 업데이트:
정의
중복 콘텐츠(Duplicate Content)는 자사 사이트 내 또는 외부 사이트와 같거나 매우 유사한 콘텐츠가 여러 URL에 존재하는 상태다. Google Search Central 공식 문서에 따르면 "전 세계 웹 콘텐츠의 약 25–30%가 어느 정도 중복 상태"라고 추정하며, 이는 의도치 않게 발생하는 기술적 문제인 경우가 대부분이다.
요약
중복 콘텐츠 처리 우선순위: ①www/https/끝슬래시 통일 → ②캐노니컬 태그로 정식 URL 명시 → ③URL 파라미터 처리 → ④외부 신디케이션 canonical 설정. 수동 조치 발생 사례는 의도적 스팸 목적 중복뿐이다.
중복 콘텐츠의 2가지 유형
[COMPARISON_TABLE: 내부 중복 vs 외부 중복 — 발생 원인·영향·처리 방법 비교]
내부 중복 (Internal Duplicate)
자사 사이트 내에서 여러 URL이 같거나 매우 유사한 콘텐츠를 제공하는 경우. 가장 흔하고 직접 통제 가능하다.
발생 원인:
- www vs non-www: www.example.com과 example.com 둘 다 접근 가능
- http vs https: 프로토콜 혼재
- 끝 슬래시(Trailing Slash): /page와 /page/ 별개 URL로 인식
- 대소문자: /Page와 /page 별개
- URL 파라미터: ?sort=price, ?utm_source=naver 등으로 변형 URL 무한 생성
- 모바일/PC 분리: m.example.com과 www.example.com 같은 콘텐츠
- 페이지네이션: /page/1, /page/2와 루트 URL 콘텐츠 중복
외부 중복 (External Duplicate)
다른 도메인에 같은 콘텐츠가 존재하는 경우. 완전한 통제가 어렵다.
발생 원인:
- 신디케이션: 자사 콘텐츠를 타 매체에 정상 기고
- 스크래핑: 타 사이트가 자사 콘텐츠를 무단 복사
- 게스트 포스팅 재발행: 같은 글을 여러 매체에 게재
- 어필리에이트 제품 설명: 제조사 설명 그대로 사용
중복 콘텐츠의 SEO 영향
Google의 공식 입장
Google은 중복 콘텐츠가 자동 페널티를 발생시키지 않는다고 공식 확인했다. 대신 구글은 중복 URL 중 하나를 "정식(canonical)" 버전으로 선택하고 그것만 색인한다. 나머지 중복 URL은 색인에서 제외된다.
실무적 SEO 영향
권위 분산: 외부 백링크가 여러 URL에 분산되면 어느 하나도 충분한 권위를 갖지 못한다. PageRank 관점에서 한 URL에 집중된 백링크가 훨씬 강력하다. 자세히는 페이지랭크 항목 참조.
자사 콘텐츠 간 경쟁: 동일 콘텐츠가 여러 URL에 있으면 같은 키워드에서 자사 페이지끼리 경쟁하게 된다. 자세히는 키워드 카니발리제이션 항목 참조.
크롤 효율 저하: 구글봇이 중복 URL을 반복 크롤하면 핵심 페이지를 위한 크롤 버짓이 줄어든다.
색인 불확실성: 구글이 선택하는 정식 URL이 내가 원하는 URL이 아닐 수 있다.
페널티가 발생하는 경우
다음은 예외적으로 수동 조치 또는 알고리즘 페널티가 발생하는 경우다.
- 다른 사이트를 스크래핑해 의도적으로 스팸 사이트 운영
- SEO 목적으로 같은 페이지를 지역명/카테고리명만 바꿔 수백 개 생성 (→ 도어웨이 페이지 참조)
- 가치 없는 자동 생성 콘텐츠 대량 배포
중복 콘텐츠 진단 도구
1. Google 검색 연산자
site:example.com "정확한 핵심 문구"
같은 문구가 여러 URL에서 나오면 내부 중복 가능성이 있다. 자세히는 구글 검색 연산자 활용 항목 참조.
2. GSC URL 검사
의심 URL을 GSC URL 검사 탭에 입력하면 구글이 선택한 정식 URL을 확인할 수 있다. "사용자 선언 정식 URL"과 "Google이 선택한 정식 URL"이 다르면 캐노니컬 설정 오류다.
3. Screaming Frog
사이트 전체 크롤 후 "Duplicate Content" 탭에서 중복 페이지를 시각적으로 파악한다.
4. Siteliner
무료 도구로 사이트 내 중복 콘텐츠 비율을 페이지별로 확인한다.
5. Copyscape
외부 사이트가 자사 콘텐츠를 무단 복사했는지 확인하는 외부 중복 전용 도구다.
중복 콘텐츠 해결 5가지 방법
방법 1: 캐노니컬 태그 (권장)
가장 일반적인 해결책. 변형 URL의 <head> 태그에 정식 URL을 canonical로 지정한다.
<link rel="canonical" href="https://example.com/page" />
파라미터 URL, 모바일/PC 중복, 페이지네이션 중복에 모두 사용 가능하다. 자세히는 캐노니컬 태그 항목 참조.
방법 2: 301 리다이렉트
www/non-www, http/https, 끝슬래시 등 URL 형식 중복에는 301 리다이렉트로 모든 접근을 정식 URL로 강제 이동한다. 캐노니컬보다 더 강한 신호다.
www.example.com → example.com (301)
http://example.com → https://example.com (301)
방법 3: noindex
중복이지만 비즈니스상 유지가 필요한 페이지(태그 아카이브, 필터 결과 페이지 등)는 noindex로 색인만 차단한다. 페이지는 유지되지만 검색 결과에는 나타나지 않는다.
방법 4: URL 구조 통일
처음부터 www 또는 non-www, https, 끝슬래시 유무를 일관되게 사용한다. 서버 설정 또는 CMS 설정에서 기본값을 정해두면 중복 발생을 원천 차단한다.
방법 5: 외부 중복 신고
스크래핑 피해의 경우:
- DMCA 신고 (구글에 직접 신고)
- 호스팅사에 콘텐츠 제거 요청
- Google에 스크래핑 신고 양식 제출
외부 신디케이션의 경우 기고처에 <link rel="canonical" href="원본URL"> 삽입을 요청한다.
AEO 시대의 중복 콘텐츠
LLM 학습 데이터에서의 의미
LLM은 웹에서 학습할 때 같은 콘텐츠가 여러 도메인에 있으면 권위 있는 도메인 출처를 우선한다. 스크래핑된 콘텐츠보다 원본 도메인이 더 강한 권위 시그널을 갖는다.
AI 답변 인용의 분산
같은 콘텐츠가 여러 URL에 있으면 AI 인용도 분산된다. 정식 URL 하나로 통합하면 AI 인용이 집중되어 권위 신호가 강해진다.
Wikipedia 우선 인용
Wikipedia는 중복 콘텐츠가 없는 단일 권위 출처로 AI가 특히 우선 인용한다. 자사 엔티티를 Wikipedia에 등록하면 AI 인용에 유리하다. 자세히는 Wikipedia 엔티티 등록 가이드 항목 참조.
한국 시장 적용
한국 사이트의 흔한 중복 패턴
- 모바일 서브도메인: m.example.com과 www.example.com을 별도 운영하며 canonical 설정 누락. 국내 CMS(카페24, 고도몰 등)에서 흔히 발생한다.
- 네이버 채널 + 자사 사이트 이중 발행: 네이버 블로그·포스트에 발행한 글을 자사 사이트에도 그대로 게재. 일반적으로 네이버 채널이 구글에서 더 강한 신호를 가진다.
- 쇼핑몰 카테고리 파라미터: 정렬·필터 파라미터(?sort=price_asc&color=red)로 수천 개 변형 URL 자동 생성. 자세히는 URL 파라미터 처리 항목 참조.
네이버에서의 중복 처리
네이버는 캐노니컬 태그를 일부 지원하지만 구글만큼 일관성 있게 적용되지 않는다. 네이버 서치어드바이저에서 별도로 중복 URL 문제를 점검한다. 자세히는 네이버 서치어드바이저 등록 가이드 항목 참조.
자주 묻는 질문
Q. 중복 콘텐츠는 항상 수동 조치(페널티)를 받나요?
A. 아니다. Google은 의도적 스팸 목적이 아닌 일반적인 기술적 중복은 페널티 없이 처리한다. 구글이 중복 중 하나를 정식 URL로 선택할 뿐이다. 단, 대규모 의도적 중복(수백 개 자동 생성 도어웨이 등)은 페널티 대상이 된다.
Q. 다른 사이트에 기고한 글이 중복 콘텐츠가 되나요?
A. 일반적인 게스트 포스팅·신디케이션은 페널티가 없다. 다만 기고처에 자사 원본을 canonical로 지정해 달라고 요청하거나, 기고글을 노출한 후 자사 블로그에 원본을 발행하면 권위가 자사에 집중된다.
Q. 캐노니컬 태그 vs 301 리다이렉트 — 언제 어느 것을 써야 하나요?
A. 중복 URL에 직접 트래픽이 오는 경우(북마크, 외부 링크 등)가 없다면 301 리다이렉트가 더 강하고 명확하다. 비즈니스상 URL을 유지해야 하거나 리다이렉트가 기술적으로 어렵다면 캐노니컬 태그를 사용한다.
Q. 경쟁사가 내 글을 복사했습니다. 어떻게 해야 하나요?
A. 먼저 구글에 스크래핑 신고 양식을 제출하고, DMCA 신고를 통해 구글 검색에서 해당 URL을 제거 요청할 수 있다. 또한 자사 원본 발행일이 스크래핑본보다 앞서면 구글이 자사를 원본으로 인식할 가능성이 높다.
Q. WordPress 태그 페이지가 중복 콘텐츠인가요?
A. 태그 아카이브 페이지는 본문 글과 일부 콘텐츠를 공유하므로 잠재적 중복이다. 일반적으로 태그 아카이브에 noindex를 적용하거나 canonical을 원본 글로 지정하는 것이 권장된다. 다만 태그 페이지가 충분한 트래픽을 가져온다면 유지하고 내용을 보강하는 것도 선택지다.
관련 출처
- Google Search Central (2024). Duplicate content. https://developers.google.com/search/docs/crawling-indexing/duplicate-content-overview
- Google Search Central (2023). Consolidate duplicate URLs. https://developers.google.com/search/docs/crawling-indexing/consolidate-duplicate-urls
- Mueller, J. (2022). Google's stance on duplicate content. Google Search Central Podcast.
이 페이지를 참조하는 항목
- 📘개념구글 서치 콘솔 (Google Search Console) 완전 활용 가이드
- 📙How-to인덱싱 커버리지 진단
- 📙How-to구글 검색 연산자 활용
- 📙How-to게스트 포스팅으로 백링크 얻는 방법
- 📘개념GEO 마스터 가이드: 5대 영역 체크리스트
- 📘개념블랙햇 SEO
- 📙How-to콘텐츠 프루닝 (가지치기)
- 📘개념키워드 카니발리제이션 (Keyword Cannibalization)
- 📘개념씬 콘텐츠 (Thin Content)
- 📙How-to키워드 클러스터링 방법
- 📘개념네이버 SEO 작동 원리
- 📘개념캐노니컬 태그 (Canonical Tag)
- 📘개념페이지네이션 (Pagination)
- 📘개념hreflang 태그
- 📘개념JavaScript SEO
- 📘개념URL 파라미터 (URL Parameters)