SpamBrain: 구글의 AI 기반 스팸 탐지 시스템
최종 업데이트:
SpamBrain이란
SpamBrain은 구글이 2018년부터 공식 운용하기 시작한 AI 기반 스팸 탐지 시스템이다. 기존의 규칙 기반(rule-based) 스팸 필터와 달리, 머신러닝과 딥러닝을 활용해 새로운 유형의 스팸 패턴을 자동으로 학습하고 탐지한다.
구글은 공식 블로그에서 SpamBrain에 대해 다음과 같이 설명했다:
"SpamBrain은 우리의 AI 기반 스팸 방지 시스템이다. 이 시스템은 콘텐츠 스팸뿐만 아니라, 스팸 링크를 구매하거나 판매하는 사이트 모두를 탐지할 수 있다."
2022년 12월, 구글은 SpamBrain의 주요 업그레이드를 발표했다. 이 업데이트로 인위적인 링크를 구매하는 사이트와 판매하는 사이트 모두를 더 정확하게 탐지할 수 있게 됐다.
SpamBrain이 탐지하는 주요 스팸 유형
1. 링크 스팸 (Link Spam)
링크 스팸은 SpamBrain의 주된 탐지 대상이다.
- 유료 링크 구매·판매: "링크 주스"를 사고파는 행위
- 링크 교환 네트워크: 상호 링크 또는 3자 링크 교환 스킴
- 링크 농장(Link Farm): 링크 생성만을 목적으로 만들어진 사이트 네트워크
- PBN(Private Blog Network): 동일 운영자가 여러 사이트를 운영해 특정 사이트에 링크 몰아주기
- 텍스트 내 최적화된 앵커 텍스트: 지나치게 많은 정확 일치(exact match) 앵커 텍스트 링크
- 무작위 댓글/포럼 스팸: 프로필이나 댓글에 백링크를 무차별 삽입
2. 콘텐츠 스팸 (Content Spam)
SpamBrain은 링크뿐 아니라 콘텐츠 조작도 탐지한다.
- 클로킹(Cloaking): 구글봇에게는 다른 콘텐츠, 사용자에게는 다른 콘텐츠를 보여주는 기법
- 숨겨진 텍스트: 배경색과 같은 색상의 텍스트, 화면 밖 배치 텍스트
- 스크레이핑(Scraping): 다른 사이트 콘텐츠를 무단 복사·재조합
- 자동 생성 콘텐츠: 의미 없는 자동화 텍스트 대량 생성
SpamBrain vs 수동 조치(Manual Action)
| 구분 | SpamBrain | 수동 조치(Manual Action) |
|---|---|---|
| 탐지 방식 | AI 자동 탐지 | 구글 직원 직접 검토 |
| 처리 속도 | 크롤링·인덱싱과 연동, 지속적 | 처리에 수일~수주 소요 |
| 알림 | Search Console 알림 없음 | Search Console 알림 발송 |
| 영향 범위 | 신호 무효화(링크 무력화) 또는 순위 저하 | 특정 페이지 또는 사이트 전체 제거 |
| 회복 방법 | 알고리즘 재평가(수동 요청 없음) | 수동 조치 신청(Reconsideration Request) |
SpamBrain에 의한 자동 탐지는 일반적으로 해당 링크를 무력화하는 방식으로 처리된다. 즉, 스팸으로 분류된 링크의 PageRank를 무효화해 링크의 효과를 0으로 만든다. 사이트 전체를 제거하는 수동 조치와는 다르다.
2022년 SpamBrain 업데이트의 영향
2022년 12월 업데이트는 특히 두 가지 측면에서 중요했다.
1. 링크 판매 사이트 탐지
이전에는 링크를 구매한 사이트가 주요 타깃이었다. 2022년 업데이트로 링크를 판매하는 사이트(게스트 포스팅 네트워크, 유료 링크 브로커)도 동등하게 탐지 대상이 됐다.
2. 링크 스킴 네트워크 전체 파악
단일 링크가 아닌, 연결된 사이트 네트워크 전체를 그래프로 분석해 조작적인 링크 생태계를 통째로 탐지하는 능력이 강화됐다.
이 업데이트 이후 유료 게스트 포스팅, 링크 삽입(link insertion) 서비스 등이 직접적인 영향을 받았다는 SEO 업계 보고가 잇따랐다.
SpamBrain 처벌을 피하는 링크 빌딩 원칙
SpamBrain에 탐지되지 않는 안전한 링크 빌딩 원칙:
하면 안 되는 것:
- 링크를 직접 구매하거나 판매하는 행위
- 링크를 담보로 한 기사 게재 (돈을 받고 dofollow 링크 포함 글 게재)
- PBN 구축 또는 활용
- 정확 일치 앵커 텍스트를 과도하게 사용하는 링크 캠페인
- 자동화 도구로 댓글·포럼 스팸 링크 생성
해도 되는 것:
- 진짜 가치 있는 콘텐츠를 통한 자연 유입 링크(Earned Links)
- 미디어 릴리즈, HARO 등을 통한 언론 인용 링크
- 파트너십·공동 연구에서 자연스럽게 생기는 링크
- nofollow/sponsored 속성을 정확히 표시한 광고·협찬 링크
한국 시장에서의 SpamBrain 적용
한국에서도 구글의 SpamBrain이 동일하게 작동한다. 주의해야 할 한국 특유의 스팸 패턴:
- 네이버 블로그/카페 링크 교환 품앗이: 구글 관점에서 인위적 링크로 분류될 수 있다
- 유료 보도자료 서비스: 링크를 포함한 홍보성 기사를 대량 배포하는 서비스 사용 시 주의 필요
- 한국형 PBN: 국내 도메인 기반의 비공개 블로그 네트워크
다만, 네이버 자체 검색 순위에는 구글 SpamBrain이 아닌 네이버의 자체 스팸 탐지 시스템이 적용된다.
자주 묻는 질문
Q. SpamBrain에 탐지됐는지 어떻게 알 수 있나요?
A. SpamBrain에 의한 자동 처리는 Search Console에서 별도 알림이 오지 않는다. 갑작스러운 트래픽 하락, 특정 링크 유형의 링크 프로필 변화를 확인하거나 Ahrefs/SEMrush의 백링크 감사 도구를 활용한다. 명시적인 통보가 오는 경우는 수동 조치(Manual Action)다.
Q. 유료 게스트 포스팅은 모두 스팸인가요?
A. 구글의 공식 기준은, 돈을 받고 링크를 포함한 게시물을 올리면 그 링크에는 nofollow 또는 sponsored 속성을 붙여야 한다는 것이다. 이를 지키지 않은 dofollow 유료 게스트 포스팅은 SpamBrain의 탐지 대상이다.
Q. 이미 가진 스팸 링크를 어떻게 처리해야 하나요?
A. Disavow 파일을 Search Console에 제출해 구글에게 해당 링크를 무시해달라고 요청할 수 있다. 단, 구글은 "일반적으로 disavow가 필요한 경우는 드물다"며, SpamBrain이 이미 대부분의 스팸 링크를 자동으로 무력화한다고 설명한다.
Q. 갑자기 많은 스팸 링크를 받으면 (Negative SEO) 패널티를 받나요?
A. 구글은 Negative SEO(경쟁사가 스팸 링크를 내 사이트에 보내는 행위)에 대한 방어를 자동으로 한다고 밝혔다. 비정상적인 패턴의 대량 링크는 SpamBrain이 자동으로 무력화한다. 그래도 우려된다면 Disavow로 추가 조치를 취할 수 있다.
Q. 자연 발생 링크(Earned Link)는 SpamBrain이 어떻게 구분하나요?
A. SpamBrain은 링크의 패턴, 속도, 앵커 텍스트 분포, 링크를 보내는 사이트의 특성, 콘텐츠와의 관련성 등 수백 가지 신호를 종합해 판단한다. 자연스럽게 다양한 사이트에서 다양한 앵커 텍스트로 서서히 증가하는 링크는 자연 링크로 인식될 가능성이 높다.
관련 출처
- Google Search Central (2022). Our progress fighting link spam. https://developers.google.com/search/blog/2022/12/december-22-link-spam-update
- Google Search Central (2023). Link spam update. https://developers.google.com/search/updates/spam-updates
- Google Search Central (2024). Spam policies for Google web search. https://developers.google.com/search/docs/essentials/spam-policies