/Wikipedia 엔티티 등록 가이드
📙How-to

Wikipedia 엔티티 등록 가이드

최종 업데이트:

이 가이드로 해결되는 문제

Wikipedia 엔티티 등록은 자사 브랜드·회사를 Wikipedia/Wikidata에 공식 항목으로 등재해 LLM 학습 데이터의 권위 시그널을 강화하는 Off-site GEO 작업이다.

요약

거의 모든 대형 LLM(GPT, Claude, Gemini, Llama 등)의 학습 데이터에 Wikipedia가 포함된다. Wikipedia 등재 = LLM이 자사 브랜드를 '알게 된다'는 의미다. 단, 등재 자격(Notability)을 충족해야 하며, 자사 직접 작성은 COI(이해관계 충돌) 문제가 생길 수 있어 AfC(Articles for Creation) 경유를 권장한다.

Wikipedia가 LLM에 미치는 영향

"AI에게 우리 회사를 물으면 잘못된 정보가 나오거나 아예 모른다." 이 문제의 직접적 해결책 중 하나가 Wikipedia 등재다.

거의 모든 대형 LLM은 Wikipedia를 핵심 학습 데이터 소스로 사용한다. GPT 시리즈, Claude, Gemini, Llama 등의 사전 학습 데이터셋에 Wikipedia가 포함되며, 구조화된 텍스트로서 학습 시 높은 가중치를 받는 것으로 알려져 있다. Wikipedia에 브랜드 항목이 있다는 것은 LLM이 그 브랜드를 "알고 있다"는 강력한 신호다.

Wikipedia는 Wikidata와 연결되어 있으며, Wikidata는 Google Knowledge Graph의 데이터 원천 중 하나다. Google Knowledge Graph에 엔티티가 등록되면 Google AI Overviews의 엔티티 인식에도 영향을 준다.

Wikipedia vs Wikidata 차이

WikipediaWikidata
형식백과사전 글 (산문 텍스트)구조화 데이터 (속성-값 쌍)
작성 방식편집자가 산문으로 작성속성값 직접 입력
LLM 영향텍스트 학습 → 브랜드 지식구조화 사실 추출
자격 기준엄격 (Notability GNG 충족 필요)상대적으로 관대
공개 범위각 언어판 독립 운영언어 무관 단일 데이터베이스

둘은 별개 프로젝트이지만 연결되어 있다. Wikipedia 항목에 Wikidata QID가 연결되며, 반대로 Wikidata 항목이 있어도 Wikipedia 글이 없을 수 있다.

Notability 자격 기준

Wikipedia는 **General Notability Guideline(GNG)**을 통해 등재 자격을 판단한다. 기준은 다음과 같다.

"A topic is presumed to be suitable for a stand-alone article or list when it has received significant coverage in reliable sources that are independent of the subject."

핵심 요건을 풀어 설명하면:

유의미한 커버리지(Significant Coverage)

  • 단순 언급이 아닌 해당 주제를 직접적으로 다룬 보도
  • 세부 내용이 포함된 실질적 취재 (보도자료 인용 기사 불인정)
  • 여러 출처에서 독립적으로 다뤄져야 함 (최소 출처 수 기준은 없으나 질이 중요)

독립적 출처(Independent Sources)

  • 자사 보도자료, 공식 홈페이지, 자서전 불인정
  • 기업과 직접적 이해관계 없는 제3자 출처
  • 같은 기업 그룹 내 미디어는 단일 출처로 간주

신뢰할 수 있는 출처(Reliable Sources)

  • 편집 검토 과정(editorial oversight)이 있는 출판물
  • 주류 언론, 학술 출판, 검증된 업계 미디어
  • 온라인/오프라인, 언어 무관하게 인정

주의: 이 기준을 충족하지 못하면 등재되어도 "AfD(Articles for Deletion)"로 삭제 신청될 수 있다. 등재 전 자격 검증이 필수다.

등록 5단계

1단계: Notability 자체 검증

등재 시도 전에 자사가 GNG를 충족하는지 먼저 확인한다. 체크리스트:

  • 자사와 무관한 주류 언론에서 3건 이상 실질적 보도가 있는가?
  • 각 보도가 자사 보도자료를 단순 재인용한 것이 아닌가?
  • 보도 내용이 회사를 직접 다루는가(단순 언급 제외)?

기준 미달 시 등재를 보류하고 먼저 PR 활동으로 미디어 커버리지를 확보해야 한다.

2단계: Wikidata 먼저 등록

Wikipedia보다 Wikidata 등록 기준이 관대하다. 먼저 Wikidata에 회사 항목을 만들고 기본 속성(회사명, 설립연도, 소재지, 웹사이트, 업종)을 입력한다. Wikidata 등록은 GNG 충족 여부와 무관하게 가능하다.

3단계: 영문 Wikipedia 초안 작성 (Draft space)

Wikipedia는 Draft 네임스페이스(Draft:회사명)에서 초안을 작성할 수 있다. 초안 단계에서 편집자 커뮤니티의 피드백을 받아 개선할 수 있다.

초안 작성 시 주의사항:

  • 홍보 문구 금지 ("국내 최고", "혁신적인" 등 마케팅 언어 사용 불가)
  • 모든 사실에 인용 출처 각주 필수
  • 중립적 시각(NPOV) 유지
  • 회사 공식 채널 대신 제3자 출처 우선 인용

4단계: AfC(Articles for Creation) 제출

초안 작성 후 Wikipedia의 AfC 프로세스를 통해 정식 항목 생성을 신청한다. 검토 기간은 일반적으로 수 주~수 개월이 소요된다. 검토자가 GNG 충족 여부를 판단하며, 미충족 시 반려된다.

5단계: 한국어 Wikipedia 별도 등록

영문 Wikipedia와 한국어 Wikipedia는 별개 프로젝트로 운영된다. 영문 등재 후 한국어판을 별도로 작성해야 한다. 한국어 Wikipedia는 영문 대비 편집자 수가 적어 검토 속도가 다를 수 있다.

자가 등록 시 COI(이해관계 충돌) 주의

자사 직원이나 관계자가 자사 항목을 작성·편집하는 것은 Wikipedia에서 COI(Conflict of Interest)로 규정된다.

위험성:

  • 항목이 홍보성으로 판단되어 즉시 삭제될 수 있음
  • COI 편집자로 표시되면 이후 편집 활동 전체가 감시 대상이 됨
  • 과도한 등재 시도는 오히려 삭제 후보(AfD) 신청을 유발할 수 있음

권장 방법:

  • Talk 페이지에 COI 관계 명시 (Wikipedia 정책에 따른 공개 의무)
  • AfC 경로를 통해 독립 편집자 검토 요청
  • 외부 Wikipedia 전문 편집자(에이전시 포함) 활용 시 COI 가이드라인 준수 여부 확인

Wikipedia는 "COI 편집 금지"가 아니라 "COI 공개 의무"를 규정하고 있다. 관계를 숨기고 편집하는 것이 더 큰 문제다.

Wikipedia 등재 외 차선책

Notability 기준 미달 시 즉시 활용 가능한 대안:

  • Wikidata: GNG 없이 기본 엔티티 등록 가능
  • Crunchbase: 스타트업·기술 기업 표준 데이터베이스
  • AngelList(Wellfound): 스타트업 투자 정보 플랫폼
  • LinkedIn 회사 페이지: Google Knowledge Graph 연동
  • G2, Capterra: SaaS 제품 리뷰 플랫폼 (검색 엔진 신호 강화)
  • 한국 전용: 디스콰이엇, 와디즈 프로젝트 페이지, DART 공시 (신뢰 출처로 활용 가능)

이 중 Wikidata는 LLM 학습 데이터에 직접 포함되므로 Wikipedia 등재 전에도 반드시 등록을 권장한다.

한국 시장 적용

한국 회사의 영문 Wikipedia 등재율은 낮다. 대기업과 일부 유니콘을 제외하면 상당수가 미등재 상태다. 등재 성공 시 글로벌 LLM에서 차별화된 인지도를 확보할 수 있다.

한국 신뢰 출처 예시 (Wikipedia 인용으로 인정받는 경향이 있는 매체):

  • 주요 일간지: 매일경제, 한국경제, 조선일보, 중앙일보, 동아일보
  • 경제 전문: 더벨, 아이뉴스24, 전자신문
  • 공식 기록: 전자공시시스템(DART), 특허청, 공정거래위원회
  • 방송: KBS, MBC, SBS 온라인 기사

언어 전략: 영문 Wikipedia 등재가 글로벌 LLM(GPT, Claude, Gemini)에 가장 큰 영향을 준다. 한국어 Wikipedia만으로는 영어권 LLM의 학습 데이터 영향력이 제한적이다.

등재 후 LLM 반영 시기

Wikipedia 항목이 생성된 후 LLM 답변에 반영되는 시기는 해당 LLM의 학습 데이터 컷오프와 재학습 주기에 따라 달라진다. 일반적으로 수 개월에서 1년 이상 소요될 수 있다.

실시간 웹 검색을 사용하는 ChatGPT Search, Perplexity 같은 시스템은 Wikipedia를 직접 검색해 인용하므로 등재 후 더 빠르게 반영될 수 있다. 반면 오프라인 학습 기반 답변은 다음 모델 업데이트 시점에 반영된다.

자주 묻는 질문

작은 스타트업도 등재 가능한가요? 규모보다 미디어 커버리지가 기준이다. 직원 10명 스타트업이라도 주요 언론에서 독립적으로 다수 보도됐다면 GNG를 충족할 수 있다. 반대로 대기업이라도 한국에서만 알려진 기업은 영문 Wikipedia GNG 충족이 어려울 수 있다.

영어로 못 쓰는데 어떻게 하나요? Wikipedia 영문판 기여는 영어 실력이 필요하다. 외부 전문 편집자나 에이전시를 활용할 수 있지만, COI 가이드라인 준수 여부를 반드시 확인해야 한다. 또한 에이전시가 "등재 보장"을 내세운다면 사기성 서비스일 가능성이 있으므로 주의가 필요하다(AfC 검토 결과는 Wikipedia 커뮤니티가 결정).

등재까지 얼마나 걸리나요? AfC 검토 기간은 기여자 수와 대기 항목 수에 따라 다르며, 영문 Wikipedia 기준으로 수 주에서 수 개월이 일반적이다. 한국어 Wikipedia는 편집자 수가 적어 검토 속도가 다를 수 있다.

등재 후 AI에 반영되는 데 얼마나 걸리나요? 실시간 검색 기반 AI(Perplexity, ChatGPT Search 등)는 수일~수 주 내 반영될 수 있다. 학습 데이터 기반 LLM 답변은 다음 모델 재학습 시점에 반영되므로 통상 수 개월 이상 소요된다.

Wikidata와 Wikipedia 중 어느 것을 먼저 해야 하나요? Wikidata를 먼저 등록하는 것을 권장한다. Wikidata는 GNG 충족 없이 기본 등록이 가능하고, 이후 Wikipedia 항목과 연결할 수 있다. Wikipedia 등재를 위한 미디어 커버리지를 쌓는 동안 Wikidata는 이미 LLM 학습 데이터에 포함될 수 있다.

관련 출처

이 페이지를 참조하는 항목

관련 항목

📗용어
AI Share of Voice
AI Share of Voice는 AI 답변에서 자사와 경쟁사 인용 비율을 비교한 지표다.
📗용어
AI Visibility Score
AI Visibility Score는 AI 답변 내 브랜드 인용 빈도를 측정하는 지표다.
📘개념
도메인 권위(DA/DR)란?
도메인 권위는 Moz·Ahrefs·Semrush가 산출하는 사이트 링크 신뢰도 점수로, 구글 공식 지표가 아니다.
📘개념★ Pillar
백링크란?
백링크는 외부 사이트가 내 페이지를 링크하는 것으로, 검색 엔진과 AI의 신뢰도 신호다.
📘개념★ Pillar
GEO 마스터 가이드: 5대 영역 체크리스트
GEO 5대 영역(콘텐츠·구조·기술·외부·측정)을 망라한 생성형 AI 최적화 실행 가이드다.
📘개념★ Pillar
AEO란?
AEO는 AI 답변 엔진이 콘텐츠를 인용하도록 최적화하는 기법이다.
📘개념★ Pillar
GEO란?
GEO는 생성형 AI가 답변 시 콘텐츠를 인용하도록 최적화하는 기법이다.
📘개념
E-E-A-T
E-E-A-T는 Google이 경험·전문성·권위·신뢰로 콘텐츠 품질을 평가하는 기준이다.
📘개념★ Pillar
한국어 LLM 최적화
한국어 LLM 최적화는 글로벌 AI 답변 엔진이 한국어 질문에 답할 때 자사 콘텐츠가 인용되도록 최적화하는 작업으로, 학습 데이터 비중 차이로 인해 영어 AEO보다 진입 장벽과 기회가 동시에 존재한다.
📘개념
Mental Availability (정신적 가용성)
Mental Availability는 구매 상황에서 브랜드가 떠오를 확률이다.

이런 항목도 있어요

이 페이지가 도움이 됐나요?