코코잉닷컴

내 웹문서 탈취 문제, 스팸 웹페이지 신고 방법 (도어웨이 스팸 웹페이지 편) 본문

티스토리 인사이트

내 웹문서 탈취 문제, 스팸 웹페이지 신고 방법 (도어웨이 스팸 웹페이지 편)

2024. 4. 11. 18:46

내 웹사이트 또는 웹페이지가 노출되는 검색결과에 스팸 웹문서가 같이 노출되고 있는 경우 신고하는 방법 입니다.

스팸 웹문서 노출 이유와 어떤 문제점이 원인이 되는지 알아봅니다.
이번 편에서는 도어웨이 스팸 웹페이지에 대한 설명을 주제로 기술합니다.

 

이전 편에서 구글 색인 노출 문제편에 해당하는 내용으로 도어웨이 스팸 웹문서(웹페이지)를 신고하는 내용을 추가적으로 연재합니다.

 

 

구글 색인 노출 문제 해결, 노출순위 복구 방법

구글의 서치콘솔에 등록한 내 웹사이트의 색인이 노출이 안되는 문제가 발생. 구글 검색 노출 0상태가 수 개월 지속. 티스토리 구글 유입 없음, 저품질 블로그 사유 발생 노출순위 하락 문제도

cocoing.tistory.com

 

 스팸 웹문서 노출로 인한 티스토리 블로그, 워드프레스 블로그구글 노출문제에도 연관이 있으며 상당히 큰 연관성을 가집니다. 설상가상으로 내 웹문서부터 웹사이트 자체 노출 순위 문제까지 오염 시킵니다.

구글 노출 : 도메인 자체가 안보이는 문제

구글 노출순위 : 100위권 밖으로 나가지는 문제 등

구글 검색 결과 페이지에 스팸 웹문서가 2024년 04월 현재에도 꾸준하게 노출되고 있는 중입니다.
웹문서가 노출 되고 있다면 내 티스토리 또는 내 웹문서에 영향을 미칠 수 있습니다.
따라서 나와 관련된 키워드 내 문서로 파생되어 만든 스팸 웹문서는 주기적으로 신고해주는 것이 좋습니다.

 

해당 도메인들은 주기적으로 생성되어 보여지기보다는 구글 이용자수의 증가에 따라서 같이 증가되는 모습도 있습니다. 왜 일까요? 이들이 생성되는 원리를 알아봅시다.

2024년 04월 12일 06시 10분 기준(최신 검색 내용 수정 및 보완) 스팸 웹문서 노출 현황

구글 스팸 웹페이지 특징

구글 검색결과에 노출되고 있는 스팸 웹페이지 특징으로는 크게 3가지 특징을 가지고 있습니다.

  1. 자동색인 생성방식 : 접속자가 접속할 때 새로운 스팸문서를 만듭니다.
  2. 실수요적 생성방식 : 구글 검색결과에서 실제 접속자가 발생했을때, 해당 유저의 브라우저 언어와 User-Agent, Accept-Language를 이용하여 다국어화 문서를 생성 합니다.
  3. 연쇄생성 구조 : 구글 검색결과의 키워드 값을 인자로 받고, 구글의 링크를 클릭시 Referer 값을 취득한 뒤 문서를 재구성 합니다. 구글 검색어가 실제 유입이 있었다면 해당 키워드로 연재하듯 웹문서가 발행 됩니다.

이미 여러개 티스토리, 다중 티스토리를 운영하시거나, 다계정으로 티스토리를 관리하고 있다면 개별적 대응이 사실상 불가능합니다. 스팸 웹페이지, 스팸 웹사이트는 시간당 또는 초당이 아닌 회당 생성되기 때문 입니다.

 

타 페이지로 강제 이동되는 과정이 있기 때문에 도어웨이 페이지라고 부릅니다.

접속 후 리디렉션(301, 302) 코드를 전달 되어 도착하는 URL은 더미이거나 성인페이지 또는 제휴된 페이지로 이동합니다. 또는 피싱사이트(방송국, 언론기사 등)의 페이지로 빠져나갑니다.

 

 해당 스팸 페이지는 오래된 도메인(일명 낙장도메인)을 통한 검색 결과 게시물 노출 방식을 선호하다보니 검색결과 상위 노출이 바로 되는 편 입니다.

 

* 번외로, 해당 키워드에 스팸웹문서가 진입되는 시점 때, 구글 애즈로 진입하는 광고주가 있는지 확인해보시고 메모화 하시는 것이 중요합니다.(후이즈, 광고주명(보통 가명을 사용), 서브 도메인이라면 본도메인까지 체크 필요 등)

 

 

낙장 도메인(오래된 도메인)이란?
이미 만료되어서, 연장하지 않은 도메인 중 DA, PA지수가 높게 평가된 도메인

 

 

 

 

스팸 웹문서의 도메인이 오래된 경우, 내가 피해 받은 웹 페이지임에도 불구하고 원본진위가 오염되어 판단되는 경우가 발생되어 내가 작성한 글이 스팸문서로 오인되어 색인노출 또는 순위가 하락 됩니다.

 

  • DA (도메인 권위), PA(페이지 권위/지수)를 의미합니다.
    해당 지수가 높다면 양질의 콘텐츠를 발행하는 웹사이트 또는 페이지라고 지칭 합니다.
  • 원본진위여부 혼선 : 10년된 오래된 도메인의 발행날짜를 과거로하여 콘텐츠를 색인요청하는 스팸 사례
  • 문서 중복화 문제 : 내 티스토리 글의 P, H, 제목을 수집하여 해당 페이지의 글에 삽입(H, P태그 등) 한 후 색인된 스팸문서들에 의해서 구글 검색결과 내 중복화 문제가 발생합니다. (독창성 없는 가치 없는 웹문서 판정)
  • 이미지 색인 오염 : 콘텐츠와 전혀 다른 또는 다른 오래된 이미지를 색인화하여 구글 검색노출상에 띄워둡니다.

이미 구글에 색인이 2015년에 올라온 이미지를 예시로 보면 중복검사를 하기 힘든 범위에 있는 다른 검색어의 이미지를 색인화에 이용합니다. 다시말해, 오랫동안 이미 구글에 노출(색인이 지워지지 않은)된 이미지를 활용하는게 오랫동안 스팸을 유지시킬 수 있다 본 것 같습니다.


구글 스팸 업데이트(Google Spam Update)

 2023년도 10월부터 2024년도 기준 구글은 스팸업데이트를 단행 했습니다. 현재 진행형이기도 합니다.

 

 

구글 검색 내 스팸성 저품질 콘텐츠에 대처하는 새로운 방법을 소개합니다.

구글은 이용자 분들이 구글 검색에서 유용한 정보를 더 많이 보실수 있도록 지속적인 품질 개선을 시행하고 있습니다. 특히 검색 엔진만을 위해 생성된 것 같은 콘텐츠를 줄이는 것도 포함됩니

blog.google

 

2023년 12월부터 강력 적용되어 스팸에 대한 원천 차단을 위해 상당부분 작업을 진행("구글 검색 내 스팸성 저품질 콘텐츠에 대처하는 새로운 방법을 소개합니다."로 올라온 2024년 03월 08일, 구글 블로그  참조)하고 있습니다. 2024년 04월 현재는 Core 업데이트만 남았습니다. 그럼에도 불구하고 도어웨이 페이지들은 현재도 구글 검색결과에 상당수 노출 되고 있습니다.

 

2024년 03월 핵심 업데이트 관련 내용, 사용자 중심 콘텐츠 만들기에 대한 인사이트를 참조해보시면 좋습니다.

https://developers.google.com/search/blog/2024/03/core-update-spam-policies?hl=ko

 

웹 크리에이터라면 알아야 할 2024년 3월 핵심 업데이트 및 새로운 스팸 정책  |  Google 검색 센터

보관처리 2010년에 2008년에

developers.google.com

구글 검색센터의 최신소식을 구글이 직접 발행하고 있으며, 중요한 업데이트를 확인 할 수 있습니다.
일자별, 시간순으로 확인이 가능합니다. 해당 페이지까지도 스패머들이 크롤링후 똑같은 피싱사이트 처럼 꾸며 보여주는 경우도 있으니 꼭 도메인을 확인하시기 바랍니다.

 

도어웨이 페이지는 일반적인 모바일 또는 데스크톱의 유저가 방문시 바로 문서가 생성됩니다. 따라서 접속 할 경우 해당 검색 키워드에 대응한 새로운 스팸웹문서가 만들어진다 볼 수 있습니다. 스팸 웹문서 발견시 접속하지 마시고 주의를 요합니다.


구글 스팸 웹문서 검색결과 노출 사례, 2024년 04월 11일 17시 44분 기준, 구글 검색결과에 노출되고 있는 스팸 웹페이지(도어웨이)

 

스팸 웹페이지의 문제점

도메인의 권위가 낮거나, 신생 웹사이트의 경우 또는 티스토리 블로그와 같이 제 3자 호스팅을 통해 블로그 서비스를 제공 받는 경우 웹문서를 탈취 당할 가능성이 높습니다. 롱테일 키워드의 경우 특히 노출된 위치와 고스란히 동일한 검색결과 위치상에  스팸 웹사이트 및 스팸 웹페이지의 문서의 문제점으로 가장 큰 꼽힙니다.

  • DA가 낮은 경우 또는 PA 점수가 낮은경우에 작성된 글의 제목, 설명, H, P태그를 무단으로 수집 후 짜집기하여 새로운 문서로 만들고 이를 구글 검색결과 색인화 합니다.
  • 해당 문서와 동일한 문맥, 동일한 키워드로 여러개의 문서가 파생되면서 조작된 스팸 웹문서가 만들어지고 해당 키워드에 노출 된 후 접속자들이 도어웨이 현상을 겪으면서 문서가 추가적이면서 지속적으로 생성 됩니다.
  • 이는 2차 피해가 이루어져, 올바르게 작성한 글의 내용을 신뢰하고 클릭한 사용자에 의해서 악의적인 웹페이지가 재생산 됩니다.

신생이거나 DA가 낮은 아직 검색엔진에게 신뢰성을 보여주지 못한 티스토리 또는 워드프레스 블로그 등과 같은 블로그는 오히려 검색결과가 하위에 배치되거나, 제외 되어 버립니다.


도어웨이 페이지 링크 복사 방법

스팸 웹문서 신고 방법은 구글 스팸 웹페이지 신고 페이지에서 구글 로그인을 하신 뒤 신고가 가능합니다. 도어웨이는 접속하지 않고 신고를 해야 합니다. 따라서 구글 검색결과에서 스팸 웹페이지를 찾으셨다면 데스크톱 브라우저에서 해당 링크를 우측 버튼을 눌러 링크 복사를 해주어 해당 링크를 복사해야 합니다.

 

반드시 접속하지 마시고 링크만 수집하시는 것을 권장합니다. 접속시 성인 웹사이트, 피싱 사이트 또는 브라우저 쿠키 탈취 사이트로 강제 이동 당할 수 있습니다.

 

링크 주소 복사 기능 사용방법, 구글 크롬 브라우저 기준으로 우측 버튼을 누르시면 링크 주소 복사를 할 수 있습니다.

 

링크 주소 복사 기능을 통해서 해당 링크를 복사했다면 신고 페이지에 붙여넣기 하여 신고가 가능합니다. 최대 5개의 도메인 또는 문제가 되는 URL을 신고 할 수 있도록 되어 있습니다. 보통 수집을 할때 한개의 도메인 주소만 수집하기보다는 여러개의 도메인을 함께 메모장에 모아 신고하시는 것이 좋습니다.


스팸, 사기성 또는 저품질 웹페이지 신고 방법

가장 먼저, 구글 계정이 필요합니다. 내 웹사이트 또는 내 웹문서를 발췌 또는 무단 크롤링하여 만든 웹페이지를 신고하는 경우 신고의 정확성 및 신원확인을 위한 과정을 구글 서치콘솔과 연동된 계정으로 확인하게 됩니다.

 

정상적으로 신고하고 나면 받을 수 있는 알림

 

먼저 신고를 위해서는 구글 로그인이 필요합니다.

해당 페이지에서 신고하는 경우 구글 서치콘솔에 신고알림이 전송되며 메일과 서치콘솔 사이드 알림창에 알림을 받을 수 있습니다. 따라서 도메인 연동이 올바르게 이루어진 신원이 확인된 계정에서 하시는 것을 권장 합니다.

(" 어떤 도메인을 과거에 신고했었는지"를 받았던 과거 신고 메일과 알림으로 확인 할 수 있습니다.)

 

페이지 URL 및 신고서 작성법

접속 후 아래와 같이 페이지 URL과 페이지에 어떤 문제가 있는지 사유 항목 체크란을 확인 할 수 있습니다.

"스팸 활동과 관련된 페이지"의 구글 검색결과 내 스팸 웹문서 신고 하기 위해서 "스팸 활동과 관련된 페이지" 도어웨이 웹문서 신고 방법

 

 

페이지 URL 항목란에 복사했던 URL을 넣어주셔도 됩니다. 더 효과적인 방법은 해당 도메인의 호스트를 적어주시고 다른 URL추가 기능을 통해서 해당 복사했던 URL을 적어주시면 됩니다. 도메인 자체를 신고하는 쪽으로 해주셔야합니다.

페이지 URL에는 "https://example.click" 을 기재
다른 URL 추가 버튼을 눌러 "https://example.click/sasdk/asdkkkldks"와 같이 복사했던 URL을 넣기

 

이후, "이 페이지에 어떤 문제가 있나요?"의 기재된 여러 탭 중, 스팸 활동과 관련된 페이지, "검색엔진 순위를 조작하는 악의적 행위와 연관된 페이지" 을 눌러주세요.

 

  1. 도메인 Host 형태의 주소를 기재해주세요. https:// 와 같이 꼭 프로토콜 명을 기재해주셔야 합니다.
  2. 다국어화 Path가 있다면 같이 신고해주시는 것이 좋습니다.
  3. 하위 Path 주소가 있다면 추가적으로 신고해주시면 좋습니다.

 

도어웨이 페이지의 경우 "스팸 활동과 관련된 페이지" 기능으로 신고해야 합니다.

 

이는 스패머들이 만든 스팸 웹페이지의 기술적 문제 때문에 다른 탭에 표현되어 있습니다. 이해를 돕기 위해 설명을 추가적으로 하자면,

 구글 봇이 검증확인을 위해 접속하면 404 HTTP Code를 보내 페이지가 삭제되었음을 통지하는 스팸 웹페이지 방식 사용하거나, User Agent의 Google 또는 구글 크롤러 IP Range 범주를 확인하여 웹페이지의 노출을 다르게 보여주는 쉐도우(클라킹) 방식을 씁니다. 신고자가 신고했으나, 구글봇이 확인하면 정상문서인 척을 하는 방식을 사용합니다.

 

 따라서, 다른 탭보다 "스팸 활동과 관련된 페이지" 기능을 통해 신고하는 것이 바람직 합니다.

  • 클로킹 및 부적절한 리디렉션 : 접속 후 바로 이동처리되는 문제가 있는 페이지
  • 숨겨진 텍스트 및 링크 : 본문상 숨겨둔 링크를 통해서 스팸화된 페이지를 연결해둔 상태로 구글 크롤러의 방문을 유도하게 설계되어 있습니다. 실제 유저가 방문한 것을 기준으로 구글 봇이 유효성 또는 웹페이지의 안정성을 확인하러 왔을때 해당 링크를 참조하게끔 구성한 백링크라 볼 수 있습니다.
  • 도어웨이 페이지 : 본문내용과 전혀 상관 없는 페이지로 이동하는 과정이 있는 페이지를 의미합니다.

위와 같이 3가지를 체크하고 제출하기 버튼을 누르시면 됩니다. 별도의 사유를 작성하실 이유는 없습니다. 스팸 웹사이트 자체의 문제를 판독하는데 이미 색인되어 있고 캐싱화된 색인을 기준으로 점검하기 때문에 별도의 사유 작성을 하신다면 피해를 받은 나의 티스토리와 워드프레스의 주소를 남겨두는 것도 좋습니다.


 

웹페이지 신고 주기 및 신고 횟수

적절한 신고 회수는 도메인당 1회/주로 봅니다. 재노출된다면 주마다 계속 신고해주시는 것이 좋습니다. 누적 신고 횟수도 중요한 부분인 것 같습니다. 웹문서 숫자가 많은 경우 최대 5개의 URL을 모두 넣어 신고하시는 것이 좋습니다. 최대 일일 100개 도메인까지는 가능하여 검색결과에 노출되는 스팸 도메인을 메모장에 담아 일괄로 신고하는 것이 좋습니다.

 

주기적으로 하게 되면 구글 검색결과 내 스팸으로 인한 중복화를 예방하기도 하며, 검색 순위 노출에도 도움이 됩니다.

자동으로 해주면 좋겠지만, 주기적으로 공격하는 과정을 해소하기 위해서는 직접 신고하는 방식이 보다 빠르게 조치 됩니다. 6개월간 경험상, 주말 공휴일 포함해서 로봇로직이 판단하는 과정이 약 5일 ~ 14일정도 소요되고, 새 한주가 시작되는 시점에 반영하여 스팸 웹문서가 조치되는 것 같은 경험을 하였습니다.

 

  • DA 점수가 상당히 높았던 도메인의 경우 3주 이상 소요되었던 것 같습니다.
  • 클라우트플레어와 같은 서비스를 사용하는 경우도 소요시간이 깁니다.
  • 롱테일 키워드의 경우 "일별" 검색으로 구글에서 검색 한뒤 신고하는 것을 추천합니다.
    (당일 색인이 바로되었다는 의미는 최근 색인이 시작된 도메인으로 긴기간, 다양한 루트로 클릭되기 전에, 더 문서가 생성되기 전에 신고해주는 것이 좋습니다)

 

스팸 웹문서 신고, 정상적으로 제출 한 뒤 나오는 메시지창 (하루에 100건 이상을 진행 시, 24시간이 지나서 추가적으로 진행이 가능합니다. 한국 시간으로 매일 아침 9시에 초기화 됩니다.)


결론

 구글의 경우 일반 웹사이트의 경우 색인과정까지 도달하는데 무척이나 힘들고, 어렵습니다. 창의성, 사람이 작성한 컨텐츠, 정보가 가치가 있는가까지 검토한다 했지만, 위 처럼 그렇지 않은 글들이 무자비하게 쉴틈 없이 색인 됩니다. 아쉬운 대목이지만, 해당 문제를 구글 또한 인지하고 재정의 하는 방향으로 가고 있다하니 2024년 내에는 반영될 것으로 보입니다. 현재 제 블로그 또한 색인이 안되고 매주 기다려보지만 올바르게 콘텐츠가 캐싱색인이 안되고 있습니다. 되어야할 올바른 정보가 색인되길 바래 봅니다.

 

 스팸 웹사이트, 웹문서가  티스토리 또는 워드프레스의 경우 웹문서의 H, P 태그를 가지런히 정리된 콘텐츠를 무단 수집하기 때문에 해당 컨텐츠를 가공 후 구글에 색인 요청하여 당하게 됩니다.

 최근 GPT를 통한 키워드를 재조합하여 콘텐츠를 뱉어내는 스펨 웹페이지까지 기승하고 있어, 나의 웹문서가 내 티스토리 블로그 또는 내 워드프레스 내의 중복 문제를 넘어 구글 검색결과의 중복문제를 야기하는 과정이 커져가고 있습니다.

 

 나의 주요 키워드, 내 블로그(티스토리 통계에서 방문자가 많은 문서 등)에 접속자가 많은 키워드를 주로 살펴보시면서, 주마다 한번씩은 정리하여 신고해주시는 것이 좋습니다.