코코잉닷컴

Semrush, Similarweb 애널리틱스, 구글 콘솔 권한 삭제 방법, Robots.txt 차단 방법 본문

비지니스 인사이트

Semrush, Similarweb 애널리틱스, 구글 콘솔 권한 삭제 방법, Robots.txt 차단 방법

2023. 11. 24. 18:51

SEO에 도움되면 좋겠지만, 상위 경쟁자에게 내 웹사이트 추세 및 유입정보를 통째로 전달해주는 과정을 주기는 모두 싫을 것이기에, 2개의 모니터링 서비스를 실수로 연동했다면 정리하는 방법을 알아보자.

 

구글연동도 연동이지만 robots.txt 차단이 더 중요하다. 각 상위 페이지 크롤링을 수시로 하여 타 오너에게 전달하는데 일조 한다.

 

1. 구글 나의 정보 페이지 접속

 

Google 계정

 

myaccount.google.com

먼저 나의 구글 계정으로 로그인을 한다.

 

서드파티앱 모든 연결 보기 누르기
이미 저는 지워서 예시로 이렇게 넣어둡니다. 아래 연결 삭제 누르시면 삭제가 됩니다.

 

2. Robots.txt 파일에 명시적으로 수집 못하게 막기

 

이런다고 수집 안하는 녀석들이 아니기 때문에 일단 일차적으로 막아두기, ahref 도 있긴 하지만 일단 두업체가 심한편.

wowrack의 경우 구글에게 보조를 맞추는 과정이 있다지만 아래 두 친구는 경쟁자들에게 잘 전달하기 때문에 정리하는게 낫겠다.

 

Disallow:
User-agent: SemrushBot
User-agent: SimilarWeb
User-agent: AhrefsBot
Disallow: /

 

3. nginx 에서 차단해두기

 

임시 방편이지만 주기적으로 바뀌는 대역폭 체크해서 차단해주기, 2023년 11월 24일 기준 조사한 내용.

 

location / {
  # ban Semrush
  deny  185.191.171.0/24;
  deny  85.208.96.0/24;

  # ban SimilarWeb
  deny 185.191.171.0/24;

 

  # ban Ahref Crawlers

  deny 103.243.243.0/24;
  deny 103.243.252.0/24;
  deny 103.243.253.0/24;
}

 

4. 마무리

이외로 website.informer 라든지 각 웹사이트의 품질 또는 체크하는 사이트를 이용하면 어느정도의 트래픽 데이터나 웹문서 배치, 사이트맵 제출로 인한 정보 빼가기(sitechecker) 등이 있다.

 

아마존, 애저, 구글클라우드 통해서 수집하는 봇들(얀덱스 제제 우회해서 수집할 수 밖에 없는 플랫폼, 중국 등)은 식별해내기가 어렵긴 하지만 그래도 상용서비스 안쓰고는 거둬낼 수 있는 방편이다.

 

웹트래픽 적인 부분은 최적화로 어느정도 커버될 수 있겠지만, 중요한 사실은 유입되는 데이터를 긁어가서 타인 또는 외국 스패머 사이트에 제공한다는 점에 아쉬움이 많다. 내 웹사이트 상위도 그렇다 치지만 현재로서는 최선의 방책 아닌가 싶다.