크롤링 오류가 날 때 살펴 볼 애드센스 광고 크롤러에 대한 정보

크롤러는 스파이더 또는 봇이라고도 하며 웹페이지 콘텐츠를 처리하고 색인하기 위해 Google에서 사용하는 소프트웨어입니다. 사이트의 콘텐츠와 관련성이 높은 광고를 게재하기 위해 애드센스 크롤러가 사이트를 방문하여 콘텐츠를 확인합니다. 아래의 모든 내용은 구글에서 가져온 메뉴얼입니다. 정말 친절한 구글은 했던 말을 다양한 방법으로 반복합니다. 그러나 틀림없이 한글인데 우리나라 사람이 이해하기 어려운 방식으로 말을 합니다. 일단 저장해두고 이해하는 범위내에서 하나씩 해석해 보겠습니다.

애드센스 광고 크롤러에 대한 정보

구글 크롤러라고해서 모두 동일한 것이 아닙니다. 이 글에 언급된 것만 따져봐도 적어도 3개입니다.

크롤러 보고서는 주 1회 업데이트됩니다.

크롤링은 자동으로 실행되며 크롤링 빈도를 늘려달라는 요청이 있어도 수용할 수 없습니다.

애드센스 크롤러는 Google 크롤러와 다릅니다.

두 크롤러는 따로 작동하지만 캐시를 공유합니다. 그래야만 두 크롤러에서 동일한 페이지를 요청하여 게시자의 대역폭이 중복 소비되는 상황을 방지할 수 있기 때문입니다. 이와 마찬가지로 Search Console 크롤러도 따로 작동합니다.

애드센스 크롤링 문제를 해결해도 Google 크롤링 문제가 해결되지 않습니다.

크롤러 액세스 페이지에 보고된 문제를 해결해도 Google 검색 결과 내 게재 위치에 영향을 주지 않습니다. Google에서 사이트의 순위에 대해 자세히 알아보려면 Google 검색 결과에 사이트가 포함되게 하는 방법에 관한 항목을 참고하세요. 구글 검색 결과에 사이트가 포함되게 하는 방법은 수동으로 색인 생성 요청을 하면 됩니다. 단, 구글 애드센스 광고 승인이 난 후에 하시는 것을 추천합니다.

크롤러 색인 생성은 URL을 기준으로 합니다.

Google 크롤러는 site.com과 www.site.com은 별개의 사이트로 인식하지만, site.com과 site.com/#anchor는 별개의 사이트로 인식하지 않습니다.

크롤러는 robots.txt 파일에 명시된 페이지나 디렉토리는 액세스 하지 않습니다.

Google 크롤러 및 애드센스 Mediapartners 크롤러는 모두 게시자가 사용하는 robots.txt 파일의 명령을 따릅니다. robots.txt 파일이 특정 페이지나 디렉터리에 대한 액세스를 차단할 경우 해당 페이지나 디렉터리에서는 크롤링이 실행되지 않습니다.

참고: User-agent: *로 지정되어 로봇 액세스가 차단된 페이지에 광고를 게재하더라도 애드센스 크롤러는 이 페이지를 크롤링합니다. 해당 페이지에 대한 애드센스 크롤러의 액세스를 차단하려면 robots.txt 파일에 User-agent: Mediapartners-Google을 지정해야 합니다.

크롤러는 광고 태그가 구현된 URL만 액세스합니다.

Google 광고를 게재하는 페이지에 대해서만 크롤링을 요청해야 합니다.

크롤러는 리디렉션 하는 페이지도 액세스 하려고 시도합니다.

다른 페이지로 리디렉션 되는 '원본 페이지'가 있을 경우 Google 크롤러가 원본 페이지를 액세스 하여 리디렉션이 작동되는지 확인해야 합니다. 따라서 게시자의 액세스 로그에 애드센스 크롤러가 원본 페이지를 방문했다는 것이 기록됩니다.

크롤러에서 사이트 콘텐츠의 색인을 생성하는 빈도는 제어할 수 없습니다.

현재 Google에서는 사이트 재크롤링을 제어할 수 없습니다. 크롤링은 봇에 의해 자동으로 실행됩니다. 페이지 변경사항이 Google 색인에 반영되려면 최대 1~2주가 소요될 수 있습니다.

사이트 엑세스 문제가 발생한 경우 원인에 따라 해결 방법은 조금씩 다릅니다. 아래 링크를 참고하세요.

https://support.google.com/adsense/answer/2381908?hl=ko