크롤러 목록: 웹 크롤러 봇 및 성공을 위해 이를 활용하는 방법

게시 됨: 2022-12-03

대부분의 마케팅 담당자는 사이트를 최신 상태로 유지하고 SEO 순위를 높이려면 지속적인 업데이트가 필요합니다.

그러나 일부 사이트에는 수백 또는 수천 페이지가 있어 업데이트를 검색 엔진에 수동으로 푸시하는 팀에게는 어려운 일입니다. 콘텐츠가 너무 자주 업데이트되는 경우 팀은 이러한 개선 사항이 SEO 순위에 영향을 미치도록 어떻게 확인할 수 있습니까?

크롤러 봇이 작동하는 곳입니다. 웹 크롤러 봇은 새 업데이트를 위해 사이트맵을 스크랩하고 콘텐츠를 검색 엔진에 인덱싱합니다.

이 게시물에서는 알아야 할 모든 웹 크롤러 봇을 포괄하는 포괄적인 크롤러 목록을 설명합니다. 시작하기 전에 웹 크롤러 봇을 정의하고 작동 방식을 살펴보겠습니다.

웹 크롤러란 무엇입니까?

웹 크롤러는 웹 페이지를 자동으로 스캔하고 체계적으로 읽어 검색 엔진용 페이지를 인덱싱하는 컴퓨터 프로그램입니다. 웹 크롤러는 스파이더 또는 봇이라고도 합니다.

검색 엔진이 검색을 시작하는 사용자에게 최신 관련 웹 페이지를 제공하려면 웹 크롤러 봇에서 크롤링이 발생해야 합니다. 이 프로세스는 때때로 자동으로 발생하거나(크롤러 및 사이트 설정에 따라 다름) 직접 시작할 수 있습니다.

관련성, 백링크, 웹 호스팅 등 많은 요소가 페이지의 SEO 순위에 영향을 미칩니다. 그러나 페이지가 검색 엔진에 의해 크롤링되고 인덱싱되지 않는 경우 이러한 사항은 중요하지 않습니다. 그렇기 때문에 귀하의 사이트에서 올바른 크롤링을 허용하고 방해물을 제거하는지 확인하는 것이 매우 중요합니다.

봇은 가장 정확한 정보가 제공되도록 지속적으로 웹을 스캔하고 스크랩해야 합니다. Google은 미국에서 가장 많이 방문한 웹사이트이며 검색의 약 26.9%가 미국 사용자로부터 발생합니다.

미국에서 시작된 검색을 보여주는 이미지 그래프
Google 검색은 주로 미국에서 시작됩니다( 출처: Statista)

그러나 모든 검색 엔진을 크롤링하는 하나의 웹 크롤러는 없습니다. 각 검색 엔진에는 고유한 강점이 있으므로 개발자와 마케터는 때때로 "크롤러 목록"을 작성합니다. 이 크롤러 목록은 사이트 로그에서 허용하거나 차단할 다른 크롤러를 식별하는 데 도움이 됩니다.

마케팅 담당자는 다양한 웹 크롤러로 가득 찬 크롤러 목록을 구성하고 검색 엔진에 맞게 방문 페이지를 올바르게 최적화하기 위해 사이트를 평가하는 방법을 이해해야 합니다(콘텐츠를 훔치는 콘텐츠 스크레이퍼와 다름).

웹 크롤러는 어떻게 작동합니까?

웹 크롤러는 웹 페이지가 게시된 후 자동으로 스캔하고 데이터를 인덱싱합니다.

웹 크롤러는 웹 페이지와 관련된 특정 키워드를 찾고 Google, Bing 등과 같은 관련 검색 엔진에 대한 정보를 인덱싱합니다.

웹 크롤링을 보여주는 단계별 프로세스
웹 페이지 크롤링은 다단계 프로세스입니다( 출처: Neil Patel)

검색 엔진용 알고리즘은 사용자가 관련 키워드에 대한 문의를 제출할 때 해당 데이터를 가져옵니다.

크롤링은 알려진 URL로 시작합니다. 이들은 웹 크롤러를 해당 페이지로 안내하는 다양한 신호가 있는 설정된 웹 페이지입니다. 이러한 신호는 다음과 같습니다.

  • 백링크: 사이트가 링크된 횟수
  • 방문자: 해당 페이지로 향하는 트래픽의 양
  • 도메인 권한: 도메인 의 전반적인 품질

그런 다음 검색 엔진의 인덱스에 데이터를 저장합니다. 사용자가 검색 쿼리를 시작하면 알고리즘이 인덱스에서 데이터를 가져오고 검색 엔진 결과 페이지에 나타납니다. 이 프로세스는 몇 밀리초 내에 발생할 수 있으므로 결과가 빠르게 나타나는 경우가 많습니다.

웹마스터는 사이트를 크롤링하는 봇을 제어할 수 있습니다. 그렇기 때문에 크롤러 목록이 있는 것이 중요합니다. 크롤러를 인덱싱해야 하는 새 콘텐츠로 안내하는 것은 각 사이트의 서버 내에 있는 robots.txt 프로토콜 입니다.

각 웹 페이지에서 robots.txt 프로토콜에 입력한 내용에 따라 크롤러에게 향후 해당 페이지를 검색하거나 인덱싱하지 않도록 지시할 수 있습니다.

웹 크롤러가 검색에서 무엇을 찾는지 이해하면 검색 엔진에 콘텐츠를 더 잘 배치하는 방법을 이해할 수 있습니다.

크롤러 목록 편집: 다양한 유형의 웹 크롤러는 무엇입니까?

크롤러 목록 컴파일에 대해 생각하기 시작하면 세 가지 주요 유형의 크롤러를 찾아야 합니다. 여기에는 다음이 포함됩니다.

  • 사내 크롤러: 사이트를 스캔하기 위해 회사의 개발 팀에서 설계한 크롤러입니다. 일반적으로 사이트 감사 및 최적화에 사용됩니다.
  • 상업용 크롤러: 회사에서 콘텐츠를 크롤링하고 효율적으로 평가하는 데 사용할 수 있는 Screaming Frog와 같은 맞춤형 크롤러입니다.
  • 오픈 소스 크롤러 : 전 세계의 다양한 개발자와 해커가 만든 무료 크롤러입니다.

자신의 비즈니스 목표를 위해 어떤 유형을 활용해야 하는지 알 수 있도록 존재하는 다양한 유형의 크롤러를 이해하는 것이 중요합니다.

크롤러 목록에 추가할 가장 일반적인 웹 크롤러 11개

모든 검색 엔진에 대해 모든 작업을 수행하는 하나의 크롤러는 없습니다.

대신 웹 페이지를 평가하고 전 세계 사용자가 사용할 수 있는 모든 검색 엔진의 콘텐츠를 스캔하는 다양한 웹 크롤러가 있습니다.

오늘날 가장 일반적인 웹 크롤러를 살펴보겠습니다.

1. 구글봇

Googlebot은 Google 검색 엔진에 표시될 사이트 크롤링을 담당하는 Google의 일반 웹 크롤러입니다.

Googlebot 웹 크롤러
Googlebot은 최신 Google 검색결과를 제공하기 위해 사이트의 색인을 생성합니다.

기술적으로 Googlebot에는 Googlebot 데스크톱과 Googlebot 스마트폰(모바일)의 두 가지 버전이 있지만 대부분의 전문가는 Googlebot을 하나의 단일 크롤러로 간주합니다.

이는 둘 다 각 사이트의 robots.txt 에 기록된 동일한 고유 제품 토큰(사용자 에이전트 토큰이라고 함)을 따르기 때문입니다. Googlebot 사용자 에이전트는 단순히 "Googlebot"입니다.

Googlebot이 작업을 시작하고 일반적으로 몇 초마다 사이트에 액세스합니다(사이트의 robots.txt 에서 차단하지 않은 경우). 스캔한 페이지의 백업은 Google 캐시라는 통합 데이터베이스에 저장됩니다. 이를 통해 사이트의 이전 버전을 볼 수 있습니다.

또한 Google Search Console은 웹마스터가 Googlebot이 사이트를 크롤링하는 방법을 이해하고 검색을 위해 페이지를 최적화하는 데 사용하는 또 다른 도구입니다.

2. 빙봇

Bingbot은 2010년 Microsoft에서 URL을 스캔하고 인덱싱하여 Bing이 플랫폼 사용자에게 관련성 있는 최신 검색 엔진 결과를 제공하도록 하기 위해 만들었습니다.

Bingbot 웹 크롤러
Bingbot은 Bing에 관련 검색 엔진 결과를 제공합니다.

Googlebot과 마찬가지로 개발자 또는 마케팅 담당자는 자신의 사이트를 스캔하기 위해 에이전트 식별자 "bingbot"을 승인 또는 거부할지 여부를 사이트의 robots.txt에서 정의할 수 있습니다.

또한 Bingbot이 최근 새로운 에이전트 유형으로 전환한 이후 모바일 우선 인덱싱 크롤러와 데스크톱 크롤러를 구분할 수 있습니다. 이는 Bing 웹마스터 도구와 함께 웹마스터에게 자신의 사이트가 어떻게 검색되고 검색 결과에 표시되는지 보여줄 수 있는 더 큰 유연성을 제공합니다.

3. 얀덱스 봇

Yandex Bot은 러시아 검색 엔진 Yandex 전용 크롤러입니다. 이것은 러시아에서 가장 크고 가장 인기있는 검색 엔진 중 하나입니다.

Yandex Bot 웹 크롤러
Yandex Bot은 러시아 검색 엔진인 Yandex를 인덱싱합니다.

웹마스터는 robots.txt 파일을 통해 Yandex Bot이 사이트 페이지에 액세스할 수 있도록 할 수 있습니다.

또한 특정 페이지에 Yandex.Metrica 태그를 추가하거나, Yandex 웹마스터에서 페이지를 재인덱싱하거나, 신규, 수정 또는 비활성화된 페이지를 가리키는 고유한 보고서인 IndexNow 프로토콜을 발행할 수 있습니다.

4. 애플봇

Apple은 Apple Bot에게 Apple의 Siri 및 Spotlight 제안을 위해 웹 페이지를 크롤링하고 인덱싱하도록 의뢰했습니다.

Apple Bot 웹 크롤러
Apple Bot은 Apple의 Siri 및 Spotlight용 웹 크롤러입니다.

Apple Bot은 Siri 및 Spotlight 제안에서 어떤 콘텐츠를 높일지 결정할 때 여러 요인을 고려합니다. 이러한 요소에는 사용자 참여, 검색어의 관련성, 링크의 수/품질, 위치 기반 신호, 심지어 웹페이지 디자인까지 포함됩니다.

5. 덕덕 봇

DuckDuckBot은 "웹 브라우저에서 완벽한 개인 정보 보호"를 제공하는 DuckDuckGo용 웹 크롤러입니다.

DuckDuck Bot 웹 크롤러
DuckDuck Bot은 개인 정보 보호에 중점을 둔 사이트를 크롤링합니다.

웹마스터는 DuckDuckBot API를 사용하여 DuckDuck Bot이 사이트를 크롤링했는지 확인할 수 있습니다. 크롤링하면서 최신 IP 주소 및 사용자 에이전트로 DuckDuckBot API 데이터베이스를 업데이트합니다.

이를 통해 웹마스터는 DuckDuck Bot과 연결하려는 사기꾼이나 악의적인 봇을 식별할 수 있습니다.

6. 바이두 스파이더

Baidu는 중국 최고의 검색 엔진이며 Baidu Spider는 사이트의 유일한 크롤러입니다.

Baidu 스파이더 웹 크롤러
Baidu Spider는 중국 검색 엔진인 Baidu의 크롤러입니다.

Google은 중국에서 금지되어 있으므로 중국 시장에 진출하려면 Baidu Spider가 사이트를 크롤링하도록 하는 것이 중요합니다.

사이트를 크롤링하는 Baidu Spider를 식별하려면 baiduspider, baiduspider-image, baiduspider-video 등의 사용자 에이전트를 찾으십시오.

중국에서 사업을 하지 않는 경우 robots.txt 스크립트에서 Baidu Spider를 차단하는 것이 좋습니다. 이렇게 하면 Baidu Spider가 귀하의 사이트를 크롤링하는 것을 방지하여 귀하의 페이지가 Baidu의 검색 엔진 결과 페이지(SERP)에 나타날 가능성을 제거합니다.

7. 소고우 거미

Sogou는 100억 개의 중국 페이지가 색인된 최초의 검색 엔진인 중국 검색 엔진입니다.

Sogou 스파이더 웹 크롤러
Sogou Spider는 Sogou의 크롤러입니다.

중국 시장에서 사업을 하고 있다면 알아야 할 또 다른 인기 있는 검색 엔진 크롤러입니다. Sogou Spider는 로봇의 제외 텍스트 및 크롤링 지연 매개변수를 따릅니다.

Baidu 스파이더와 마찬가지로 중국 시장에서 사업을 하고 싶지 않다면 사이트 로드 시간이 느려지는 것을 방지하기 위해 이 스파이더를 비활성화해야 합니다.

8. 페이스북 외부 히트

Facebook 크롤러라고도 하는 Facebook External Hit는 Facebook에서 공유되는 앱 또는 웹사이트의 HTML을 크롤링합니다.

Facebook 외부 히트 웹 크롤러
Facebook External Hit는 링크 공유를 위해 사이트를 인덱싱합니다.

이를 통해 소셜 플랫폼은 플랫폼에 게시된 각 링크의 공유 가능한 미리보기를 생성할 수 있습니다. 크롤러 덕분에 제목, 설명 및 썸네일 이미지가 나타납니다.

크롤링이 몇 초 내에 실행되지 않으면 Facebook은 공유하기 전에 생성된 사용자 지정 스니펫의 콘텐츠를 표시하지 않습니다.

9. 엑사봇

Exalead는 2000년에 설립된 소프트웨어 회사로 프랑스 파리에 본사를 두고 있습니다. 이 회사는 소비자 및 기업 고객을 위한 검색 플랫폼을 제공합니다.

Exabot 웹 크롤러
Exabot은 검색 플랫폼 회사인 Exalead의 크롤러입니다.

Exabot은 CloudView 제품에 구축된 핵심 검색 엔진의 크롤러입니다.

대부분의 검색 엔진과 마찬가지로 Exalead는 순위를 매길 때 백링크와 웹 페이지의 콘텐츠를 모두 고려합니다. Exabot은 Exalead 로봇의 사용자 에이전트입니다. 로봇은 검색 엔진 사용자가 보게 될 결과를 컴파일하는 "메인 인덱스"를 생성합니다.

10. 스위프트봇

Swifttype은 귀하의 웹사이트를 위한 사용자 지정 검색 엔진입니다. "최고의 검색 기술, 알고리즘, 콘텐츠 수집 프레임워크, 클라이언트 및 분석 도구"를 결합합니다.

Swiftbot 웹 크롤러
Swifttype은 사이트 검색을 강화할 수 있는 소프트웨어입니다.

페이지가 많은 복잡한 사이트가 있는 경우 Swifttype은 모든 페이지를 분류하고 색인화할 수 있는 유용한 인터페이스를 제공합니다.

Swiftbot은 Swifttype의 웹 크롤러입니다. 그러나 다른 봇과 달리 Swiftbot은 고객이 요청한 사이트만 크롤링합니다.

11. 후루룩 봇

Slurp Bot은 Yahoo의 페이지를 크롤링하고 인덱싱하는 Yahoo 검색 로봇입니다.

Slurp Bot 웹 크롤러
Slurp Bot은 Yahoo의 검색 엔진 결과를 지원합니다.

이 크롤링은 Yahoo.com과 Yahoo News, Yahoo Finance 및 Yahoo Sports를 포함한 파트너 사이트 모두에 필수적입니다. 이것이 없으면 관련 사이트 목록이 표시되지 않습니다.

인덱싱된 콘텐츠는 보다 관련성 높은 결과를 통해 사용자에게 보다 개인화된 웹 경험을 제공합니다.

SEO 전문가가 알아야 할 8가지 상업용 크롤러

크롤러 목록에 가장 인기 있는 11개의 봇이 있으므로 전문가를 위한 몇 가지 일반적인 상업용 크롤러 및 SEO 도구를 살펴보겠습니다.

1. Ahrefs 봇

Ahrefs Bot은 인기 있는 SEO 소프트웨어인 Ahrefs가 제공하는 12조 개의 링크 데이터베이스를 컴파일하고 인덱싱하는 웹 크롤러입니다.

Ahrefs 봇
Ahrefs Bot은 SEO 플랫폼인 Ahrefs의 사이트를 인덱싱합니다.

Ahrefs Bot은 매일 60억 개의 웹사이트를 방문하며 Googlebot 다음으로 "가장 활동적인 크롤러"로 간주됩니다.

가동 중지 시간 및 WordPress 문제로 어려움을 겪고 있습니까? Kinsta는 시간을 절약하도록 설계된 호스팅 솔루션입니다! 우리의 기능을 확인하십시오

다른 봇과 마찬가지로 Ahrefs 봇은 robots.txt 기능을 따르고 각 사이트 코드의 규칙을 허용/금지합니다.

2. 셈러시 봇

Semrush Bot을 사용하면 선도적인 SEO 소프트웨어인 Semrush가 플랫폼에서 고객이 사용할 사이트 데이터를 수집하고 색인화할 수 있습니다.

Semrush 봇
Semrush Bot은 Semrush가 사이트를 인덱싱하는 데 사용하는 크롤러입니다.

데이터는 Semrush의 공개 백링크 검색 엔진, 사이트 감사 도구, 백링크 감사 도구, 링크 구축 도구 및 작성 도우미에서 사용됩니다.

웹 페이지 URL 목록을 컴파일하고 방문하고 향후 방문을 위해 특정 하이퍼링크를 저장하여 사이트를 크롤링합니다.

3. Moz의 캠페인 크롤러 Rogerbot

Rogerbot은 주요 SEO 사이트인 Moz의 크롤러입니다. 이 크롤러는 특히 Moz Pro 캠페인 사이트 감사를 위한 콘텐츠를 수집합니다.

Rogerbot 웹 크롤러
인기 있는 SEO 소프트웨어인 Moz는 Rogerbot을 크롤러로 배포합니다.

Rogerbot은 robots.txt 파일에 명시된 모든 규칙을 따르므로 Rogerbot이 사이트를 스캔하는 것을 차단/허용할지 여부를 결정할 수 있습니다.

웹마스터는 다면적인 접근 방식으로 인해 Rogerbot이 어떤 페이지를 크롤링했는지 확인하기 위해 정적 IP 주소를 검색할 수 없습니다.

4. 비명을 지르는 개구리

Screaming Frog는 SEO 전문가가 자신의 사이트를 감사하고 검색 엔진 순위에 영향을 미칠 개선 영역을 식별하는 데 사용하는 크롤러입니다.

비명을 지르는 개구리 크롤러
Screaming Frog는 SEO 개선에 도움이 되는 크롤러입니다.

크롤링이 시작되면 실시간 데이터를 검토하고 끊어진 링크 또는 페이지 제목, 메타데이터, 로봇, 중복 콘텐츠 등에 필요한 개선 사항을 식별할 수 있습니다.

크롤링 매개변수를 구성하려면 Screaming Frog 라이센스를 구입해야 합니다.

5. Lumar(구 Deep Crawl)

Lumar는 "사이트의 기술 상태를 유지하기 위한 중앙 집중식 명령 센터"입니다. 이 플랫폼을 사용하면 사이트 크롤링을 시작하여 사이트 아키텍처를 계획하는 데 도움이 될 수 있습니다.

루마 크롤러
Deep Crawl은 사이트 인텔리전스 크롤러인 Lumar로 리브랜딩되었습니다.

Lumar는 "시장에서 가장 빠른 웹사이트 크롤러"라고 자부하며 초당 최대 450개의 URL을 크롤링할 수 있다고 자랑합니다.

6. 장엄한

Majestic은 주로 URL의 백링크 추적 및 식별에 중점을 둡니다.

장엄한 크롤러
Majestic Crawler를 사용하면 SEO가 백링크 데이터를 검토할 수 있습니다.

이 회사는 2021년에 5년에서 15년으로 증가한 역사적 지수를 강조하면서 "인터넷에서 가장 포괄적인 백링크 데이터 소스 중 하나"를 보유하고 있음을 자랑스럽게 생각합니다.

사이트의 크롤러는 이 모든 데이터를 회사 고객이 사용할 수 있도록 합니다.

7. 인지SEO

CognitiveSEO는 많은 전문가들이 사용하는 또 다른 중요한 SEO 소프트웨어입니다.

인지 SEO
cognitiveSEO는 강력한 사이트 감사 도구를 제공합니다.

CognitiveSEO 크롤러를 통해 사용자는 사이트 아키텍처 및 포괄적인 SEO 전략을 알리는 포괄적인 사이트 감사를 수행할 수 있습니다.

봇은 모든 페이지를 크롤링하고 최종 사용자에게 고유한 "완전히 사용자 정의된 데이터 집합"을 제공합니다. 이 데이터 세트에는 순위에 영향을 미치고 불필요한 크롤러를 차단하기 위해 다른 크롤러를 위해 사이트를 개선할 수 있는 방법에 대한 권장 사항도 포함됩니다.

8. 크롤링

Oncrawl은 엔터프라이즈급 클라이언트를 위한 "업계 최고의 SEO 크롤러 및 로그 분석기"입니다.

크롤링 웹 크롤러
Oncrawl은 고유한 데이터를 제공하는 또 다른 SEO 크롤러입니다.

사용자는 "크롤링 프로필"을 설정하여 크롤링을 위한 특정 매개변수를 생성할 수 있습니다. 이러한 설정(시작 URL, 크롤링 제한, 최대 크롤링 속도 등 포함)을 저장하여 설정된 동일한 매개변수로 다시 쉽게 크롤링을 실행할 수 있습니다.

악성 웹 크롤러로부터 내 사이트를 보호해야 합니까?

모든 크롤러가 좋은 것은 아닙니다. 일부는 페이지 속도에 부정적인 영향을 미칠 수 있고 다른 일부는 사이트를 해킹하거나 악의적인 의도를 가질 수 있습니다.

그렇기 때문에 크롤러가 사이트에 들어오는 것을 차단하는 방법을 이해하는 것이 중요합니다.

크롤러 목록을 설정하면 어떤 크롤러가 주의해야 하는지 알 수 있습니다. 그런 다음 수상한 항목을 제거하고 차단 목록에 추가할 수 있습니다.

악성 웹 크롤러를 차단하는 방법

크롤러 목록이 있으면 승인할 봇과 차단해야 할 봇을 식별할 수 있습니다.

첫 번째 단계는 크롤러 목록을 살펴보고 각 크롤러와 관련된 사용자 에이전트 및 전체 에이전트 문자열과 특정 IP 주소를 정의하는 것입니다. 이는 각 봇과 관련된 주요 식별 요소입니다.

사용자 에이전트 및 IP 주소를 사용하여 DNS 조회 또는 IP 일치를 통해 사이트 레코드에서 일치시킬 수 있습니다. 정확히 일치하지 않으면 악성 봇이 실제 봇인 것처럼 가장하려고 시도할 수 있습니다.

그런 다음 robots.txt 사이트 태그를 사용하여 권한을 조정하여 사기꾼을 차단할 수 있습니다.

요약

웹 크롤러는 검색 엔진에 유용하고 마케팅 담당자가 이해하는 데 중요합니다.

올바른 크롤러가 사이트를 올바르게 크롤링하는지 확인하는 것이 비즈니스 성공에 중요합니다. 크롤러 목록을 유지하면 사이트 로그에 나타날 때 주의해야 할 항목을 알 수 있습니다.

상업용 크롤러의 권장 사항을 따르고 사이트의 콘텐츠와 속도를 개선하면 크롤러가 사이트에 더 쉽게 액세스하고 검색 엔진과 이를 찾는 소비자를 위해 올바른 정보를 색인에 추가할 수 있습니다.