Robots.txt: 정의 및 작성 방법(전체 안내서)

게시 됨: 2023-05-05

웹사이트를 소유하거나 해당 콘텐츠를 관리하는 경우 robots.txt에 대해 들어봤을 것입니다. 웹 사이트 페이지를 크롤링하고 인덱싱하는 방법에 대해 검색 엔진 로봇에 지시하는 파일입니다. 검색 엔진 최적화(SEO)에서의 중요성에도 불구하고 많은 웹사이트 소유자는 잘 설계된 robots.txt 파일의 중요성을 간과합니다.

이 전체 가이드에서는 robots.txt가 무엇인지, 이것이 SEO에 중요한 이유, 웹사이트용 robots.txt 파일을 생성하는 방법을 살펴봅니다.

Robots.txt 파일이란 무엇입니까?

robots.txt는 검색 엔진 로봇(크롤러 또는 스파이더라고도 함)에게 웹 사이트의 어떤 페이지나 섹션을 크롤링해야 하는지 알려주는 파일입니다. 웹사이트의 루트 디렉토리에 있는 일반 텍스트 파일이며 일반적으로 웹마스터가 검색 엔진 인덱싱 또는 크롤링에서 차단하려는 디렉토리, 파일 또는 URL 목록을 포함합니다.

robots.txt 파일은 다음과 같습니다.

robots.txt 파일

Robots.txt가 중요한 이유는 무엇입니까?

귀하의 웹사이트에서 robots.txt가 중요한 세 가지 주요 이유가 있습니다.

1. 크롤링 예산 극대화

"크롤링 예산"은 Google이 특정 시간에 귀하의 사이트에서 크롤링할 페이지 수를 나타냅니다. 숫자는 사이트의 백링크 크기, 상태 및 수량에 따라 다릅니다.

사이트의 페이지 수가 크롤링 예산을 초과하면 색인이 생성되지 않는 페이지가 생기기 때문에 크롤링 예산은 중요합니다.

또한 색인이 생성되지 않은 페이지는 순위가 매겨지지 않습니다.

robots.txt를 사용하여 쓸모 없는 페이지를 차단하면 Googlebot(Google의 웹 크롤러)이 중요한 페이지에 더 많은 크롤링 예산을 사용할 수 있습니다.

2. 비공개 페이지 차단

사이트에 색인을 생성하지 않으려는 페이지가 많이 있습니다.

예를 들어 내부 검색 결과 페이지나 로그인 페이지가 있을 수 있습니다. 이러한 페이지는 존재해야 합니다. 그러나 임의의 사람들이 착륙하는 것을 원하지 않습니다.

이 경우 robots.txt를 사용하여 검색 엔진 크롤러 및 봇이 특정 페이지에 액세스하지 못하도록 합니다.

3. 리소스 인덱싱 방지

때때로 Google이 검색 결과에서 PDF, 비디오 및 이미지와 같은 리소스를 제외하기를 원할 것입니다.

이러한 리소스를 비공개로 유지하거나 Google이 중요한 콘텐츠에 더 집중하기를 원할 수 있습니다.

이러한 경우 robots.txt를 사용하는 것이 색인 생성을 방지하는 가장 좋은 방법입니다.

robots.txt 파일은 어떻게 작동합니까?

robots.txt 파일은 검색 엔진 봇에게 크롤링하거나 색인을 생성해야 하는 웹 사이트의 페이지 또는 디렉토리를 지시합니다.

크롤링하는 동안 검색 엔진 봇은 링크를 찾아 따라갑니다. 이 프로세스는 수십억 개의 링크와 웹사이트를 통해 사이트 X에서 사이트 Y, 사이트 Z로 연결됩니다.

봇이 사이트를 방문하면 가장 먼저 robots.txt 파일을 찾습니다.

하나를 감지하면 다른 작업을 수행하기 전에 파일을 읽습니다.

예를 들어 DuckDuckGo를 제외한 모든 봇이 사이트를 크롤링하도록 허용한다고 가정합니다.

User-agent: DuckDuckBot Disallow: /

참고: robots.txt 파일은 지침만 제공할 수 있습니다. 그것들을 강요할 수 없습니다. 행동 강령과 비슷합니다. 좋은 봇(예: 검색 엔진 봇)은 규칙을 따르는 반면 나쁜 봇(예: 스팸 봇)은 규칙을 무시합니다.

Robots.txt 파일을 찾는 방법?

웹사이트의 다른 파일과 마찬가지로 robots.txt 파일은 서버에서 호스팅됩니다.

홈페이지의 전체 URL을 입력한 다음 https://pickupwp.com/robots.txt와 같이 끝에 /robots.txt를 추가하여 모든 웹사이트의 robots.txt 파일에 액세스할 수 있습니다.

robots.txt 파일

그러나 웹사이트에 robots.txt 파일이 없으면 "404 찾을 수 없음" 오류 메시지가 표시됩니다.

Robots.txt 파일을 만드는 방법?

robots.txt 파일을 만드는 방법을 보여주기 전에 먼저 robots.txt 구문을 살펴보겠습니다.

robots.txt 파일의 구문은 다음 구성 요소로 나눌 수 있습니다.

  • User-agent: 레코드가 적용되는 로봇 또는 크롤러를 지정합니다. 예를 들어 'User-agent: Googlebot'은 Google의 검색 크롤러에만 적용되는 반면 'User-agent: *'는 모든 크롤러에 적용됩니다.
  • 금지: 로봇이 크롤링해서는 안 되는 페이지 또는 디렉토리를 지정합니다. 예를 들어 "Disallow: /private/"는 로봇이 "private" 디렉토리 내의 페이지를 크롤링하지 못하게 합니다.
  • 허용: 상위 디렉토리가 허용되지 않은 경우에도 로봇이 크롤링할 수 있는 페이지 또는 디렉토리를 지정합니다. 예를 들어 "Allow: /public/"은 상위 디렉토리가 허용되지 않는 경우에도 로봇이 "public" 디렉토리 내의 모든 페이지를 크롤링하도록 허용합니다.
  • 크롤링 지연: 로봇이 웹 사이트를 크롤링하기 전에 기다려야 하는 시간(초)을 지정합니다. 예를 들어 "Crawl-delay: 10"은 로봇이 웹 사이트를 크롤링하기 전에 10초 동안 기다리도록 지시합니다.
  • 사이트맵: 웹 사이트 사이트맵의 위치를 ​​지정합니다. 예를 들어 "사이트맵: https://www.example.com/sitemap.xml"은 로봇에게 웹 사이트 사이트맵의 위치를 ​​알려줍니다.

다음은 robots.txt 파일의 예입니다.

User-agent: Googlebot Disallow: /private/ Allow: /public/ Crawl-delay: 10 Sitemap: https://www.example.com/sitemap.xml

참고: robots.txt 파일은 대소문자를 구분하므로 URL을 지정할 때 올바른 대소문자를 사용하는 것이 중요합니다.

예를 들어 /public/은 /Public/과 다릅니다.

반면에 "Allow" 및 "Disallow"와 같은 지시문은 대소문자를 구분하지 않으므로 대문자로 표시할지 여부는 사용자에게 달려 있습니다.

robots.txt 구문에 대해 학습한 후 robots.txt 생성 도구를 사용하여 robots.txt 파일을 만들거나 직접 만들 수 있습니다.

단 4단계로 robots.txt 파일을 생성하는 방법은 다음과 같습니다.

1. 새 파일을 만들고 이름을 Robots.txt로 지정합니다.

텍스트 편집기나 웹 브라우저에서 .txt 문서를 열기만 하면 됩니다.

그런 다음 문서 이름을 robots.txt로 지정합니다. 작동하려면 이름을 robots.txt로 지정해야 합니다.

완료되면 이제 지시어 입력을 시작할 수 있습니다.

2. Robots.txt 파일에 지시문 추가

robots.txt 파일에는 각각 여러 줄의 명령이 있는 하나 이상의 명령 그룹이 포함되어 있습니다.

각 그룹은 "User-agent"로 시작하며 다음 데이터를 포함합니다.

  • 그룹이 적용되는 대상(사용자 에이전트)
  • 에이전트가 액세스할 수 있는 디렉터리(페이지) 또는 파일은 무엇입니까?
  • 에이전트가 액세스할 수 없는 디렉터리(페이지) 또는 파일은 무엇입니까?
  • 중요하다고 생각하는 사이트 및 파일에 대해 검색 엔진에 알리는 사이트맵(선택 사항).

이러한 지시어와 일치하지 않는 행은 크롤러에서 무시됩니다.

예를 들어 Google이 /private/ 디렉토리를 크롤링하지 못하도록 하려는 경우입니다.

다음과 같이 표시됩니다.

User-agent: Googlebot Disallow: /private/

Google에 대해 이와 같은 추가 지침이 있는 경우 다음과 같이 바로 아래에 별도의 줄에 입력합니다.

User-agent: Googlebot Disallow: /private/ Disallow: /not-for-google

또한 Google의 특정 지침을 완료하고 새 지침 그룹을 생성하려는 경우.

예를 들어, 모든 검색 엔진이 /archive/ 및 /support/ 디렉토리를 크롤링하지 못하도록 하려는 경우입니다.

다음과 같이 표시됩니다.

User-agent: Googlebot Disallow: /private/ Disallow: /not-for-google User-agent: * Disallow: /archive/ Disallow: /support/

완료되면 사이트맵을 추가할 수 있습니다.

완성된 robots.txt 파일은 다음과 같아야 합니다.

User-agent: Googlebot Disallow: /private/ Disallow: /not-for-google User-agent: * Disallow: /archive/ Disallow: /support/ Sitemap: https://www.example.com/sitemap.xml

다음으로 robots.txt 파일을 저장합니다. robots.txt라는 이름을 지정해야 합니다.

더 유용한 robots.txt 규칙에 대해서는 Google에서 제공하는 이 유용한 가이드를 확인하십시오.

3. robots.txt 파일 업로드

robots.txt 파일을 컴퓨터에 저장한 후 웹사이트에 업로드하고 검색 엔진이 크롤링할 수 있도록 합니다.

안타깝게도 이 단계에 도움이 될 수 있는 도구가 없습니다.

robots.txt 파일 업로드는 사이트의 파일 구조와 웹 호스팅에 따라 다릅니다.

robots.txt 파일을 업로드하는 방법에 대한 지침은 온라인으로 검색하거나 호스팅 제공업체에 문의하십시오.

4. Robots.txt 테스트

robots.txt 파일을 업로드한 후에는 누구나 파일을 볼 수 있는지 Google에서 읽을 수 있는지 확인할 수 있습니다.

브라우저에서 새 탭을 열고 robots.txt 파일을 검색하기만 하면 됩니다.

예: https://pickupwp.com/robots.txt.

robots.txt 파일

robots.txt 파일이 보이면 마크업(HTML 코드)을 테스트할 준비가 된 것입니다.

이를 위해 Google robots.txt 테스터를 사용할 수 있습니다.

Google Robots.txt 테스터

참고: robots.txt 테스터를 사용하여 robots.txt 파일을 테스트하도록 설정된 Search Console 계정이 있습니다.

robots.txt 테스터는 구문 경고 또는 논리 오류를 찾아 강조 표시합니다.

또한 편집기 아래에 경고 및 오류도 표시됩니다.

Google Robots.txt 테스터 결과

페이지에서 오류나 경고를 편집하고 필요할 때마다 다시 테스트할 수 있습니다.

페이지에서 변경한 사항은 사이트에 저장되지 않습니다.

변경하려면 사이트의 robots.txt 파일에 복사하여 붙여넣으십시오.

robots.txt 모범 사례

몇 가지 일반적인 실수를 방지하기 위해 robots.txt 파일을 생성하는 동안 다음 모범 사례를 염두에 두십시오.

1. 각 지시문에 새 줄 사용

검색 엔진 크롤러의 혼동을 방지하려면 robots.txt 파일의 새 줄에 각 지시문을 추가하세요. 이는 허용 및 허용 안 함 규칙 모두에 적용됩니다.

예를 들어 웹 크롤러가 블로그나 연락처 페이지를 크롤링하지 않도록 하려면 다음 규칙을 추가합니다.

Disallow: /blog/ Disallow: /contact/

2. 각 사용자 에이전트를 한 번만 사용

동일한 사용자 에이전트를 반복해서 사용하면 봇은 문제가 없습니다.

그러나 한 번만 사용하면 정리가 유지되고 인적 오류 가능성이 줄어듭니다.

3. 와일드카드를 사용하여 명령 간소화

차단할 페이지가 많은 경우 각 페이지에 대한 규칙을 추가하는 데 시간이 많이 걸릴 수 있습니다. 다행히 와일드카드를 사용하여 지침을 단순화할 수 있습니다.

와일드카드는 하나 이상의 문자를 나타낼 수 있는 문자입니다. 가장 일반적으로 사용되는 와일드카드는 별표(*)입니다.

예를 들어 .jpg로 끝나는 모든 파일을 차단하려면 다음 규칙을 추가합니다.

Disallow: /*.jpg

4. “$”를 사용하여 URL의 끝을 지정

달러 기호($)는 URL의 끝을 식별하는 데 사용할 수 있는 또 다른 와일드카드입니다. 이는 특정 페이지를 제한하고 그 다음 페이지는 제한하려는 경우에 유용합니다.

연락처 페이지는 차단하지만 연락처 성공 페이지는 차단하지 않으려면 다음 규칙을 추가합니다.

Disallow: /contact$

5. 해시(#)를 사용하여 댓글 추가

해시(#)로 시작하는 모든 항목은 크롤러에서 무시됩니다.

결과적으로 개발자는 종종 해시를 사용하여 robots.txt 파일에 주석을 추가합니다. 문서를 체계적이고 읽기 쉽게 유지합니다.

예를 들어 .jpg로 끝나는 모든 파일을 방지하려면 다음 주석을 추가할 수 있습니다.

# Block all files that end in .jpg Disallow: /*.jpg

이것은 누구나 규칙이 무엇이며 왜 존재하는지 이해하는 데 도움이 됩니다.

6. 각 하위 도메인에 별도의 robots.txt 파일 사용

여러 하위 도메인이 있는 웹사이트가 있는 경우 각각에 대해 개별 robots.txt 파일을 만드는 것이 좋습니다. 이렇게 하면 항목이 정리되고 검색 엔진 크롤러가 규칙을 더 쉽게 파악할 수 있습니다.

마무리!

robots.txt 파일은 검색 엔진 봇에게 무엇을 인덱싱하고 무엇을 하지 말아야 하는지 지시하기 때문에 유용한 SEO 도구입니다.

그러나 주의해서 사용하는 것이 중요합니다. 구성이 잘못되면 웹사이트의 완전한 색인이 해제될 수 있습니다(예: Disallow: / 사용).

일반적으로 좋은 방법은 검색 엔진이 민감한 정보를 유지하고 중복 콘텐츠를 피하면서 가능한 한 많은 사이트를 스캔하도록 허용하는 것입니다. 예를 들어 Disallow 지시문을 사용하여 특정 페이지나 디렉터리를 방지하거나 Allow 지시문을 사용하여 특정 페이지에 대한 Disallow 규칙을 재정의할 수 있습니다.

또한 모든 봇이 robots.txt 파일에 제공된 규칙을 따르는 것은 아니므로 인덱싱되는 항목을 제어하는 ​​완벽한 방법이 아니라는 점도 언급할 가치가 있습니다. 그러나 여전히 SEO 전략에 있어 유용한 도구입니다.

이 가이드가 robots.txt 파일이 무엇이고 파일을 만드는 방법을 배우는 데 도움이 되기를 바랍니다.

자세한 내용은 다음과 같은 다른 유용한 리소스를 확인하세요.

  • 새로운 블로거를 위한 15가지 실행 가능한 블로깅 팁
  • 롱테일 키워드의 힘 잠금 해제(초보자 가이드)

마지막으로 Twitter에서 우리를 팔로우하여 새로운 기사에 대한 정기적인 업데이트를 받으세요.