피해야 할 14가지 일반적인 WordPress Robots.txt 실수

게시 됨: 2025-01-14

Robots.txt는 검색 크롤러 및 기타 봇에게 WordPress 웹사이트에서 작동하는 방법을 알려주는 강력한 서버 파일입니다. 이는 사이트의 검색 엔진 최적화(SEO)에 긍정적이든 부정적이든 큰 영향을 미칠 수 있습니다.

그렇기 때문에 이 파일이 무엇인지, 어떻게 사용하는지 알아야 합니다. 그렇지 않으면 웹사이트가 손상되거나 적어도 웹사이트의 잠재력 중 일부가 삭제될 수 있습니다.

이러한 상황을 방지하기 위해 이 게시물에서는 robots.txt 파일을 자세히 다루겠습니다. 파일이 무엇인지, 목적, 파일을 찾고 관리하는 방법, 파일에 포함되어야 하는 내용을 정의합니다. 그런 다음 사람들이 WordPress robots.txt에서 저지르는 가장 일반적인 실수, 이를 방지하는 방법, 오류가 발생한 경우 복구하는 방법을 살펴보겠습니다.

WordPress robots.txt란 무엇입니까?

앞서 언급했듯이 robots.txt는 서버 구성 파일입니다. 일반적으로 서버의 루트 폴더에서 찾을 수 있습니다.

웹사이트 루트 폴더의 Robots.txt
웹사이트 루트 폴더의 Robots.txt

열어보면 내용물은 이렇습니다.

Robots.txt 지시어 예
Robots.txt 지시어 예

이러한 코드 조각은 웹 사이트를 방문하는 봇에게 웹 사이트에 있는 동안 어떻게 행동해야 하는지, 특히 웹 사이트의 어느 부분에 액세스할 것인지, 액세스하지 않을 것인지를 알려주는 지침입니다.

어떤 봇이냐고요?

가장 일반적인 예는 색인을 생성하거나 업데이트할 웹 페이지를 찾는 검색 엔진의 자동 크롤러뿐 아니라 AI 모델 및 기타 자동화 도구의 봇입니다.

이 파일에 어떤 지시를 내릴 수 있나요?

Robots.txt는 기본적으로 네 가지 주요 지시문을 알고 있습니다.

  • 사용자 에이전트 – 다음 규칙이 적용되는 대상, 즉 어떤 그룹 또는 개별 봇을 정의합니다.
  • Disallow – 사용자 에이전트가 액세스하는 것이 금지된 디렉터리, 파일 또는 리소스를 나타냅니다.
  • 허용 – 금지된 디렉터리의 개별 폴더나 리소스에 대한 액세스를 허용하는 등의 예외를 설정하는 데 사용할 수 있습니다.
  • 사이트맵 – 봇이 웹사이트 사이트맵의 URL 위치를 가리킵니다.

파일이 작업을 수행하려면 User-agentDisallow 만 필수입니다. 다른 두 지시문은 선택 사항입니다. 예를 들어, 다음은 봇이 귀하의 사이트에 액세스하지 못하도록 차단하는 방법입니다.

 User-agent: * Disallow: /

별표는 다음 규칙이 모든 사용자 에이전트에 적용됨을 나타냅니다. Disallow 뒤의 슬래시는 이 사이트의 모든 디렉토리가 출입 금지임을 나타냅니다. 이것은 일반적으로 개발 사이트에서 발견되는 robots.txt 파일로, 검색 엔진에 의해 색인이 생성되지 않아야 합니다.

그러나 개별 봇에 대한 규칙을 설정할 수도 있습니다.

 User-agent: Googlebot Allow: /private/resources/

robots.txt는 바인딩되지 않는다는 점에 유의하는 것이 중요합니다. 로봇 배제 프로토콜을 준수하는 조직의 봇만이 그 지시를 따릅니다. 사이트의 보안 결함을 찾는 것과 같은 악성 봇은 이를 무시할 수 있으며 무시할 것이므로 이에 대해 추가 조치를 취해야 합니다.

표준을 준수하는 조직이라도 일부 지침은 무시됩니다. 아래에서 이에 대한 예를 더 자세히 설명하겠습니다.

robots.txt가 왜 중요한가요?

WordPress 사이트에 robots.txt 파일이 있어야 하는 것은 필수는 아닙니다. 귀하의 사이트는 사이트 없이도 작동하며 검색 엔진은 사이트가 없다고 해서 귀하에게 불이익을 주지는 않습니다. 그러나 하나를 포함하면 다음을 수행할 수 있습니다.

  • 로그인 페이지나 특정 미디어 파일 등 검색결과에 콘텐츠를 포함하지 마세요.
  • 검색 크롤러가 사이트의 중요하지 않은 부분에 크롤링 예산을 낭비하지 않도록 방지하고 색인을 생성하려는 페이지를 무시할 수도 있습니다.
  • 검색 엔진이 사이트맵을 가리키도록 하여 웹사이트의 나머지 부분을 더 쉽게 탐색할 수 있도록 하세요.
  • 낭비적인 봇을 차단하여 서버 리소스를 보존하세요.

이 모든 것은 사이트, 특히 SEO를 개선하는 데 도움이 되므로 robots.txt 사용 방법을 이해하는 것이 중요합니다.

WordPress robots.txt를 찾고, 편집하고, 만드는 방법

언급한 대로 robots.txt는 일반적으로 서버의 웹사이트 루트 폴더에 있습니다. FileZilla와 같은 FTP 클라이언트를 사용하여 해당 파일에 액세스하고 텍스트 편집기로 편집할 수 있습니다.

FTP를 통해 robots.txt 편집
FTP를 통해 robots.txt 편집

파일이 없으면 빈 텍스트 파일을 만들고 이름을 "robots.txt"로 지정한 후 지시어로 채우고 업로드하면 됩니다.

최소한 파일을 보는 또 다른 방법은 도메인에 /robots.txt를 추가하는 것입니다(예: https://wp-rocket.me/robots.txt).

브라우저를 통해 robots.txt 파일 보기
브라우저를 통해 robots.txt 파일 보기

또한 WordPress 백엔드에서 파일에 액세스하는 방법도 있습니다. 많은 SEO 플러그인을 사용하면 관리 인터페이스에서 이를 확인하고 변경할 수 있습니다.

Rank Math SEO 플러그인으로 robots.txt 편집
Rank Math SEO 플러그인으로 robots.txt 편집

또는 WPCode와 같은 플러그인을 사용할 수도 있습니다.

좋은 WordPress robots.txt 파일은 어떤 모습인가요?

웹 사이트 파일에 어떤 지시문이 있어야 하는지에 대한 일률적인 대답은 없습니다. 설정에 따라 다릅니다. 다음은 많은 WordPress 웹사이트에 적합한 예입니다.

 User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https://yourwebsite.com/sitemap.xml

이 예에서는 다음과 같은 몇 가지 결과를 얻습니다.

  1. 관리 영역에 대한 접근을 차단합니다.
  2. 필수 관리 기능에 대한 액세스를 허용합니다.
  3. 사이트맵 위치 제공

이 설정은 보안, SEO 성능 및 효율적인 크롤링 간의 균형을 유지합니다.

WordPress robots.txt의 14가지 실수를 저지르지 마세요

목표가 자신의 사이트에 맞게 robots.txt를 설정하고 최적화하는 것이라면 다음 오류를 피하십시오.

1. 내부 WordPress robots.txt 무시

사이트의 루트 디렉터리에 "물리적" robots.txt 파일이 없더라도 WordPress에는 자체 가상 파일이 제공됩니다. 검색 엔진이 귀하의 웹 사이트를 색인화하지 않는 경우 이를 기억하는 것이 특히 중요합니다.

이 경우 설정 > 읽기 에서 상대방이 그렇게 하지 못하도록 하는 옵션을 활성화했을 가능성이 높습니다.

검색 크롤러를 방해하는 WordPress 읽기 설정
검색 크롤러를 방해하는 WordPress 읽기 설정

이는 모든 검색 크롤러를 가상 robots.txt에 보관하라는 지시문을 넣습니다. 비활성화하려면 확인란을 선택 취소하고 하단에 저장하세요.

2. 잘못된 위치에 배치

봇, 특히 검색 크롤러는 웹 사이트의 루트 디렉터리 한 위치에서만 robots.txt 파일을 찾습니다. 폴더 등 다른 곳에 놓으면 찾지 못하고 무시합니다.

루트 디렉터리는 WordPress를 하위 디렉터리에 배치하지 않은 한 FTP를 통해 서버에 액세스할 때 이동하는 위치여야 합니다. wp-admin , wp-contentwp-includes 폴더가 보이면 올바른 위치에 있는 것입니다.

WordPress 루트 디렉터리
WordPress 루트 디렉터리

3. 오래된 마크업 포함

위에서 언급한 지시문 외에도 이전 웹사이트의 robots.txt 파일에서 여전히 찾을 수 있는 두 가지 지시문이 더 있습니다.

  • Noindex – 검색 엔진이 사이트에서 색인을 생성하지 않는 URL을 지정하는 데 사용됩니다.
  • Crawl-delay – 크롤러가 웹 서버 리소스에 과부하를 주지 않도록 조절하기 위한 지시어입니다.

적어도 Google에서는 이 두 지시문을 모두 무시합니다. 적어도 Bing은 여전히 ​​크롤링 지연을 존중합니다.

크롤링 지연 지시문을 언급하는 Bing 문서
크롤링 지연 지시문을 언급하는 Bing 문서

대부분의 경우 이러한 지시어를 사용하지 않는 것이 가장 좋습니다. 이렇게 하면 파일을 간결하게 유지하고 오류 위험을 줄이는 데 도움이 됩니다.

팁: 검색 엔진이 특정 페이지의 색인을 생성하지 못하도록 하는 것이 목표라면 대신 noindex 메타 태그를 사용하세요. 페이지별로 SEO 플러그인을 사용하여 구현할 수 있습니다.

Rank Math 설정에서 NOINDEX 메타 태그를 구현하는 옵션
Rank Math 설정에서 NOINDEX 메타 태그를 구현하는 옵션

robots.txt를 통해 페이지를 차단하면 크롤러는 NOINDEX 태그가 보이는 부분에 접근할 수 없습니다. 그렇게 하면 페이지의 색인을 생성할 수 있지만 콘텐츠가 없을 수 있으며 이는 더 나쁩니다.

4. 필수 리소스 차단

사람들이 저지르는 실수 중 하나는 크롤링 예산을 보존하기 위해 robots.txt를 사용하여 WordPress 사이트의 모든 스타일 시트(CSS 파일) 및 스크립트(JavaScript 파일)에 대한 액세스를 차단하는 것입니다.

그러나 그것은 좋은 생각이 아닙니다. 검색 엔진 봇은 방문자와 동일한 방식으로 페이지를 "볼" 수 있도록 페이지를 렌더링합니다. 이는 콘텐츠를 이해하고 그에 따라 색인을 생성하는 데 도움이 됩니다.

이러한 리소스를 차단하면 검색 엔진이 페이지에 대해 잘못된 인상을 줄 수 있으며 잠재적으로 해당 페이지가 제대로 색인화되지 않거나 순위가 저하될 수 있습니다.

CSS 및 JavaScript 파일이 사이트 성능을 방해할 수 있다고 생각되면 봇과 일반 방문자 모두에게 빠르게 로드되도록 최적화하는 것이 좋습니다. 코드를 축소하고 웹사이트 파일을 압축하여 더 빠르게 전송할 수 있습니다. 또한 사용되지 않는 코드를 제거하고 렌더링 차단 리소스를 연기하여 전달을 최적화할 수 있습니다.

: WP Rocket과 같은 성능 플러그인을 사용하면 이 프로세스를 단순화할 수 있습니다. 사용자 친화적인 인터페이스를 통해 파일 최적화 메뉴의 몇 가지 상자를 선택하여 파일 전달을 최적화할 수 있습니다.

WP Rocket 파일 최적화 옵션
WP Rocket 파일 최적화 옵션

WP Rocket에는 다음을 포함하여 웹 사이트 성능을 향상시키는 추가 기능도 제공됩니다.

  • 캐싱(전용 모바일 캐시 포함)
  • 이미지 및 비디오 지연 로딩
  • 캐시, 링크, 외부 파일 및 글꼴 미리 로드
  • 데이터베이스 최적화

또한 플러그인은 많은 최적화 단계를 자동으로 구현합니다. 그 예로는 브라우저 및 서버 캐싱, GZIP 압축, LCP 개선을 위한 스크롤 없이 볼 수 있는 부분 이미지 최적화 등이 있습니다. 이렇게 하면 WP Rocket을 켜기만 하면 사이트 속도가 빨라집니다.

또한 플러그인은 14일 환불 보장을 제공하므로 위험 부담 없이 테스트할 수 있습니다.

5. 개발 robots.txt 업데이트 실패

웹사이트를 구축할 때 개발자는 일반적으로 모든 봇의 액세스를 금지하는 robots.txt 파일을 포함합니다. 이것은 의미가 있습니다. 당신이 원하는 마지막 것은 완료되지 않은 사이트가 검색 결과에 표시되는 것입니다.

검색결과의 불완전한 콘텐츠 예
검색결과의 불완전한 콘텐츠 예

실수로 이 파일을 프로덕션 서버로 전송하고 검색 엔진이 라이브 웹 사이트를 색인화하지 못하도록 차단하는 경우에만 문제가 발생합니다. 귀하의 콘텐츠가 검색 결과에 표시되지 않는 경우 반드시 확인하십시오.

6. 사이트맵 링크를 포함하지 않음

robots.txt에서 사이트맵을 연결하면 검색 엔진 크롤러에 모든 콘텐츠 목록이 제공됩니다. 이렇게 하면 그들이 방문한 현재 페이지보다 더 많은 색인을 생성할 가능성이 높아집니다.

필요한 것은 한 줄뿐입니다.

 Sitemap: https://yourwebsite.com/sitemap.xml

예, Google Search Console과 같은 도구에서 사이트맵을 직접 제출할 수도 있습니다.

Google Search Console에 사이트맵 제출
Google Search Console에 사이트맵 제출

그러나 robots.txt 파일에 이를 포함시키는 것은 특히 웹마스터 도구를 사용하지 않는 검색 엔진의 경우 여전히 유용합니다.

7. 상충되는 규칙 사용

robots.txt 파일을 생성할 때 흔히 발생하는 실수 중 하나는 다음과 같이 서로 모순되는 규칙을 추가하는 것입니다.

 User-agent: * Disallow: /blog/ Allow: /blog/

위의 지시문은 검색 엔진이 /blog/ 디렉토리를 크롤링해야 하는지 여부를 불분명하게 만듭니다. 이로 인해 예측할 수 없는 결과가 발생하고 SEO가 손상될 수 있습니다.

사이트의 검색 순위에 해를 끼칠 수 있는 다른 요소와 이를 방지하는 방법이 궁금하십니까? SEO 실수에 대한 가이드에서 이에 대해 알아보세요.

충돌을 피하려면 다음 모범 사례를 따르십시오.

  • 특정 규칙을 먼저 사용하십시오 – 더 광범위한 규칙보다 더 구체적인 규칙을 배치하십시오.
  • 중복 방지 – 동일한 경로에 반대되는 지시문을 포함하지 마세요.
  • robots.txt 파일 테스트 - 도구를 사용하여 규칙이 예상대로 작동하는지 확인합니다. 자세한 내용은 아래를 참조하세요.

8. robots.txt로 민감한 콘텐츠 숨기기

앞서 언급했듯이 robots.txt는 검색결과에서 콘텐츠를 제외하는 도구가 아닙니다. 실제로 파일은 공개적으로 액세스할 수 있기 때문에 이 파일을 사용하여 민감한 콘텐츠를 차단하면 해당 콘텐츠가 있는 위치가 의도치 않게 정확하게 드러날 수 있습니다.

robots.txt로 민감한 콘텐츠를 차단하면 구경꾼에게 공개됩니다.
robots.txt로 민감한 콘텐츠를 차단하면 구경꾼에게 공개됩니다.

도움말 : 검색결과에서 콘텐츠를 제외하려면 noindex 메타태그를 사용하세요. 또한 사이트의 민감한 영역을 비밀번호로 보호하여 로봇과 승인되지 않은 사용자로부터 사이트를 안전하게 보호하세요.

9. 와일드카드를 잘못 사용함

와일드카드를 사용하면 지시문에 대규모 경로 또는 파일 그룹을 포함할 수 있습니다. 우리는 이미 * 기호를 만났습니다. 이는 "모든 인스턴스"를 의미하며 모든 사용자 에이전트에 적용되는 규칙을 설정하는 데 가장 자주 사용됩니다.

또 다른 와일드카드 기호는 $로, URL의 끝 부분에 규칙을 적용합니다. 예를 들어 크롤러가 사이트의 모든 PDF 파일에 액세스하지 못하도록 차단하려는 경우 이 기능을 사용할 수 있습니다.

 Disallow: /*.pdf$

와일드카드는 유용하지만 광범위한 결과를 초래할 수 있습니다. 신중하게 사용하고 항상 robots.txt 파일을 테스트하여 실수가 없는지 확인하세요.

10. 절대 URL과 상대 URL의 혼동

절대 URL과 상대 URL의 차이점은 다음과 같습니다.

  • 절대 URL - https://yourwebsite.com/private/
  • 상대 URL - /private/

robots.txt 지시어에 상대 URL을 사용하는 것이 좋습니다. 예를 들면 다음과 같습니다.

 Disallow: /private/

절대 URL은 봇이 지시어를 무시하거나 잘못 해석하는 문제를 일으킬 수 있습니다. 유일한 예외는 절대 URL이어야 하는 사이트맵 경로입니다.

11. 대소문자 구분 무시

Robots.txt 지시문은 대소문자를 구분합니다. 이는 다음 두 지시문을 서로 바꿔서 사용할 수 없음을 의미합니다.

 Disallow: /Private/ Disallow: /private/

robots.txt 파일이 예상대로 작동하지 않는 경우 대문자 사용이 잘못되었는지 확인하세요.

12. 후행 슬래시를 잘못 사용하기

후행 슬래시는 URL 끝에 있는 슬래시입니다.

  • 후행 슬래시 없음 : /directory
  • 후행 슬래시 포함 : /directory/

robots.txt에서는 허용되는 사이트 리소스와 허용되지 않는 사이트 리소스를 결정합니다. 예는 다음과 같습니다.

 Disallow: /private/

위 규칙은 크롤러가 사이트의 "개인" 디렉터리와 그 안에 있는 모든 항목에 액세스하는 것을 차단합니다. 반면에 다음과 같이 후행 슬래시를 생략한다고 가정해 보겠습니다.

 Disallow: /private

이 경우 규칙은 다음과 같이 사이트에서 "비공개"로 시작하는 다른 인스턴스도 차단합니다.

  • https://yourwebsite.com/private.html
  • https://yourwebsite.com/privateer

그러므로 정확하게 하는 것이 중요합니다. 의심스러운 경우 파일을 테스트해 보세요.

13. 하위 도메인에 대한 robots.txt 누락

웹사이트의 각 하위 도메인(예: dev.yourwebsite.com)에는 검색 엔진이 이를 별도의 웹 엔터티로 처리하므로 자체 robots.txt 파일이 필요합니다. 파일이 없으면 크롤러가 숨기려고 했던 사이트 부분을 색인화할 위험이 있습니다.

예를 들어 개발 버전이 'dev'라는 폴더에 있고 하위 도메인을 사용하는 경우 검색 크롤러를 차단하기 위한 전용 robots.txt 파일이 있는지 확인하세요.

하위 도메인에는 별도의 robots.txt 파일을 사용하세요.
하위 도메인에는 별도의 robots.txt 파일을 사용하세요.

14. robots.txt 파일을 테스트하지 않음

WordPress robots.txt 파일을 구성할 때 가장 큰 실수 중 하나는 특히 변경 후 테스트에 실패하는 것입니다.

앞서 살펴보았듯이 구문이나 논리의 작은 오류라도 심각한 SEO 문제를 일으킬 수 있습니다. 따라서 항상 robots.txt 파일을 테스트하세요.

Google Search Console의 설정 > robots.txt 에서 파일 관련 문제를 확인할 수 있습니다.

Google Search Console에서 robots.txt 테스트
Google Search Console에서 robots.txt 테스트

또 다른 방법은 Screaming Frog와 같은 도구를 사용하여 크롤링 동작을 시뮬레이션하는 것입니다. 또한 새 규칙을 라이브 사이트에 적용하기 전에 스테이징 환경을 사용하여 새 규칙의 영향을 확인하세요.

robots.txt 오류를 복구하는 방법

robots.txt 파일의 실수는 저지르기 쉽지만 다행히도 일단 발견하면 쉽게 수정할 수도 있습니다.

테스트 도구를 통해 업데이트된 robots.txt 파일을 실행하여 시작하세요. 그런 다음 페이지가 이전에 robots.txt 지시어에 의해 차단된 경우 해당 페이지를 Google Search Console 또는 Bing 웹마스터 도구에 수동으로 입력하여 색인 생성을 요청하세요.

주요 페이지에 대한 색인 생성을 수동으로 요청
주요 페이지에 대한 색인 생성을 수동으로 요청

또한 최신 버전의 사이트맵을 다시 제출하세요.

그 이후는 그저 기다리는 게임일 뿐입니다. 검색 엔진은 귀하의 사이트를 다시 방문하여 순위를 빠르게 회복할 것입니다.

WordPress robots.txt를 제어하세요

robots.txt 파일을 사용하면 1온스의 예방이 1파운드의 치료보다 낫습니다. 특히 대규모 웹사이트에서는 잘못된 파일이 순위, 트래픽 및 수익에 큰 타격을 줄 수 있습니다.

따라서 사이트의 robots.txt에 대한 모든 변경은 신중하게 그리고 광범위한 테스트를 거쳐 이루어져야 합니다. 자신이 저지를 수 있는 실수를 인식하는 것이 실수를 예방하는 첫 번째 단계입니다.

실수를 했을 때 당황하지 않도록 노력하세요. 무엇이 잘못되었는지 진단하고 오류를 수정한 후 사이트맵을 다시 제출하여 사이트를 다시 크롤링하세요.

마지막으로 검색 엔진이 사이트를 제대로 크롤링하지 못하는 이유가 성능 때문이 아닌지 확인하세요. 지금 WP Rocket을 사용해 사이트를 즉시 더 빠르게 만드세요!