Guide du débutant pour empêcher le scraping de contenu de blog dans WordPress

Publié: 2023-03-09

Cherchez-vous un moyen d'empêcher les spammeurs et les escrocs de voler vos articles de blog WordPress à l'aide de grattoirs de contenu ?

En tant que propriétaire de site Web, il est très frustrant de voir que quelqu'un vole votre contenu sans autorisation, le monétise, vous surclasse dans Google et vole votre audience.

Dans cet article, nous expliquerons ce qu'est le scraping de contenu de blog, comment vous pouvez réduire et empêcher le scraping de contenu, et même comment tirer parti des scrapers de contenu pour votre propre bénéfice.

Beginner's Guide to Preventing Blog Content Scraping in WordPress

Qu'est-ce que le scraping de contenu de blog dans WordPress ?

Le scraping de contenu de blog se produit lorsque le contenu est extrait de nombreuses sources et republié sur un autre site. Habituellement, cela se fait automatiquement via le flux RSS de votre blog.

Malheureusement, il est très facile et très courant de se faire voler le contenu de votre blog WordPress de cette manière. Si cela vous est arrivé, vous comprenez à quel point cela peut être stressant et frustrant.

Parfois, votre contenu sera simplement copié et collé directement sur un autre site Web, y compris votre formatage, vos images, vos vidéos, etc.

D'autres fois, votre contenu sera republié avec une attribution et un lien vers votre site Web, mais sans votre permission. Bien que cela puisse aider votre référencement, vous souhaiterez peut-être conserver votre contenu original hébergé sur votre site uniquement.

Pourquoi les grattoirs de contenu volent-ils du contenu ?

Certains de nos utilisateurs nous ont demandé pourquoi les scrapers volaient du contenu. Habituellement, la principale motivation du vol de contenu est de profiter de votre travail acharné :

  • Commission d'affiliation : les spécialistes du marketing affiliés malhonnêtes peuvent utiliser votre contenu pour générer du trafic vers leur site via des moteurs de recherche afin de promouvoir leurs produits de niche.
  • Génération de prospects : les avocats et les agents immobiliers peuvent payer quelqu'un pour ajouter du contenu et gagner en autorité dans leur communauté, sans se rendre compte qu'il est extrait d'autres sources.
  • Revenus publicitaires : les propriétaires de blogs peuvent récupérer du contenu pour créer un centre de connaissances dans un certain créneau "pour le bien de la communauté", puis enduire le site de publicités.

Est-il possible d'empêcher complètement le scraping de contenu ?

Dans cet article, nous allons vous montrer quelques étapes que vous pouvez suivre pour réduire et empêcher le scraping de contenu. Mais malheureusement, il n'y a aucun moyen d'arrêter complètement un voleur déterminé.

C'est pourquoi nous terminons cet article avec une section sur la façon dont vous pouvez tirer parti des scrapers de contenu. Bien que vous ne puissiez pas toujours arrêter un voleur, vous pourrez peut-être gagner du trafic et des revenus grâce au contenu qu'il vous a volé.

Que devez-vous faire lorsque vous découvrez que quelqu'un a scrapé votre contenu ?

Puisqu'il n'est pas possible d'arrêter complètement les scrapers, vous découvrirez peut-être un jour que quelqu'un utilise le contenu qu'il a volé sur votre blog. Vous vous demandez peut-être quoi faire lorsque cela se produit.

Voici quelques approches que les gens adoptent lorsqu'ils traitent avec des scrapers de contenu :

  • Ne rien faire : vous pouvez passer beaucoup de temps à lutter contre les grattoirs, alors certains blogueurs populaires décident de ne rien faire. Google considère déjà les sites bien connus comme des autorités, mais ce n'est pas le cas des sites plus petits. Cette approche n'est donc pas toujours la meilleure à notre avis.
  • Take Down : Ici, vous contactez le scraper et lui demandez de supprimer le contenu. S'ils refusent, vous soumettez un avis de retrait. Vous pouvez apprendre comment dans notre guide sur la façon de trouver et de supprimer facilement du contenu volé dans WordPress.
  • Profitez-en : alors que nous travaillons activement à faire supprimer le contenu extrait de WPBeginner, nous utilisons également quelques techniques pour obtenir du trafic et gagner de l'argent grâce aux grattoirs. Vous pouvez apprendre comment dans la section "Tirez parti des grattoirs de contenu" ci-dessous.

Cela étant dit, examinons comment empêcher le scraping de blog dans WordPress. Comme il s'agit d'un guide complet, nous avons inclus une table des matières pour faciliter la navigation.

  1. Droit d'auteur ou marque de commerce Nom et logo de votre blog
  2. Rendez votre flux RSS plus difficile à gratter
  3. Désactiver les rétroliens et les pingbacks
  4. Bloquez l'accès du scraper à votre site Web WordPress
  5. Empêcher le vol d'images dans WordPress
  6. Décourager la copie manuelle de votre contenu
  7. Tirez parti des grattoirs de contenu

1. Copyright ou marque déposée du nom et du logo de votre blog

Les lois sur les marques et les droits d'auteur protègent vos droits de propriété intellectuelle, votre marque et votre entreprise contre de nombreuses contestations judiciaires. Cela inclut l'utilisation illégale de votre matériel protégé par le droit d'auteur ou du nom et du logo de votre marque.

Vous devez afficher clairement un avis de droit d'auteur sur votre site Web. Bien que votre contenu soit automatiquement couvert par les lois sur le droit d'auteur, l'affichage d'un avis vous indiquera que votre contenu est protégé par le droit d'auteur et qu'ils ne peuvent pas utiliser vos propriétés protégées à des fins commerciales.

Display a Copyright Notice on Your Website

Par exemple, vous pouvez ajouter un avis de droit d'auteur avec une date dynamique à votre pied de page WordPress. Cela gardera votre avis de droit d'auteur à jour.

Cela peut décourager certains utilisateurs de le voler. Cela vous aidera également dans le cas où vous auriez besoin d'envoyer une lettre de cessation et d'abstention ou de déposer une plainte DCMA pour retirer votre contenu volé.

Vous pouvez également demander l'enregistrement des droits d'auteur en ligne. Ce processus peut être compliqué, mais heureusement, il existe des services juridiques peu coûteux qui peuvent aider les petites entreprises et les particuliers.

Découvrez comment dans notre guide sur la façon de déposer et de protéger le nom et le logo de votre blog.

2. Rendez votre flux RSS plus difficile à gratter

Étant donné que la récupération de contenu de blog est généralement effectuée automatiquement via le flux RSS de votre blog, examinons quelques modifications utiles que vous pouvez apporter à votre flux.

N'incluez pas le contenu complet de la publication dans votre flux RSS WordPress

Vous pouvez inclure uniquement un résumé de chaque message dans votre flux RSS au lieu du contenu complet. Cela inclut un extrait ainsi que des métadonnées de publication telles que la date, l'auteur et la catégorie.

Il y a certainement un débat dans la communauté des blogueurs sur l'opportunité d'avoir des flux RSS complets ou des flux récapitulatifs. Nous n'aborderons pas cela maintenant, sauf pour dire que l'un des avantages d'avoir uniquement un résumé est qu'il aide à empêcher le scraping de contenu.

Vous pouvez modifier les paramètres en allant dans Paramètres » Lecture dans votre panneau d'administration WordPress. Vous devez sélectionner l'option « Extrait », puis cliquer sur le bouton « Enregistrer les modifications ».

RSS Feeds Can Contain Full Text or an Excerpt of Each Post

Désormais, le flux RSS n'affichera qu'un extrait de votre article. Si quelqu'un vole votre contenu via votre flux RSS, il n'obtiendra que le résumé, pas le message complet.

Si vous souhaitez modifier le résumé, vous pouvez consulter notre guide sur la façon de personnaliser les extraits WordPress.

Optimisez votre flux RSS pour éviter le scraping

Il existe d'autres moyens de optimisez votre flux RSS WordPress pour protéger votre contenu, obtenir plus de backlinks, augmenter votre trafic Web, etc. L'un des meilleurs moyens consiste à retarder l'apparition des messages dans le flux RSS.

L'avantage est que lorsque vous retardez l'apparition des publications dans votre flux RSS, vous donnez aux moteurs de recherche le temps d'explorer et d'indexer votre contenu avant qu'il n'apparaisse ailleurs, comme sur les sites Web de scraper. Les moteurs de recherche verront alors votre site comme faisant autorité.

Le moyen le plus sûr et le plus simple de le faire est d'utiliser WPCode car il a une recette qui ajoute automatiquement le code personnalisé correct à WordPress.

Add a snippet using WPCode

Pour des instructions détaillées, consultez notre guide sur la façon de retarder l'apparition des publications dans votre flux RSS WordPress.

3. Désactiver les rétroliens, les pingbacks et l'API REST

Au début des blogs, les trackbacks et les pingbacks ont été introduits pour permettre aux blogs de s'informer mutuellement des liens. Lorsqu'une personne établit un lien vers un article de votre blog, son site Web envoie automatiquement un ping au vôtre.

Ce pingback apparaîtra alors dans la file d'attente de modération des commentaires de votre blog avec un lien vers leur site Web. Si vous l'approuvez, ils obtiennent un backlink et une mention de votre site.

Cela incite le spammeur à gratter votre site et à envoyer des rétroliens. Heureusement, vous pouvez désactiver les trackbacks et les pingbacks pour donner aux scrapers une raison de moins de voler votre contenu.

Disabling Trackbacks and Pingbacks in WordPress

Pour plus d'informations, consultez notre guide sur la désactivation des rétroliens sur tous les futurs messages. Vous aimerez peut-être aussi apprendre à désactiver les rétroliens et les pings sur les publications WordPress existantes.

Désactiver l'API REST de WordPress

Outre les trackbacks et les pingbacks, nous vous recommandons également de désactiver l'API WordPress REST, car cela peut permettre aux spammeurs de récupérer plus facilement votre contenu.

Nous avons un guide détaillé sur la façon dont vous pouvez désactiver l'API WordPress REST.

Tout ce que vous avez à faire est d'installer et d'activer le plug-in gratuit WPCode et d'utiliser leur extrait prédéfini pour désactiver l'API REST.

4. Bloquez l'accès du scraper à votre site Web WordPress

Une façon d'empêcher les scrapers de voler votre contenu est de leur retirer l'accès à votre site Web. Vous pouvez le faire manuellement en bloquant leur adresse IP, mais la plupart des utilisateurs trouveront plus facile d'utiliser un plugin de sécurité tel qu'un pare-feu d'application Web.

Bloquer le scraper à l'aide d'un plugin de sécurité (recommandé)

Le blocage manuel des racleurs est délicat et demande beaucoup de travail. D'autant plus que de nombreuses tentatives de piratage et attaques sont effectuées à l'aide d'un large éventail d'adresses IP aléatoires du monde entier. Il est presque impossible de suivre toutes ces adresses IP aléatoires.

C'est pourquoi vous avez besoin d'un pare-feu d'application Web (WAF) tel que WordFence ou Securi. Ceux-ci agissent comme un bouclier entre votre site Web et tout le trafic entrant en surveillant le trafic de votre site Web et en bloquant les menaces de sécurité courantes avant qu'elles n'atteignent votre site WordPress.

Pour le site Web WPBeginner, nous utilisons Sucuri. Il s'agit d'un service de sécurité de site Web qui protège votre site Web contre de telles attaques à l'aide d'un pare-feu d'application de site Web.

Fondamentalement, tout le trafic de votre site Web passe par les serveurs du service de sécurité où il est examiné pour détecter toute activité suspecte. Ils empêchent automatiquement les adresses IP suspectes d'atteindre votre site Web. Découvrez comment Sucuri nous a aidés à bloquer 450 000 attaques WordPress en 3 mois.

Bloquer ou rediriger manuellement l'adresse IP du scraper

Les utilisateurs avancés peuvent également souhaiter bloquer manuellement l'adresse IP d'un scraper. C'est plus de travail, mais vous pouvez cibler spécifiquement l'adresse du scraper une fois que vous l'avez apprise. Le développeur Web Jeff Star suggère cette approche lorsqu'il a écrit sur la façon dont il gère les scrapers de contenu.

Remarque : L'ajout de code aux fichiers du site Web peut être dangereux. Même une petite erreur peut entraîner des erreurs majeures sur votre site. C'est pourquoi nous ne recommandons cette méthode qu'aux utilisateurs avancés.

Vous pouvez trouver l'adresse IP du scraper en visitant "Raw Access Logs" dans le tableau de bord cPanel de votre compte d'hébergement WordPress. Vous devez rechercher les adresses IP avec un nombre anormalement élevé de requêtes et en conserver une trace, par exemple en les copiant dans un fichier texte séparé.

Blocking the Scraper's IP Address

Conseil : vous devez vous assurer que vous ne bloquez pas l'accès à votre site Web, à vous-même, aux utilisateurs légitimes ou aux moteurs de recherche. Copiez une adresse IP suspecte et utilisez des outils de recherche IP en ligne pour en savoir plus à son sujet.

Une fois que vous êtes sûr que l'adresse IP appartient à un scraper, vous pouvez la bloquer à l'aide de l'outil cPanel 'IP Blocker', ou en ajoutant un code comme celui-ci dans votre fichier racine .htaccess :

Deny from 123.456.789

Assurez-vous de remplacer l'adresse IP dans le code par celle que vous souhaitez bloquer. Vous pouvez bloquer plusieurs adresses IP en les saisissant sur la même ligne séparées par des espaces.

Pour des instructions détaillées, consultez notre guide sur la façon de bloquer les adresses IP dans WordPress.

Au lieu de simplement bloquer les grattoirs, Jeff suggère que vous pourriez leur envoyer des flux RSS factices à la place. Vous pouvez créer des flux remplis de Lorem Ipsum et d'images gênantes, ou même les renvoyer directement sur leur propre site Web, provoquant une boucle infinie et faisant planter leur serveur.

Pour les rediriger vers un flux factice, vous devrez ajouter un code comme celui-ci à votre fichier .htaccess :

RewriteCond %{REMOTE_ADDR} 123\.456\.789\.
RewriteRule .* http://dummyfeed.com/feed [R,L]

5. Empêcher le vol d'images dans WordPress

Ce n'est pas seulement votre contenu écrit que vous devez protéger. Vous devez également empêcher le vol d'images dans WordPress.

Comme pour le texte, il n'y a aucun moyen d'empêcher complètement les gens de voler vos images, mais il existe de nombreuses façons de décourager le vol d'images sur un site Web WordPress.

Par exemple, vous pouvez désactiver le hotlinking de vos images WordPress. Cela signifie que si quelqu'un gratte votre contenu, ses images ne se chargeront pas sur son site.

Cela réduira également la charge de votre serveur et l'utilisation de la bande passante, augmentant ainsi la vitesse et les performances de votre WordPress.

Alternativement, vous pouvez ajouter un filigrane à vos images qui vous donne du crédit. Cela indiquera clairement que le grattoir a volé votre contenu.

Vous pouvez apprendre ces deux techniques ainsi que d'autres façons de protéger vos images dans notre guide sur 4 façons de prévenir le vol d'images dans WordPress.

6. Décourager la copie manuelle de votre contenu

Alors que la plupart des scrapers utilisent des outils automatiques, certains voleurs de contenu peuvent essayer de copier manuellement tout ou partie de votre contenu.

Une façon de rendre cela plus difficile est de les empêcher de copier et coller votre texte. Vous pouvez le faire en leur rendant plus difficile la sélection du texte sur votre site Web.

Pour savoir comment arrêter la copie manuelle de votre contenu, consultez notre guide étape par étape sur la façon d'empêcher la sélection de texte et le copier/coller dans WordPress.

Cependant, cela ne protégera pas complètement votre contenu. N'oubliez pas que les utilisateurs férus de technologie peuvent toujours afficher le code source ou utiliser l'outil Inspecter pour copier tout ce qu'ils veulent. De plus, cette méthode ne fonctionnera pas avec tous les navigateurs Web.

Gardez également à l'esprit que tout le monde qui copie votre texte ne sera pas un voleur de contenu. Par exemple, certaines personnes peuvent vouloir copier le titre pour partager votre publication sur les réseaux sociaux.

C'est pourquoi nous vous recommandons de n'utiliser cette méthode que si vous pensez qu'elle est vraiment nécessaire pour votre site.

7. Profitez des grattoirs de contenu

Au fur et à mesure que votre blog s'agrandit, il est presque impossible d'arrêter ou de suivre tous les scrapers de contenu. Nous envoyons toujours des plaintes DMCA. Cependant, nous savons qu'il existe des tonnes d'autres sites qui volent notre contenu que nous ne pouvons tout simplement pas suivre.

Au lieu de cela, notre approche consiste à essayer de tirer parti des récupérateurs de contenu. Ce n'est pas si mal quand vous voyez que vous gagnez de l'argent grâce à votre contenu volé ou que vous recevez beaucoup de trafic sur le site Web d'un scraper.

Faites des liens internes une habitude pour gagner du trafic et des backlinks à partir des scrapers

Dans notre guide ultime sur le référencement, nous vous recommandons de prendre l'habitude de créer des liens internes. En plaçant des liens vers vos autres contenus dans les articles de votre blog, vous pouvez augmenter le nombre de pages vues et réduire le taux de rebond sur votre propre site.

Mais il y a un deuxième avantage quand il s'agit de gratter. Les liens internes vous permettront d'obtenir des backlinks précieux de la part des personnes qui volent votre contenu. Les moteurs de recherche comme Google utilisent les backlinks comme signal de classement, donc les backlinks supplémentaires sont bons pour votre référencement.

Enfin, ces liens internes permettent de voler l'audience du scraper. Les blogueurs talentueux placent des liens sur des mots-clés intéressants, ce qui incite les utilisateurs à cliquer. Les visiteurs du site Web du scraper cliqueront également sur les liens, ce qui les ramènera directement à votre propre site Web.

Mots-clés de lien automatique avec des liens d'affiliation pour gagner de l'argent avec les grattoirs

Si vous gagnez de l'argent sur votre site Web grâce au marketing d'affiliation, nous vous recommandons d'activer la liaison automatique dans vos flux RSS. Cela vous aidera à maximiser vos revenus auprès des lecteurs qui ne lisent votre site Web que via des lecteurs RSS.

Mieux encore, cela vous aidera à gagner de l'argent grâce aux sites qui volent votre contenu.

Utilisez simplement un plugin comme ThirstyAffiliates qui remplacera automatiquement les mots-clés attribués par des liens d'affiliation. Nous vous montrons comment dans notre guide sur la façon de lier automatiquement des mots-clés avec des liens d'affiliation dans WordPress.

Faites la promotion de votre site Web dans votre pied de page RSS

Vous pouvez utiliser le plugin All in One SEO pour ajouter des éléments personnalisés à votre pied de page RSS. Par exemple, vous pouvez ajouter une bannière qui fait la promotion de vos propres produits, services ou contenus.

AIOSEO RSS feed footer save

La meilleure partie est que ces bannières apparaîtront également sur le site Web du scraper.

Dans notre cas, nous ajoutons toujours une petite clause de non-responsabilité au bas des messages dans nos flux RSS. En faisant cela, nous obtenons un backlink vers l'article original du site du scraper.

Cela permet à Google et aux autres moteurs de recherche de savoir que nous sommes l'autorité. Cela permet également à leurs utilisateurs de savoir que le site vole notre contenu.

Pour plus de conseils, consultez notre guide sur la façon de contrôler le pied de page de votre flux RSS dans WordPress.

Nous espérons que ce didacticiel vous a aidé à apprendre à empêcher le scraping de contenu de blog dans WordPress. Vous pouvez également consulter notre guide de sécurité WordPress ultime ou consulter notre liste des meilleures solutions d'analyse pour WordPress.

Si vous avez aimé cet article, veuillez vous abonner à notre chaîne YouTube pour les didacticiels vidéo WordPress. Vous pouvez également nous retrouver sur Twitter et Facebook.