Cómo evitar el raspado de contenido del sitio web en WordPress
Publicado: 2023-01-19¿Le preocupa que alguien pueda tomar contenido de su sitio web y usarlo sin su permiso?
El raspado de sitios web, también conocido como raspado de contenido, es un problema común para muchos propietarios de sitios web, y los usuarios de WordPress pueden experimentarlo con más frecuencia que otros.
Según un estudio, el 85 % de las imágenes compartidas en línea son robadas y alrededor del 90 % de todos los sitios web extraen contenido de otros sitios web.
Afortunadamente, hay formas de evitar el raspado de contenido en su sitio de WordPress.
En este artículo, analizaré algunas estrategias viables y exitosas para salvaguardar y controlar el contenido de su sitio web.
¿Qué es el raspado de contenido?
El raspado de contenido es el acto de extraer contenido de sitios web utilizando herramientas automatizadas sin el consentimiento del propietario del sitio web.
Los piratas informáticos y los spammers suelen utilizar este método para volver a publicar contenido en otros sitios web o para recopilar datos personales.
Estos son algunos ejemplos de extracción de contenido:
1. Raspado de artículos: robar artículos de blogs o fuentes de noticias y volver a publicarlos sin permiso en otros sitios web utilizando complementos de WordPress para blogs automáticos.
2. Raspado de precios: robar precios de sitios de comercio electrónico y usarlos para socavar al vendedor original.
3. Raspado de contactos : Extraer información de contacto de sitios web y usarla para enviar spam o mensajes de phishing. Debe ocultar o codificar las direcciones de correo electrónico para detener el raspado de contactos en su sitio.
4. Raspado de búsqueda: uso de resultados de motores de búsqueda que se han raspado para mejorar la clasificación de otros sitios web.
5. Raspado social: robar información de las plataformas de redes sociales y usarla para crear cuentas falsas o hacerse pasar por otra persona.
Los propietarios de sitios web que se involucran en el raspado de contenido corren el riesgo de perder visitantes y dinero y empañar su reputación.
Puede usar herramientas como protección de contenido, CAPTCHA y bloqueo de IP para bloquear el tráfico a su sitio web, para que no lo raspen.
¿Por qué los raspadores de contenido roban el contenido de su sitio?
El scraping de contenido es un problema común al que se enfrentan los propietarios de sitios web.
Pero, ¿por qué los rastreadores de contenido roban el contenido de su sitio? Aquí hay cinco razones:
1. Beneficio: los raspadores pueden raspar su contenido para volver a publicar y monetizar sus propios sitios web mediante el pago de publicidad o la reventa de anuncios.
2. Conveniencia: los raspadores de contenido le permiten llenar rápidamente su sitio web con contenido sin tener que crear uno propio porque copian contenido de otros sitios.
3. Optimización de motores de búsqueda: los rastreadores de contenido pueden robar el contenido de su sitio para mejorar su propia clasificación en los motores de búsqueda.
4. Falta de originalidad: algunos extractores de contenido roban contenido debido a la falta de originalidad o creatividad.
5. Competencia: algunos rastreadores de contenido roban contenido para competir con su sitio o para socavar su negocio.
Además de afectar negativamente la clasificación de los motores de búsqueda de su sitio, el raspado de contenido también puede hacer que su empresa pierda ingresos.
¿Cómo atrapar raspadores de contenido?
El raspado de contenido puede ser un problema importante para los bloggers y los propietarios de sitios web. Pero, ¿cómo puedes atrapar raspadores de contenido?
Aquí hay seis consejos para identificar y lidiar con el raspado de contenido:
1. Use complementos protectores de contenido : puede evitar que las personas copien su contenido con complementos protectores de contenido. Si no quiere hacer eso, puede dejar que copien el enlace de referencia junto con el contenido y finalmente encontrar a sus usuarios de esa manera.
2. Use Copyscape: esta herramienta puede ayudarlo a encontrar instancias de contenido de su sitio web que se usa en otros sitios sin su permiso.
3. Supervise el tráfico de su sitio web: Esté atento a los análisis de su sitio web para ver si ha habido un aumento repentino en el tráfico de una determinada fuente de referencia.
4. Configure las alertas de Google: puede recibir alertas de esta herramienta cuando el contenido de su sitio web aparece en otros sitios web.
5. Use Wayback Machine: al permitirle ver iteraciones anteriores de un sitio web, esta herramienta puede ayudarlo a detectar instancias en las que se agregó contenido a un sitio web sin su consentimiento.
6. Use marcas de agua: las imágenes y videos con marcas de agua pueden desalentar a los rastreadores de contenido porque les dificulta más usar su contenido de manera encubierta.
Es importante tener en cuenta que puede ser difícil detectar todos los casos de raspado de contenido y que es mejor prevenir que curar.
Al combinar estos métodos, puede aumentar las posibilidades de capturar raspadores de contenido y proteger el contenido de su sitio web. Estén atentos para obtener más información sobre cómo prevenir el raspado de contenido.
11 formas de proteger su sitio de WordPress de los raspadores de contenido
Esta es la nueva normalidad para robar su contenido, y muchos simplemente están lidiando con eso. Casi todo el mundo ha experimentado el robo de contenido.
Evitar que se extraiga todo el contenido es casi imposible, pero eso no significa que no podamos ponérselo más difícil. Además, estos métodos previenen a la mayoría de los usuarios, incluidos algunos expertos.
Si crea contenido original y bueno, existe una alta probabilidad de que su contenido se raspe. Traté de mostrarle métodos para evitar el raspado de contenido en este artículo.
También escribí un artículo para informarle sobre los métodos más efectivos para evitar el robo de contenido en su sitio web; Asegúrese de comprobarlo.
Método 1: deshabilite Hotlinking en WordPress
Hotlinking es una forma común de usar su contenido en su sitio web. Con hotlinking, usan su publicación, página o enlace de medios para mostrarlo directamente en su sitio web.
Al vincular, no solo están usando su contenido sin su consentimiento, sino que también están usando el ancho de banda de su host para mostrárselo a su audiencia.
Sugiero usar WPShield Content Protector para deshabilitar los enlaces directos, que ofrece un protector seguro para evitar los enlaces directos.
Para deshabilitar la vinculación activa de iFrame, siga estos pasos:
Paso 1: Descarga el protector de contenido WPShield.
Paso 2: Vaya al panel de control de WordPress e instale el complemento desde Complementos → Agregar nuevo .
Paso 3: Ve a WP Shield → Configuración .
Paso 4: abra iFrame Hotlink Protector y encienda iFrame Hotlink Protector .
Paso 5: Este protector ofrece cuatro protocolos con diferentes niveles de seguridad.
Elija el mejor protocolo en función de su necesidad:
- Mostrar mensaje emergente en solicitudes de iFrame: este protocolo muestra un mensaje emergente en el iFrame solicitado. Este protocolo no es 100% seguro, y otros protocolos son más adecuados si busca opciones más seguras.
- Bloquear y mostrar una página en blanco en iFrames: este protocolo bloquea la solicitud de iFrame y muestra una página en blanco. Este protocolo es la opción más segura.
- Mostrar un copyright de marca de agua en las solicitudes de iFrame: este protocolo muestra una marca de agua en la parte superior de la página solicitada. Elija la imagen y su opacidad en la sección Marca de agua en páginas iFrame . Este protocolo tiene la mejor UX asegurándose de que su audiencia tenga una buena experiencia en su sitio web.
- Redirigir la solicitud de iFrame a la página personalizada: puede hacer que se muestre una página personalizada en lugar del iFrame solicitado. Esta página puede mostrar lo que tiene en su sitio web o un descargo de responsabilidad sobre el robo de contenido. Seleccione la página personalizada en Redirigir a la página .
Los ladrones pueden usar su enlace de medios para activar un enlace en su sitio web. La vinculación de medios ocurre con frecuencia y puede disminuir la velocidad de su servidor si sucede mucho.
Nota importante: le sugiero que lea nuestra guía definitiva para deshabilitar los enlaces directos en WordPress porque explicamos todos los métodos para deshabilitar los enlaces directos, incluidos video, audio e imágenes también.
Método 2: limitación de velocidad y bloqueo
La limitación de velocidad es una técnica que limita la cantidad de solicitudes que un usuario o dirección IP puede realizar a su sitio web dentro de un período determinado.
Esto puede evitar que los raspadores abrumen su servidor con una gran cantidad de solicitudes, lo que puede causar daños y ralentizar su sitio web para usuarios legítimos.
El bloqueo, por otro lado, es una técnica que niega el acceso a su sitio web en función de ciertos criterios, como la dirección IP o el agente de usuario.
Esto se puede usar para bloquear raspadores conocidos o direcciones IP que realizan demasiadas solicitudes, evitando intentos de raspado incluso antes de que lleguen a su servidor.
Cuando se usan juntos, la limitación de velocidad y el bloqueo pueden ser un método efectivo para prevenir el raspado de contenido. Es como un portero en la puerta, que permite que solo los usuarios legítimos accedan a su sitio web mientras bloquea a los que están allí para causar problemas.
La mejor manera de agregar limitación de velocidad es mediante el uso de complementos de seguridad. Puede consultar nuestra lista de los mejores complementos de seguridad de WordPress para obtener más información.
Método 3: use un complemento de protección contra copia de contenido y deshabilite el clic derecho
Hacer clic derecho es probablemente el primer método que usan los ladrones para robar el contenido de un sitio web. Deshabilitar el clic derecho puede evitar que los usuarios normales roben su contenido.
Nota: Deshabilitar el clic derecho puede disminuir la UX y hacer que su audiencia real abandone su sitio web.
Uso WPShield Content Protector para deshabilitar el clic derecho en este artículo.
WPShield Content Protector también puede limitar el menú contextual. Esta opción protege su contenido y garantiza que la UX del sitio web no se vea afectada. A continuación, explicaré ambas opciones; elegir en función de sus necesidades.
Para evitar hacer clic derecho en su sitio web, siga estos pasos:
Paso 1: Ve a WP Shield → Configuración .
Paso 2: Vaya a Right Click Protecto r y habilite Right Click Menu Protector .
Paso 3: En este protector, puedes optar por deshabilitar o limitar el menú contextual .
Elija un protocolo basado en su necesidad:
- Deshabilitar completamente el menú contextual del clic derecho: este protocolo elimina el clic derecho en su sitio web. Es un método muy seguro pero disminuye la experiencia del usuario (UX).
- Limitador de menú contextual: este protocolo limita el menú contextual en lugar de desactivarlo. Los ladrones no pueden abusar de las opciones de clic derecho para robar su contenido, pero los usuarios normales pueden usar su función, como el enlace de apertura en una nueva pestaña.
Así es como se ve el menú contextual limitado.
Nota importante: para obtener más información, puede consultar nuestra guía definitiva para deshabilitar el clic derecho en WordPress, donde explicamos más información y métodos.
Método 4: deshabilitar o limitar las fuentes RSS
Los complementos de automatización y los bots usan enlaces de fuentes RSS para robar su contenido, por lo que debe deshabilitar o limitar el enlace RSS.
WPShield Content Protector puede ayudarlo a evitar el raspado de sitios web al limitar o deshabilitar las fuentes RSS.
Para deshabilitar o restringir la fuente RSS, siga estos pasos:
Paso 1: Ve a WP Shield → Configuración .
Paso 2: Vaya a Feed Protector y habilite Feed Protector .
Paso 3: en este protector, puede deshabilitar o limitar la fuente RSS.
Elija un protocolo basado en su necesidad:
- Deshabilitar y redirigir URL de fuentes a páginas normales: este protocolo deshabilita por completo el enlace RSS y redirige al usuario a la página estándar.
- Mostrar solo extractos de publicaciones en fuentes: este protocolo solo muestra el extracto de la publicación y elimina el contenido de la publicación. Este protocolo tiene la mejor UX.
- Error de página no encontrada 404 para todas las solicitudes de alimentación: este protocolo muestra un error de página no encontrada 404 para todas las solicitudes de alimentación. Este método es altamente seguro.
Otro método efectivo es agregar un aviso de derechos de autor al contenido de su fuente RSS. Puede agregar un enlace a su sitio web y obtener un vínculo de retroceso u obtener crédito.
Para agregar un aviso de derechos de autor en el contenido de la fuente RSS, haga lo siguiente:
Paso 1: Ve a WP Shield → Configuración .
Paso 2: Vaya a Feed Protector y habilite Feed Protector .
Paso 3: agregue un aviso de derechos de autor antes de publicar contenido en la fuente o un aviso de derechos de autor después de publicar contenido en la fuente .
Método 5: agregue muchos enlaces internos
Hacer que sea un desafío para los raspadores acceder a todo su contenido a la vez es una de las mejores maneras para que los propietarios de sitios web detengan el raspado de contenido.
Aquí hay algunos consejos para agregar enlaces internos a su sitio web de WordPress:
1. Enlace a contenido antiguo: cuando publique contenido nuevo, enlace a contenido anterior que sea relevante para el tema en cuestión. Puede usar complementos de creación de enlaces internos de WordPress como LinkWhisper para hacer esto automáticamente. Esto mantendrá a los usuarios en su sitio web por más tiempo y hará que sea más difícil para los raspadores acceder a todo su contenido a la vez.
2. Usar texto ancla: El texto ancla es el texto que se muestra como enlace. Use palabras o frases descriptivas en su texto de anclaje para dar a los usuarios una idea de la página vinculada.
3. Usa categorías y etiquetas: WordPress tiene categorías y etiquetas integradas que puedes usar para organizar tu contenido. Úselos para vincular contenido relacionado y dificultar que los raspadores accedan a todo su contenido a la vez.
4. Use complementos de publicaciones relacionadas: una excelente manera de agregar enlaces internos sin tener que hacerlo manualmente es mediante el uso de uno de los muchos complementos de publicaciones relacionadas para WordPress, que pueden vincularse automáticamente al contenido relacionado en su sitio web.
Es importante tener en cuenta que agregar enlaces internos por sí solo puede no ser una solución infalible para evitar el raspado de contenido. Siempre es bueno tener varias capas de protección.
Puede mejorar la seguridad de su sitio web y proteger a sus usuarios combinando varias técnicas como la limitación de velocidad, el bloqueo y la adición de enlaces internos.
Método 6: Evitar el robo de imágenes
Si usted es un fotógrafo con fotos originales en su sitio web, siempre le preocupa que le roben sus fotos, y sí, ¡debería ser así!
Según CopyTrack, cada día se roban aproximadamente 2500 millones de imágenes, es decir, el 85 % de todas las imágenes compartidas, ¡lo cual es impactante!
Puede usar WPShield Content Protector para evitar el robo de imágenes en su sitio web. Este complemento ofrece diferentes opciones para garantizar que sus fotos estén seguras.
Para evitar el robo de imágenes, siga estos pasos:
Paso 1: Ve a WP Shield → Configuración .
Paso 2: Vaya a Image Protector y habilite Image Theft Protector.
Paso 3: Image Protector ofrece diferentes opciones para proteger sus imágenes.
Activa las opciones que se ajusten a tus necesidades:
- Deshabilitar el clic derecho en las imágenes: puede deshabilitar el clic derecho en la imagen para que nadie pueda descargarla. Esta opción puede disminuir la UX del sitio web. Le sugiero que limite el menú contextual en lugar de deshabilitarlo para mejorar la UX del sitio web.
- Desactivar arrastrar y soltar imágenes: los ladrones pueden arrastrar y soltar imágenes para descargarlas o cargarlas en otra fuente. Este protocolo garantiza que la función de arrastrar y soltar esté deshabilitada en las imágenes.
- Eliminar enlace de anclaje alrededor de imágenes: este protocolo elimina cualquier enlace que apunte a la versión completa o lightbox de la imagen.
- Protección de enlaces directos para imágenes: algunos ladrones pueden usar el enlace de su imagen para mostrarlo en su sitio web. Este protocolo bloquea cualquier solicitud de recursos externos que soliciten cargar la imagen.
Hotlink Protection for Images no bloquea los motores de búsqueda como Google y solo bloquea las solicitudes de los sitios web regulares.
Nota importante: si desea saber más sobre cómo prevenir el robo de imágenes en su sitio web, escribí un tutorial completo sobre cómo proteger las imágenes en el sitio web de WordPress.
Método 7: instalar el complemento Recaptcha
Para desechar contenido, un bot necesita acceder a su sitio web. al bloquear los bots de su sitio web, puede asegurarse de que la mayoría de ellos no puedan transmitir el contenido de su sitio web.
Puede usar un complemento de WordPress ReCaptcha para evitar el raspado de contenido.
ReCAPTCHA es una forma avanzada de CAPTCHA que puede distinguir entre robots y usuarios humanos.
Pasar la prueba requiere que los usuarios seleccionen una casilla de verificación para indicar que no son robots. Pasarán inmediatamente o se les presentarán múltiples imágenes para que coincidan.
Método 8: instalar un complemento de seguridad
Puede proteger su sitio web de los raspadores de contenido instalando un complemento de seguridad de WordPress como Sucuri. Si desea que se extraiga su contenido, los raspadores de contenido deben visitar su sitio.
WordFence y Sucuri son dos de los principales complementos de seguridad de WordPress.
Es común que los rastreadores visiten páginas más rápidamente y envíen más solicitudes HTTP que los visitantes humanos. Sin embargo, a menudo tienen sesiones de visualización de páginas más cortas.
Los complementos de seguridad están diseñados para detectar comportamientos sospechosos como este.
Una vez instalado, buscará signos de actividad de bots mientras monitorea el tráfico en su sitio web. Si el complemento de seguridad cree que el visitante es un bot, bloqueará todo el tráfico de esa dirección IP.
Método 9: Bloquear IP de Web Scraping Bots
Primero debe instalar Wordfence Premium.
Le pediremos a Wordfence que registre los hosts de IP y los agentes de visitantes que visitan su sitio, luego filtre los bots de raspado web.
Paso 1: Instale el modo de tráfico en vivo . Vas a Wordfence → Herramientas y luego lo instalas.
Paso 2: filtra los robots de raspado para bloquearlos. Haga clic en Mostrar filtros avanzados → Seleccionar URL → contiene → fuente para ver qué robots de web scraping han accedido a su URL de fuente RSS
Los bots de web scraping tienen las siguientes características:
- El nombre del agente de usuario generalmente significa que es un poco. Sin embargo, a veces tienen nombres humanos, lo que los hace más difíciles de encontrar.
- Visitan tu sitio web en un tiempo repetitivo y regular, como cada 5 o 10 minutos.
- Ni el nombre de host ni el agente de usuario contienen palabras como fuente, contenido o periódico.
Cómo evitar el bloqueo de bots amigos:
- El nombre de host del bot de Google es crawl-X.googlebot.com y X es la IP del bot. Cualquier nombre de host con la palabra "google" pero no googlebot.com puede ser falso.
- Además de las páginas que ha creado marcadores o vínculos de retroceso, el nombre del bot a menudo contendrá el nombre del sitio web o el nombre del dominio. Recuerda comparar la página en la que creas marcadores o vínculos de retroceso.
Paso 3: Ir a Wordfence → Bloqueo → Patrón personalizado para agregar un comando.
Método 10: Agregar marca de agua a las imágenes
Una forma de evitar el robo de imágenes es agregar una marca de agua a sus imágenes. Puede usar un complemento de marca de agua de WordPress.
Hay artículos detallados sobre cómo agregar automáticamente una marca de agua a una imagen en WordPress que le brindan instrucciones paso a paso.
Hay tres ingresos por poner marcas de agua en tus imágenes:
- No usarán tu imagen y estará protegida.
- Prueban una aplicación de Photoshop que disminuye la calidad de la imagen.
- Usan su foto con una marca de agua, lo que le da crédito a su trabajo, y la audiencia conocerá al creador.
Método 11: Solicite manualmente a Google que indexe sus artículos después de publicarlos
Una forma de evitar el scraping de contenido es asegurarse de que los motores de búsqueda, como Google, indexen sus artículos tan pronto como se publiquen.
Estos son los pasos para pedir manualmente a Google que indexe sus artículos:
Paso 1: Ve a la consola de búsqueda de Google .
Paso 2: pegue la URL del nuevo artículo en el cuadro de búsqueda y verifique la URL.
Paso 3: Haga clic en Solicitar indexación .
Es importante tener en cuenta que este método no garantiza que Google indexará su artículo de inmediato, pero puede acelerar el proceso.
Además, es una buena idea usar el complemento de indexación instantánea para Google, que indexa las publicaciones una vez que las publica.
Otro consejo es que también puede enviar su mapa del sitio a Google usando la función "Mapas del sitio" en la consola de búsqueda.
Esto ayudará a Google a encontrar e indexar todas las páginas de su sitio web, incluidos los artículos publicados recientemente.
Cómo aprovechar los raspadores de contenido
Si bien el scraping de contenido es una herramienta muy útil, se le pueden dar otros usos.
Aquí hay cinco consejos para hacerlo:
1. Utilice el contenido copiado para mejorar su clasificación en los motores de búsqueda:
El contenido duplicado puede ser el resultado de raspar el contenido de su sitio web, lo que aumenta la probabilidad de que los motores de búsqueda lo indexen y, como resultado, bajen la clasificación de su sitio.
Pero puede informar a los motores de búsqueda qué versión del contenido es la original y debe tener preferencia mediante el uso de una etiqueta canónica.
2. Utilice contenido extraído como una forma de publicidad gratuita:
Si su contenido se raspa, significa que una audiencia más amplia lo está viendo. Puede usar esto a su favor al incluir enlaces a su sitio dentro del contenido extraído.
3. Use contenido extraído como una forma de generar vínculos de retroceso:
Si su contenido se raspa, es probable que contenga enlaces a su sitio, ya que los vínculos de retroceso son un componente crucial de la optimización de motores de búsqueda.
Esto puede ayudar a aumentar la visibilidad de su sitio y la clasificación en los motores de búsqueda.
4. Utilice el contenido extraído como una forma de generar clientes potenciales:
Si su contenido se raspa, es probable que incluya un enlace a su sitio. Puede usar esto como una oportunidad para generar clientes potenciales al incluir un llamado a la acción dentro del contenido extraído.
5. Use contenido extraído como una forma de establecerse como una autoridad en su industria:
Si su contenido se raspa, es probable que una gran audiencia lo vea y puede aprovechar esto al incluir su información de contacto dentro del contenido raspado para posicionarse como una autoridad en su campo.
Conclusión
En este artículo, hablé sobre el raspado de contenido, por qué necesita presentar el raspado de contenido, cómo deshabilitar el robo de contenido y métodos alternativos para proteger su contenido.
Use WPShield Content Protector, que garantiza que su contenido esté seguro y puede evitar el raspado de contenido con sus características únicas.
Gracias por leer este artículo hasta el final. Avíseme si conoce algún método alternativo para evitar el raspado de contenido y si tiene alguna experiencia con el robo de su contenido.
Siga a BetterStudio en Facebook y Twitter para ser el primero en conocer mis nuevos artículos.