如何防止 WordPress 中的网站内容被抓取
已发表: 2023-01-19您是否担心有人会在未经您许可的情况下从您的网站获取内容并使用它?
网站抓取,也称为内容抓取,是许多网站所有者的常见问题,WordPress 用户可能比其他人更频繁地遇到它。
根据一项研究,85% 的在线共享图片被盗,大约 90% 的网站从其他网站抓取内容。
幸运的是,有一些方法可以防止 WordPress 网站上的内容被抓取。
在本文中,我将介绍一些可行且成功的策略来保护和控制您网站上的内容。
什么是内容抓取?
内容抓取是在未经网站所有者同意的情况下使用自动化工具从网站中提取内容的行为。
黑客和垃圾邮件发送者经常使用此方法在其他网站上重新发布内容或收集个人数据。
以下是内容抓取的一些示例:
1.文章抓取:从博客或新闻来源窃取文章,并在未经许可的情况下使用自动博客 WordPress 插件在其他网站上重新发布。
2. Price scraping:窃取电子商务网站的价格并以此来压低原卖家的价格。
3.联系人抓取:从网站抓取联系信息并用它来发送垃圾邮件或钓鱼邮件。 您应该隐藏或编码电子邮件地址以停止在您的网站上抓取联系人。
4.搜索抓取:利用搜索引擎抓取的结果来提升其他网站的排名。
5. Social scraping:从社交媒体平台窃取信息并用它来制作假账户或冒充他人。
从事内容抓取的网站所有者可能会失去访问者和金钱,并损害他们的声誉。
您可以使用内容保护、验证码和 IP 阻止等工具来阻止访问您网站的流量,这样您就不会被抓取。
为什么内容抓取工具会窃取您的网站内容?
内容抓取是网站所有者面临的常见问题。
但为什么内容抓取工具会窃取您网站的内容? 这里有五个原因:
1.利润:您的内容可以被爬虫抓取,通过付费广告或转售广告的方式重新发布自己的网站并从中获利
2.方便:内容抓取器让您可以快速地用内容填充您的网站,而无需创建您自己的任何内容,因为它们从其他网站复制内容
3.搜索引擎优化:内容抓取工具可能会窃取您网站的内容以提高自己的搜索引擎排名。
4.缺乏原创性:一些内容抓取器由于缺乏原创性或创造力而窃取内容。
5.竞争:一些内容抓取工具窃取内容以与您的网站竞争或破坏您的业务。
除了对您网站的搜索引擎排名产生负面影响外,内容抓取还会导致您的业务损失收入
如何捕捉内容抓取器?
内容抓取对于博主和网站所有者来说可能是一个主要问题。 但是你怎么能抓住内容抓取者呢?
以下是识别和处理内容抓取的六个技巧:
1.使用内容保护插件:您可以阻止人们使用内容保护插件复制您的内容。 如果你不想那样做,你可以让他们复制参考链接和内容,最后通过这种方式找到你的用户。
2.使用 Copyscape:此工具可以帮助您找到未经您许可在其他网站上使用您网站内容的实例。
3.监控您网站的流量:密切关注您网站的分析,看看来自某个推荐来源的流量是否突然增加。
4.设置 Google Alerts:当您网站的内容出现在其他网站上时,您可以从该工具收到警报。
5.使用 Wayback Machine:通过允许您查看网站的先前迭代,此工具可以帮助您发现未经您同意将内容添加到网站的实例。
6.使用水印:给图片和视频加水印可以阻止内容抓取者,因为这让他们更难以秘密使用您的内容。
重要的是要注意,很难捕捉到每一个内容抓取实例,而且预防胜于治疗。
通过结合使用这些方法,您可以增加捕获内容抓取器和保护您网站内容的机会。 请继续关注以了解有关防止内容抓取的更多信息。
保护您的 WordPress 网站免受内容抓取工具侵害的 11 种方法
这是窃取您的内容的新常态,许多人只是在处理它。 几乎每个人都经历过内容盗窃。
防止所有内容被抓取几乎是不可能的,但这并不意味着我们不能让他们更难过。 此外,这些方法会阻止大多数用户,包括一些专家。
如果您制作原创且优质的内容,您的内容很有可能会被抓取。 在本文中,我试图向您展示防止内容抓取的方法。
我还写了一篇文章,让您了解防止网站内容被盗的最有效方法; 一定要检查一下。
方法 1:在 WordPress 中禁用热链接
盗链是在他们的网站上使用您的内容的一种常见方式。 通过热链接,他们使用您的帖子、页面或媒体链接直接在他们的网站上显示。
通过盗链,他们不仅在未经您同意的情况下使用您的内容,而且还在使用您的主机带宽将其展示给他们的观众。
我建议使用 WPShield Content Protector 来禁用盗链,它提供了一个安全保护器来防止盗链。
要禁用 iFrame 热链接,请按照下列步骤操作:
第 1 步:下载 WPShield 内容保护器。
第 2 步:转到 WordPress 仪表板并从Plugins → Add New安装插件。
第 3 步:转到WP Shield → 设置。
第 4 步:打开iFrame Hotlink Protector并打开iFrame Hotlink Protector 。
第 5 步:此保护器提供四种具有不同安全级别的协议。
根据您的需要选择最佳协议:
- 在 iFrame 请求中显示弹出消息:此协议在请求的 iFrame 上显示弹出消息。 该协议并非 100% 安全,如果您正在寻找更安全的选项,其他协议更合适。
- 在 iFrame 中阻止并显示空白页:此协议会阻止 iFrame 请求并显示空白页。 该协议是最安全的选择。
- 在 iFrame 请求上显示水印版权:此协议在请求的页面顶部显示水印。 在 iFrame 页面部分的水印中选择图像及其不透明度。 该协议具有最佳的用户体验,可确保您的受众在您的网站上获得良好的体验。
- 将 iFrame 请求重定向到自定义页面:您可以制作一个自定义页面来显示而不是请求的 iFrame。 此页面可以展示您网站上的内容或有关内容盗窃的免责声明。 在Redirect To Page中选择自定义页面。
窃贼可能会使用您的媒体链接在他们的网站上进行盗链。 盗链媒体经常发生,如果发生很多,可能会降低服务器速度。
重要说明:我建议您阅读我们关于在 WordPress 中禁用热链接的终极指南,因为我们解释了所有禁用热链接的方法,包括视频、音频和图像。
方法 2:速率限制和阻塞
速率限制是一种限制用户或 IP 地址在一定时期内可以向您的网站发出的请求数量的技术。
这可以防止爬虫通过大量请求使您的服务器不堪重负,这可能会对合法用户造成损害并降低您的网站速度。
另一方面,阻止是一种根据特定标准(例如 IP 地址或用户代理)拒绝访问您的网站的技术。
这可用于阻止发出过多请求的已知抓取程序或 IP 地址,以防止在它们到达您的服务器之前进行抓取尝试。
当一起使用时,速率限制和阻止可以成为防止内容抓取的有效方法。 它就像门口的保镖,只允许合法用户访问您的网站,同时阻止那些在那里制造麻烦的人。
添加速率限制的最佳方法是使用安全插件。 您可以查看我们的最佳 WordPress 安全插件列表以获取更多信息。
方法 3:使用内容复制保护插件并禁用右键单击
右键单击可能是盗贼用来窃取网站内容的第一种方法。 禁用右键单击可以防止普通用户窃取您的内容。
注意:禁用右键单击会降低用户体验并使真正的受众离开您的网站。
我使用 WPShield Content Protector 禁用本文中的右键单击。
WPShield Content Protector 还可以限制右键菜单。 此选项可保护您的内容,同时确保网站的用户体验不受影响。 在下文中,我将解释这两个选项; 根据您的需要选择。
要防止右键单击您的网站,请按照下列步骤操作:
第 1 步:转到WP Shield → 设置。
第 2 步:转到Right Click Protector并启用Right Click Menu Protector 。
第三步:在此保护器中,您可以选择禁用或限制右键菜单。
根据您的需要选择协议:
- 完全禁用右键单击上下文菜单:此协议消除了对您网站的右键单击。 这是一种非常安全的方法,但会降低用户体验 (UX)。
- Right Click Menu Limiter:该协议限制右键单击菜单而不是禁用它。 小偷不能滥用右键单击选项来窃取您的内容,但普通用户可以使用它的功能,例如在新选项卡中打开链接。
这就是有限的右键单击菜单的样子。
重要说明:有关更多信息,您可以查看我们在 WordPress 中禁用右键单击的最终指南,其中我们解释了更多信息和方法。
方法 4:禁用或限制 RSS 源
自动化插件和机器人使用 RSS 提要链接窃取您的内容,因此您需要禁用或限制 RSS 链接。
WPShield Content Protector 可以通过限制或禁用 RSS 提要帮助您防止网站抓取。
要禁用或限制 RSS 源,请执行以下步骤:
第 1 步:转到WP Shield → 设置。
第 2 步:转到Feed Protector并启用Feed Protector 。
第 3 步:在此保护器中,您可以禁用或限制 RSS Feed。
根据您的需要选择协议:
- 禁用 Feed URL 并将其重定向到普通页面:该协议完全禁用 RSS 链接并将用户重定向到标准页面。
- 在提要中仅显示帖子摘录:此协议仅显示帖子摘录并删除帖子内容。 该协议具有最佳的用户体验。
- 所有 Feed 请求的404 页面未找到错误:此协议显示所有 Feed 请求的 404 页面未找到错误。 这种方法是高度安全的。
另一种有效的方法是在 RSS Feed 内容中添加版权声明。 您可以将链接添加到您的网站并获得反向链接或获得信用。
要在 RSS 提要内容中添加版权声明,请执行以下操作:
第 1 步:转到WP Shield → 设置。
第 2 步:转到Feed Protector并启用 Feed Protector 。
第 3 步:在 Feed 中发布内容之前添加版权声明或在 Feed 中发布内容之后添加版权声明。
方法 5:添加大量内部链接
让爬虫难以一次访问您的所有内容是网站所有者停止内容爬虫的最佳方式之一。
以下是将内部链接添加到您的 WordPress 网站的一些提示:
1.链接到旧内容:当您发布新内容时,链接到与当前主题相关的旧内容。 您可以使用 WordPress 内部链接构建插件(如 LinkWhisper)来自动执行此操作。 这将使用户在您的网站上停留的时间更长,并使爬虫更难一次访问您的所有内容。
2.使用锚文本:锚文本是显示为链接的文本。 在锚文本中使用描述性词语或短语,让用户了解链接页面。
3.使用类别和标签: WordPress 具有内置的类别和标签,您可以使用它们来组织您的内容。 使用这些将相关内容链接在一起,使爬虫更难以一次访问您的所有内容。
4.使用相关帖子插件:无需手动添加内部链接的一种好方法是使用 WordPress 的众多相关帖子插件之一,它可以自动链接到您网站上的相关内容。
重要的是要注意,单独添加内部链接可能不是防止内容抓取的万无一失的解决方案。 拥有多层保护总是好的。
您可以通过结合各种技术(如速率限制、阻止和添加内部链接)来提高网站的安全性并保护您的用户。
方法 6:防止图像盗用
如果您是网站上有原始照片的摄影师,您总是担心您的照片被盗,是的,您应该担心!
据 CopyTrack 统计,每天约有 25 亿张图片被盗,占所有共享图片的 85%,令人震惊!
您可以使用 WPShield Content Protector 来防止您网站上的图像被盗。 此插件提供不同的选项以确保您的照片安全。
为防止图像被盗,请按照以下步骤操作:
第 1 步:转到WP Shield → 设置。
第 2 步:转到Image Protector并启用Image Theft Protector。
第 3 步: Image Protector 提供不同的选项来保护您的图像。
打开适合您需要的选项:
- 禁用右键单击图像:您可以禁用右键单击图像,这样就没有人可以下载它。 此选项会降低网站的用户体验。 我建议您限制右键单击菜单而不是禁用它以增强网站的用户体验。
- 禁用图像拖放:窃贼可能会拖放图像以将其下载或上传到其他来源。 该协议确保在图片上禁用拖放。
- 删除图像周围的锚链接:此协议删除指向图像的完整版本或灯箱的任何链接。
- 图像的热链接保护:一些小偷可能会使用您的图像链接在他们的网站上显示它。 该协议阻止来自外部资源的任何要求加载图像的请求。
Hotlink Protection for Images 不会阻止 google 等搜索引擎,只会阻止常规网站的请求。
重要说明:如果您想了解更多关于防止网站上的图像被盗的信息,我在 WordPress 网站上写了一个关于如何保护图像的完整教程。
方法七:安装Recaptcha插件
要抓取内容,机器人需要访问您的网站。 通过从您的网站阻止机器人程序,您可以确保它们中的大多数无法访问您网站的内容。
您可以使用 ReCaptcha WordPress 插件来防止内容抓取。
ReCAPTCHA 是一种高级形式的验证码,可以区分机器人和人类用户。
通过测试需要用户选择一个复选框以表明他们不是机器人。 他们将立即通过或呈现多张图像以进行匹配。
方法 8:安装安全插件
您可以通过安装 WordPress 安全插件(例如 Sucuri)来保护您的网站免受内容抓取工具的侵害。 如果您想要抓取您的内容,内容抓取工具必须访问您的网站。
WordFence 和 Sucuri 是两个顶级的 WordPress 安全插件。
与人类访问者相比,爬虫访问页面更快并发送更多 HTTP 请求是很常见的。 但是,他们的页面查看会话通常较短。
安全插件旨在检测此类可疑行为。
安装后,它将在监视您网站上的流量的同时寻找机器人活动的迹象。 如果安全插件认为访问者是机器人,它将阻止来自该 IP 地址的所有流量。
方法 9:阻止网页抓取机器人的 IP
您必须先安装 Wordfence Premium。
我们将要求 Wordfence 记录访问您网站的 IP 主机和访客代理,然后过滤掉网络抓取机器人。
第 1 步:安装实时交通模式。 您转到Wordfence → 工具,然后安装它。
第 2 步:过滤掉抓取机器人以阻止它们。 单击显示高级过滤器→选择网址→包含→ feed查看哪些网络抓取机器人访问了您的 RSS Feed URL
网页抓取机器人具有以下特点:
- 用户代理名称通常表示有点。 然而,有时他们有人类的名字,这使得他们更难找到。
- 他们以重复和固定的时间访问您的网站,例如每 5 或 10 分钟一次。
- 主机名和用户代理都不包含提要、内容或报纸等词。
如何避免阻止友好的机器人:
- Google bot 的主机名是 crawl-X.googlebot.com,X 是 bot 的 IP。 任何带有“google”但不是 googlebot.com 的主机名都可能是假的。
- Bot 在您创建书签或反向链接的页面中,bot 名称通常会包含网站名称或域名。 您在哪个页面上创建了书签或反向链接,您记得比较一下。
第 3 步:转到Wordfence → 阻塞→ 自定义模式以添加命令。
方法 10:为图像添加水印
防止图像被盗的一种方法是在图像中添加水印。 您可以使用 WordPress 水印插件。
有关于如何在 WordPress 中自动为图像添加水印的详细文章,为您提供分步说明
给图像加水印有三种收入:
- 他们不会使用您的图像,它会受到保护
- 他们尝试使用降低图像质量的 photoshop 应用程序
- 他们使用带水印的照片,这会给您的作品带来荣誉,观众会认识创作者。
方法 11:发布后手动要求 Google 索引您的文章
防止内容抓取的一种方法是确保搜索引擎(如 Google)在您的文章发布后立即为其编制索引。
以下是手动要求 Google 为您的文章编制索引的步骤:
第 1 步:转到Google Search Console 。
第 2 步:将新文章网址粘贴到搜索框中并查看网址。
第 3 步:点击请求索引。
需要注意的是,这种方法并不能保证 Google 会立即将您的文章编入索引,但可以加快这一过程。
此外,最好使用 Instant Indexing For Google 插件,它会在您发布帖子后对其进行索引。
另一个提示是,您还可以使用 Search Console 中的“站点地图”功能将您的站点地图提交给 Google。
这将有助于 Google 查找您网站上的所有页面并为其建立索引,包括您新发表的文章。
如何利用内容抓取工具
虽然内容抓取是一个非常有用的工具,但它还有其他用途。
以下是这样做的五个技巧:
1.使用复制的内容来提高您的搜索引擎排名:
重复内容可能是由于抓取您网站的内容而导致的,这增加了搜索引擎将其编入索引并因此降低您网站排名的可能性。
但是您可以让搜索引擎知道内容的哪个版本是原始的,并且应该通过使用规范标签给予优先权。
2.使用抓取的内容作为免费广告的一种形式:
如果您的内容被抓取,则意味着更多的观众正在看到它。 您可以通过在抓取的内容中包含返回您网站的链接来利用这一优势。
3.使用抓取的内容作为生成反向链接的方式:
如果您的内容被抓取,它可能包含返回您网站的链接,因为反向链接是搜索引擎优化的重要组成部分。
这有助于提高网站的知名度和搜索引擎排名。
4.使用抓取的内容作为产生潜在客户的方式:
如果您的内容被抓取,它很可能会包含一个返回您网站的链接。 您可以借此机会通过在抓取的内容中包含号召性用语来产生潜在客户。
5.使用抓取的内容来确立自己在行业中的权威地位:
如果您的内容被抓取,很可能会有大量观众看到它,您可以通过在抓取的内容中包含您的联系信息来利用这一点,将自己定位为您所在领域的权威。
结论
在本文中,我谈到了内容抓取、为什么需要呈现内容抓取、如何禁止内容窃取以及保护内容的替代方法。
使用 WPShield Content Protector,它可以确保您的内容安全,并可以通过其独特的功能防止内容被抓取。
感谢您阅读本文直到最后。 如果您知道任何防止内容抓取的替代方法,以及您是否有任何内容被盗的经验,请告诉我。
请在 Facebook 和 Twitter 上关注 BetterStudio,以便第一时间了解我的新文章。