爬虫列表:网络爬虫机器人以及如何利用它们取得成功
已发表: 2022-12-03对于大多数营销人员来说,需要不断更新以保持他们的网站新鲜并提高他们的 SEO 排名。
然而,一些网站有数百甚至数千页,这对于手动将更新推送到搜索引擎的团队来说是一个挑战。 如果内容更新如此频繁,团队如何确保这些改进影响他们的 SEO 排名?
这就是爬虫机器人发挥作用的地方。 网络爬虫机器人将抓取您的站点地图以获取新更新并将内容索引到搜索引擎中。
在这篇文章中,我们将概述一个全面的爬虫列表,涵盖您需要了解的所有网络爬虫机器人。 在我们深入之前,让我们定义网络爬虫机器人并展示它们的功能。
什么是网络爬虫?
网络爬虫是一种计算机程序,可以自动扫描并系统地读取网页,为搜索引擎索引网页。 网络爬虫也称为蜘蛛或机器人。
为了让搜索引擎向发起搜索的用户呈现最新的相关网页,必须进行网络爬虫机器人的爬网。 这个过程有时会自动发生(取决于爬虫和您网站的设置),或者它可以直接启动。
许多因素会影响您网页的 SEO 排名,包括相关性、反向链接、网络托管等。 但是,如果您的网页没有被搜索引擎抓取和索引,那么这些都无关紧要。 这就是为什么确保您的站点允许进行正确的抓取并消除其方式中的任何障碍如此重要的原因。
机器人必须不断扫描和抓取网络以确保呈现最准确的信息。 谷歌是美国访问量最大的网站,大约 26.9% 的搜索来自美国用户:
但是,没有一种网络爬虫可以针对所有搜索引擎进行爬网。 每个搜索引擎都有独特的优势,因此开发人员和营销人员有时会编制一个“爬虫列表”。 此爬虫列表可帮助他们在其站点日志中识别要接受或阻止的不同爬虫。
营销人员需要收集一个包含不同网络爬虫的爬虫列表,并了解他们如何评估他们的网站(不同于窃取内容的内容爬虫),以确保他们为搜索引擎正确优化他们的登陆页面。
网络爬虫是如何工作的?
网络爬虫将在您的网页发布后自动扫描并索引您的数据。
网络爬虫寻找与网页相关的特定关键字,并为相关搜索引擎(如 Google、Bing 等)索引该信息。
当用户提交对与之关联的相关关键字的查询时,搜索引擎的算法将获取该数据。
抓取从已知的 URL 开始。 这些是已建立的网页,带有各种信号,可将网络爬虫引导至这些页面。 这些信号可能是:
- 反向链接:网站链接到它的次数
- 访问者:有多少流量前往该页面
- 域权限:域的整体质量
然后,他们将数据存储在搜索引擎的索引中。 当用户发起搜索查询时,算法将从索引中获取数据,并将其显示在搜索引擎结果页面上。 这个过程可以在几毫秒内发生,这就是结果通常很快出现的原因。
作为网站管理员,您可以控制哪些机器人会抓取您的网站。 这就是为什么拥有爬虫列表很重要的原因。 robots.txt 协议存在于每个站点的服务器中,它将爬虫引导至需要索引的新内容。
根据您在每个网页上输入到robots.txt协议中的内容,您可以告诉爬虫程序扫描或避免将来将该页面编入索引。
通过了解网络爬虫在其扫描中查找的内容,您可以了解如何更好地为搜索引擎定位您的内容。
编制您的爬虫列表:网络爬虫有哪些不同类型?
当您开始考虑编制爬虫列表时,需要寻找三种主要类型的爬虫。 这些包括:
- 内部爬虫:这些是由公司的开发团队设计的用于扫描其站点的爬虫。 通常它们用于站点审核和优化。
- 商业爬虫:这些是像 Screaming Frog 这样的定制爬虫,公司可以使用它们来爬取和有效评估他们的内容。
- 开源爬虫:这些是免费使用的爬虫,由世界各地的各种开发人员和黑客构建。
了解现有的不同类型的爬虫很重要,这样您就知道需要利用哪种类型来实现您自己的业务目标。
添加到您的爬虫列表的 11 个最常见的网络爬虫
没有一个爬虫可以为每个搜索引擎完成所有工作。
相反,有各种各样的网络爬虫可以评估您的网页并扫描全球用户可用的所有搜索引擎的内容。
让我们看看当今一些最常见的网络爬虫。
1.谷歌机器人
Googlebot 是 Google 的通用网络抓取工具,负责抓取将出现在 Google 搜索引擎上的网站。
尽管从技术上讲 Googlebot 有两个版本——Googlebot 桌面版和 Googlebot 智能手机(移动版)——但大多数专家认为 Googlebot 是一个单一的抓取工具。
这是因为两者都遵循在每个站点的robots.txt中写入的相同唯一产品令牌(称为用户代理令牌)。 Googlebot 用户代理就是“Googlebot”。
Googlebot 开始工作,通常每隔几秒访问一次您的站点(除非您在站点的robots.txt中阻止了它)。 扫描页面的备份保存在称为 Google Cache 的统一数据库中。 这使您可以查看站点的旧版本。
此外,Google Search Console 也是网站管理员用来了解 Googlebot 如何抓取其网站并优化其页面以进行搜索的另一种工具。
2. 冰棒
Bingbot 由 Microsoft 于 2010 年创建,用于扫描和索引 URL,以确保 Bing 为平台用户提供相关的、最新的搜索引擎结果。
与 Googlebot 非常相似,开发人员或营销人员可以在他们网站上的 robots.txt 中定义他们是否批准或拒绝代理标识符“bingbot”扫描他们的网站。
此外,由于 Bingbot 最近切换到一种新的代理类型,他们能够区分移动优先索引爬虫和桌面爬虫。 这与 Bing 网站管理员工具一起,为网站管理员提供了更大的灵活性,以显示他们的网站是如何在搜索结果中被发现和展示的。
3. Yandex 机器人
Yandex Bot 是专门针对俄罗斯搜索引擎 Yandex 的爬虫。 这是俄罗斯最大和最受欢迎的搜索引擎之一。
网站管理员可以通过他们的robots.txt文件让 Yandex Bot 可以访问他们的网站页面。
此外,他们还可以将Yandex.Metrica标签添加到特定页面,在 Yandex 网站管理员中重新索引页面或发布 IndexNow 协议,这是一种指出新页面、修改页面或停用页面的独特报告。
4.苹果机器人
Apple 委托 Apple Bot 为 Apple 的 Siri 和 Spotlight 建议抓取网页并为其编制索引。
Apple Bot 在决定提升 Siri 和 Spotlight 建议中的哪些内容时会考虑多种因素。 这些因素包括用户参与度、搜索词的相关性、链接的数量/质量、基于位置的信号,甚至网页设计。
5. DuckDuck 机器人
DuckDuckBot 是 DuckDuckGo 的网络爬虫,它提供“在您的网络浏览器上的无缝隐私保护”。
网站管理员可以使用 DuckDuckBot API 查看 DuckDuck Bot 是否已抓取他们的网站。 当它爬行时,它会使用最近的 IP 地址和用户代理更新 DuckDuckBot API 数据库。
这有助于网站管理员识别任何试图与 DuckDuck Bot 关联的冒名顶替者或恶意机器人。
6.百度蜘蛛
百度是领先的中文搜索引擎,而百度蜘蛛是该网站唯一的爬虫。
谷歌在中国被禁止,所以如果你想进入中国市场,启用百度蜘蛛来抓取你的网站是很重要的。
要识别正在抓取您网站的百度蜘蛛,请查找以下用户代理:baiduspider、baiduspider-image、baiduspider-video 等。
如果你不在中国做生意,在你的 robots.txt 脚本中阻止百度蜘蛛可能是有意义的。 这将阻止百度蜘蛛抓取您的网站,从而消除您的网页出现在百度搜索引擎结果页面 (SERP) 上的任何机会。
7.搜狗蜘蛛
搜狗是一个中文搜索引擎,据说是第一个索引了 100 亿个中文页面的搜索引擎。
如果您在中国市场开展业务,这是您需要了解的另一种流行的搜索引擎爬虫。 搜狗蜘蛛遵循机器人的排除文本和抓取延迟参数。
与百度蜘蛛一样,如果您不想在中国市场开展业务,则应禁用该蜘蛛以防止站点加载时间变慢。
8. Facebook 外部点击
Facebook External Hit,也称为 Facebook Crawler,可抓取在 Facebook 上共享的应用程序或网站的 HTML。
这使社交平台能够生成平台上发布的每个链接的可共享预览。 由于爬虫,标题、描述和缩略图出现了。
如果抓取没有在几秒钟内执行,Facebook 将不会显示共享前生成的自定义片段中的内容。
9. Exabot
Exalead 是一家软件公司,创建于 2000 年,总部位于法国巴黎。 该公司为消费者和企业客户提供搜索平台。
Exabot 是他们基于 CloudView 产品构建的核心搜索引擎的爬虫。
与大多数搜索引擎一样,Exalead 在排名时会同时考虑反向链接和网页内容。 Exabot 是 Exalead 机器人的用户代理。 机器人创建一个“主索引”,编译搜索引擎用户将看到的结果。
10. 迅捷机器人
Swiftype 是您网站的自定义搜索引擎。 它结合了“最好的搜索技术、算法、内容摄取框架、客户端和分析工具”。
如果您有一个包含许多页面的复杂网站,Swiftype 提供了一个有用的界面来为您对所有页面进行编目和索引。
Swiftbot 是 Swiftype 的网络爬虫。 然而,与其他机器人不同的是,Swiftbot 只抓取客户请求的网站。
11. Slurp 机器人
Slurp Bot 是 Yahoo 搜索机器人,可以为 Yahoo 抓取和索引页面。
这种抓取对于 Yahoo.com 及其合作伙伴网站(包括雅虎新闻、雅虎财经和雅虎体育)来说都是必不可少的。 没有它,相关的网站列表就不会出现。
索引内容有助于为用户提供更个性化的网络体验,并提供更相关的结果。
SEO 专业人员需要知道的 8 个商业爬虫
现在您的爬虫列表中有 11 个最流行的机器人,让我们看看一些常见的商业爬虫和专业的 SEO 工具。
1.Ahrefs 机器人
Ahrefs Bot 是一种网络爬虫,可以编译和索引流行的 SEO 软件 Ahrefs 提供的 12 万亿个链接数据库。
Ahrefs Bot 每天访问 60 亿个网站,被认为是仅次于 Googlebot 的“第二活跃的爬虫”。
与其他机器人非常相似,Ahrefs Bot 遵循robots.txt功能,以及每个站点代码中的允许/禁止规则。
2.Semrush 机器人
Semrush Bot 使领先的 SEO 软件 Semrush 能够收集和索引网站数据,供其客户在其平台上使用。
这些数据用于 Semrush 的公共反向链接搜索引擎、站点审核工具、反向链接审核工具、链接构建工具和写作助手。
它通过编译网页 URL 列表、访问它们并保存某些超链接以供将来访问来抓取您的站点。
3. Moz 的竞选爬虫 Rogerbot
Rogerbot 是领先的 SEO 网站 Moz 的爬虫。 此爬虫专门为 Moz Pro Campaign 网站审核收集内容。
Rogerbot 遵循robots.txt文件中规定的所有规则,因此您可以决定是否要阻止/允许 Rogerbot 扫描您的站点。
由于其多方面的方法,网站管理员将无法搜索静态 IP 地址以查看 Rogerbot 抓取了哪些页面。
4.尖叫青蛙
Screaming Frog 是一个搜索引擎优化专家用来审核他们自己的网站并确定会影响他们的搜索引擎排名的改进领域的爬虫。
启动爬网后,您可以查看实时数据并确定断开的链接或页面标题、元数据、机器人、重复内容等所需的改进。
为了配置爬网参数,您必须购买 Screaming Frog 许可证。
5. Lumar(前身为 Deep Crawl)
Lumar 是一个“维护站点技术健康的集中指挥中心”。 使用此平台,您可以启动对站点的抓取,以帮助您规划站点架构。
Lumar 以“市场上最快的网站爬虫”而自豪,并吹嘘它每秒可以爬取多达 450 个 URL。
6.雄伟
Majestic 主要专注于跟踪和识别 URL 上的反向链接。
该公司以拥有“互联网上最全面的反向链接数据来源之一”而自豪,并强调其历史索引已从 5 年增加到 2021 年的 15 年链接。
该站点的爬虫使公司的客户可以使用所有这些数据。
7.认知搜索引擎优化
cognitiveSEO 是许多专业人士使用的另一个重要的 SEO 软件。
cognitiveSEO 爬虫使用户能够执行全面的站点审核,这将告知他们的站点架构和总体 SEO 策略。
该机器人将抓取所有页面并为最终用户提供独一无二的“完全定制的数据集”。 该数据集还将为用户提供有关如何为其他爬虫改进网站的建议——既可以影响排名,也可以阻止不必要的爬虫。
8.爬行
Oncrawl 是面向企业级客户的“行业领先的 SEO 爬虫和日志分析器”。
用户可以设置“抓取配置文件”来为抓取创建特定参数。 您可以保存这些设置(包括起始 URL、抓取限制、最大抓取速度等),以便在相同的既定参数下轻松再次运行抓取。
我需要保护我的网站免受恶意网络爬虫的侵害吗?
并非所有的爬虫都是好的。 有些可能会对您的页面速度产生负面影响,而另一些可能会试图破解您的网站或有恶意。
这就是为什么了解如何阻止爬虫进入您的站点很重要。
通过建立爬虫列表,您将知道哪些爬虫是值得关注的。 然后,您可以清除可疑的内容并将它们添加到您的阻止列表中。
如何阻止恶意网络爬虫
有了您的爬虫列表,您就可以确定要批准哪些机器人以及需要阻止哪些机器人。
第一步是浏览您的爬虫列表并定义与每个爬虫相关联的用户代理和完整代理字符串及其特定 IP 地址。 这些是与每个机器人相关的关键识别因素。
使用用户代理和 IP 地址,您可以通过 DNS 查找或 IP 匹配在您的站点记录中匹配它们。 如果它们不完全匹配,则可能是恶意机器人试图冒充真实机器人。
然后,您可以使用robots.txt站点标签调整权限来阻止冒名顶替者。
概括
网络爬虫对搜索引擎很有用,对营销人员来说很重要。
确保正确的抓取工具正确抓取您的网站对于您的业务成功非常重要。 通过保留一个爬虫列表,您可以知道当它们出现在您的站点日志中时要注意哪些。
当您遵循商业爬虫的建议并改进您网站的内容和速度时,您将使爬虫更容易访问您的网站并为搜索引擎和寻求它的消费者索引正确的信息。