机器人放牧和蜘蛛争吵的终极指南

这是由三部分组成的系列的第1部分

我们通常会考虑与人类相关的搜索引擎优化:我的客户使用了哪些查询

如何让更多博主链接到我

如何让人们在我的网站上停留更长时间

如何为客户的生活和业务增加更多价值

这应该是这样的

但即使我们生活在一个越来越受非人类行为者影响的世界,如机器,人工智能(AI)和算法,我们常常忘记优化网站的很大一部分与人们完全无关

事实上,我们需要取悦的许多网站访问者实际上都是机器人,我们无视他们的危险!机器人(也称为蜘蛛或爬虫)只是谷歌(或其他公司)用来搜索网络并收集信息或执行自动化任务的软件

术语“机器人”或“蜘蛛”略有误导,因为它表明某种程度的智力

实际上,这些爬虫并没有真正做太多的分析

机器人无法确定您的内容的质量;那不是他们的工作

他们只需跟踪网络上的链接,同时吸收内容和代码,然后将其提供给其他算法进行索引

然后,这些算法获取爬虫收集的信息并将其存储在称为索引的大型分布式数据库中

当您在搜索引擎中键入关键字时,您正在搜索此数据库

其他算法应用各种规则来评估数据库中的内容,并决定在特定搜索项的排名中应放置通用资源定位符(URL)的位置

分析包括页面上高度相关的关键字出现的位置,反向链接的数量和质量以及整体内容质量

到目前为止,您可能已经掌握了为什么优化机器人非常重要的要点

虽然抓取工具不会决定您的网站是否会出现在搜索结果中,但如果它无法收集所需的所有信息,那么您的排名机会相当渺茫!那么,你如何与所有这些爬虫争吵并引导他们到达他们需要的位置

你怎么给他们正是他们想要的东西

如果您想为机器人优化您的网站,首先需要了解它们的运作方式

这就是你的“抓取预算”的用武之地

抓取预算是一个术语搜索引擎优化专家(SEO),用于描述搜索引擎分配用于抓取给定网站的资源

从本质上讲,搜索引擎认为您的网站越重要,它为抓取网站分配的资源就越多,抓取预算就越高

虽然许多评论员试图提出一种计算爬行预算的精确方法,但实际上没有办法在其上加上具体的数字

在该术语开始流行之后,Google对于抓取预算对Googlebot的意义进行了解释

他们强调构成抓取预算的两个主要因素:换句话说,抓取预算会受到多种因素的影响,包括您获得的流量,搜索引擎抓取您网站的难易程度,页面速度,页面大小(带宽使用),您更新站点的频率,有意义的URL与无意义的URL的比例等等

要了解Googlebot抓取您网站的频率,只需转到Google Search Console的“抓取:抓取统计信息”部分即可

这些图表/图表是免费提供给谷歌的,实际上它们很有帮助,但它们提供了一个糟糕的不完整的网站机器人活动图片

理想情况下,您应该使用OnCrawl或Screaming Frog Log Analyzer等程序分析服务器日志文件

请务必注意,Google Search Console(GSC)不是服务器日志分析器

换句话说,网站管理员无法将服务器日志上传到GSC以分析所有机器人访问,包括Bingbot

在优化抓取预算时,需要考虑以下几个重要事项:这将结束我们的三部曲系列的第1部分:Bot Herding和Spider Wrangling的终极指南

在第2部分中,我们将学习如何让搜索引擎知道我们网页上的重要内容并查看常见的编码问题

敬请关注

本文中表达的观点是客座作者的观点,不一定是搜索引擎土地

工作人员作者列于此处

上一篇 :谷歌禁用URL删除后错误允许任何人删除任何网站
下一篇 Google专利搜索升级增加了现有技术和学术成果