什么是抓取预算
目录:
- 搜寻预算和网站定位
- 网站的质量
- 设置哪些是重要页面
- 抓取预算在内部如何工作
- 优化站点的好处
- 如何计算网站的抓取预算
- 搜寻预算和搜寻引擎最佳化:相同吗?
- 如何优化抓取预算
- 确保您的页面可以被跟踪
- 谨慎使用富媒体文件
- 避免重定向字符串
- 修复断开的链接
- 在动态网址中设置参数
- 清理站点地图
- 利用提要
- 创建外部链接
- 保持内部链接的完整性
- 我们得出什么结论?
今天在SEO社区中经常提到的一个术语是抓取预算 。 如果我们翻译它,它将被称为“跟踪预算”。 这是一个罕见的中间地带,但这在SEO地区是一个非常古老的概念。
那些与大型项目(例如大型电子商务,内容门户和SEO专家)合作的人将抓取预算理解为Google在特定天花费的时间来阅读您的网站页面。
内容索引
这是Google搜寻器用来读取网站页面的时间。 但是这一次爬虫在您的网站上花费取决于几个因素; 例如网站权限,重复内容的百分比,页面错误等等。
但是,根据Google的官方网站管理员博客,有人指出,并不是每个人都应该关注此抓取预算问题。 也就是说,如果他们的网站有几十个页面,则无需担心此页面爬网问题,因为Google会毫不费力地做到这一点。
但是,如果您有一个在线商店或任何其他具有数千个页面的 Web项目,则必须密切注意并优化有关网站的爬网预算。
搜寻预算和网站定位
他们从Google确认,抓取预算不会影响排名,但可以对(有时有时会)负面影响(有时控制)搜索引擎中200多个排名因素中的其他因素 。
但是,为什么我们希望Google爬行我们的网站页面更多次? 另一方面,我们找到了几位SEO专家,他们确保拥有良好的抓取预算将改善网站页面在排名中的总体排名,从而增加自然流量 。
基本上,Google有一定的时间在您的网站上花费时间,因为它必须决定要花多少时间在世界各地的每个网站上,为此,它必须计算出能够建立多少同时连接,以便阅读您网站的页面。
网站的质量
Google花了一些时间才能连接到网站,阅读这些页面并停止阅读。 全天重复此操作,但时间总是很少。 这部分时间通常与您网站的权限 ,新页面的数量以及与Google的相关性成正比。
这是由您的内容质量和指向该网站的链接确定的,也就是说,如果您有许多指向的高质量链接,则可能是Google会以更高的质量理解您,并在您的网站上花费更多的时间,页面数量更多。
通常,对于10、50或100页的网站, 抓取预算不会有太大变化,因此,在几页中,差异不会太大。 但是对于大型网站,如果Google有一秒钟要浏览您的网站,并且您告诉它要阅读的内容,那么这对于抓取工具非常有用,它可以更快地完成抓取任务。
设置哪些是重要页面
首先,您必须绘制出更有条理的网站信息架构,确定哪些页面是不必要的,并且不要通过检查robots.txt文件来索引某些页面。
Google不应将时间花在网站的搜索部分,甚至是在有过滤器导航的部分,例如在在线商店中,您都可以选择鞋子的尺码,公寓的大小或衬衫的颜色。 这些过滤器通常被人们称为“面对式导航”或“导航过滤器”。
一些网站管理员倾向于阻止这些过滤器以及在robots.txt文件中进行的搜索,只是为了让Google不会花时间阅读这些页面,因为事实上,他们专注于正在寻找这种体验的用户,并且这些内容已经在网站的其他内部页面上可用。
我们建议您阅读: 创建网站时应避免的错误
另一行是,通过确定哪些是您网站的重要页面,您可以在内容重复的页面上节省Google的时间,例如面对面导航的情况,隐私政策页面,条款和条件,而不是您希望阅读它们。 这些页面仅对想要查看这些页面的用户可用。
在这些低价值的页面上,不应该浪费时间,因为您不想为它们排名,并且它们对您的生活影响不小,但是它们必须存在,因为有些用户仍然想查询这些信息。
抓取预算在内部如何工作
通常,爬网预算基于体系结构 。 您可以定义指向Google能够阅读的页面的链接,并根据其重要性对其进行优先级排序。
毕竟,这些页面中出现的链接是Google可能优先考虑的链接。 因此,值得很好地考虑内部链接和页面结构的逻辑。
抓取预算是Google用于阅读,理解网站上的信息并评估诸如架构的组织和robots.txt中的阻止之类的元素所花费的时间。 在链接上使用nofollow标记可防止Google跟踪该链接。 例如,如果一个链接具有nofollow属性,但是另一个内部链接没有一个链接可以到达该页面,则Google将采用第二条路径,从而使您花费的时间更少。
优化站点的好处
有些事情可以帮助您每天阅读更多页面,这对任何网站都可能有用。 例如,如果您的服务器速度更快 ,则Google届时将请求更多页面。
如果您的页面已压缩 ,则Google将在这些请求中请求更多页面。 而且,如果您的代码干净整洁 ,则一天结束时Google也会收到压缩程度更高的页面,且比特率更高。 也就是说,网站的优化,网站和服务器的速度极大地影响了爬网预算的问题。
如何计算网站的抓取预算
Google搜索引擎蜘蛛在一定时间范围内抓取您的网站的次数就是我们所说的“抓取预算”。 因此,如果Googlebot每天访问您的网站32次,则可以说Google的跟踪预算约为每月960次。
您可以使用Google Search Console和Bing网站站长工具之类的工具来计算网站的大致抓取预算。 只需登录并转到“跟踪”>“跟踪统计信息”,即可查看每天平均跟踪的页面数。
搜寻预算和搜寻引擎最佳化:相同吗?
是的,没有 两种优化都旨在使您的页面更加可见并影响您的SERP,而SEO则更加注重用户体验,而蜘蛛优化完全是为了吸引机器人。
搜索引擎优化(SEO)更侧重于用户查询的优化过程。 相反, Googlebot优化着重于Google搜寻器如何访问您的网站。
如何优化抓取预算
有多种方法可以优化任何网站的爬网预算 ,具体取决于每个Web项目,页面数和其他问题,以下是需要考虑的几点:
确保您的页面可以被跟踪
如果搜索引擎蜘蛛可以找到并跟踪您网站中的链接,则您的页面是可跟踪的,因此您将必须配置.htaccess和robots.txt文件,以便它们不会阻止您网站上的关键页面。 您可能还希望提供严重依赖富媒体文件(例如Flash和Silverlight)的页面的文本版本。
当然,如果您想防止页面出现在搜索结果中,则相反。 但是,如果要防止索引页面,将robots.txt文件设置为“ disallow”是不够的。 根据Google的说法,“禁止”规则不能保证网页不会出现在结果中。
如果外部信息(例如,入站链接)继续为您拒绝的页面吸引流量,则Google可能会决定该页面仍然相关。 在这种情况下,您必须使用noindex元标记或HTTP X-Robots-Tag标头手动阻止页面索引 。
-Noindex中继标记:将此中继标记放在区段中
的页面,以防止大多数网络爬虫将您的页面编入索引:noindex“ />
-X-Robots-Tag-在HTTP标头响应中放置以下内容,以指示抓取工具不要为页面编制索引:
X-Robots-Tag:noindex
请注意,如果您使用noindex元标记或X-Robots-Tag,则不应在robots.txt中禁止该页面。 必须先对页面进行爬网,然后才能看到并遵守标签。
谨慎使用富媒体文件
曾经有一段时间Googlebot无法抓取JavaScript,Flash和HTML等内容。 那些日子早已一去不复返了(尽管Googlebot在Silverlight和其他一些文件上仍然存在问题)。
但是,即使Google可以读取大多数富媒体文件,其他搜索引擎也可能无法读取,这意味着您应谨慎使用这些文件,并且您可能希望完全避免在想要的页面上使用它们。位置。
避免重定向字符串
重定向的每个URL都会浪费您的爬网预算。 如果您的网站具有较长的重定向字符串,即连续有大量的301和302重定向,则Googlebot之类的蜘蛛可能会在到达目标网页之前崩溃,这意味着该网页将不会被索引。 重定向的最佳做法是在网站上进行尽可能少的重定向 ,并且连续进行两次重定向 。
修复断开的链接
当询问约翰·穆勒(John Mueller) 断开的链接是否影响定位时,他回答说它比起定位目的更侧重于用户体验。
这是SEO和Googlebot优化之间的根本区别之一,因为这意味着断开的链接不会对排名产生实质性的影响,即使它们极大地阻碍了Googlebot对网站进行索引和排名的能力。
话虽如此,您应该遵循Mueller的建议,考虑到Google的算法在过去几年中已经有了很大的改进,任何影响用户体验的因素都可能会影响SERP。
在动态网址中设置参数
蜘蛛程序将指向同一页面的动态URL视为单独的页面,这意味着您可能不必要地浪费了抓取预算。 您可以通过访问Search Console并单击“跟踪”>“ URL参数”来管理URL参数。 在这里,您可以通知Googlebot CMS是否将参数添加到URL中,而这些参数不会更改页面的内容。
清理站点地图
XML网站地图可帮助访问者和蜘蛛机器人,使内容的组织性更好并且更易于查找。 因此,请尝试使站点地图保持最新,并清除可能损害站点可用性的任何混乱情况,包括400个级别的页面,不必要的重定向,非规范的页面和阻止的页面。
清理站点地图的最简单方法是使用类似Website Auditor的工具。 您可以使用Website Auditor的XML网站地图生成器来创建一个干净的网站地图,该网站地图将所有阻止的页面排除在索引之外。 此外,通过转到“站点审核”选项,您可以找到并修复所有4xx错误,301和302重定向以及非规范页面。
利用提要
RSS,XML和Atom两种提要都允许在不浏览站点时将内容传递给关注者。 这使用户可以订阅自己喜欢的网站,并在每次发布新内容时定期接收更新。
长期以来,RSS提要一直是增加读者数量和参与度的好方法,此外,它们也是Googlebot访问量最大的网站之一。 当您的网站收到更新(例如,新产品,博客文章,页面更新等)时,请将其发送到Google Feed Burner以确保正确索引。
创建外部链接
链接构建仍然是一个热门话题,没有任何迹象表明它很快就会消失。
在线建立关系,发现新社区,建立品牌价值; 这些小小的胜利应该已经在您的链接计划过程中打印出来了。 尽管1990年的链接构建有许多独特的元素,但人类与他人建立联系的需求永远不会改变。
当前,我们已经有证据表明外部链接与您的网站获得的蜘蛛访问次数密切相关。
保持内部链接的完整性
尽管创建内部链接对爬网速度没有实质性的作用,但这并不意味着可以完全忽略它。 维护良好的网站结构使搜索机器人可以轻松发现您的内容,而不会浪费您的抓取预算。
井井有条的内部链接结构也可以改善用户体验,特别是如果用户只需单击三下即可访问您网站的任何区域。 使所有内容都更易于访问,这意味着访问者会停留更长时间,从而可以改善SERP 。
我们得出什么结论?
同样,根据上述内容, 抓取预算问题对于拥有成千上万个网页的大型网站来说非常重要,否则就不必担心,因为Google会跟踪您的网站顺利。
我们一定不能使我们网站页面对Google的爬网复杂化。 许多网站都有足够的错误,甚至有robots.txt和sitemap.xml文件所创建的障碍,这些障碍都阻止了Google访问内容。 如果我们想提高在Google排名中的排名,那么我们必须授权和简化网站页面,以便Google可以快速访问,建立索引和定位。 很简单
到目前为止,您可能已经注意到本文中的一种趋势: 可追溯性的最佳实践也倾向于提高可搜索性。 因此,如果您想知道爬网预算优化对您的网站是否重要,答案是肯定的。
简而言之,如果您使Google可以更轻松地发现您的网站并为其编制索引,您将享受更多的抓取,这意味着您发布新内容时更新速度更快。 您还将改善整体用户体验,提高可见性,并最终提高SERP的排名。
这些只是改善和优化网站爬网预算的一些要点。