如何为SEO创建完美的robots.txt文件

  
 
  每个人都喜欢“黑客”。
 
  我也不例外,我喜欢找到方法让我的生活更美好,更容易。
 
  这就是为什么我今天要告诉你的技术是我绝对喜爱的一个原因。 这是一个合法的SEO黑客,您可以立即开始使用。
 
  这是通过利用很少被讨论的每个网站的自然部分来增加您的SEO的一种方式。 这也不难实现。
 
  这是robots.txt文件(也称为机器人排除协议或标准)。
 
  这个小文本文件是互联网上每个网站的一部分,但大多数人甚至不了解它。
 
  它旨在与搜索引擎合作。
 
  在试图增强搜索引擎优化的效果时。 当我告诉他们他们可以编辑一个小robots.txt文本文件时,他们几乎不相信我。
 
  然而,有很多增强SEO的方法并不困难或耗时,而这就是其中之一。
 
如何为SEO创建完美的Robots.txt文件
 
  您不需要任何技术经验来利用robots.txt的强大功能。 如果您可以找到您的网站的源代码,您可以使用它。
 
  所以当你准备好了,跟随我,我会向你展示如何更改你的robots.txt文件,以便搜索引擎会喜欢它。
 
  一:为什么robots.txt文件很重要
 
  首先,我们来看看为什么robots.txt文件首先是重要的。
 
  robots.txt是什么?robots.txt文件(也称为机器人排除协议或标准)是一种文本文件,可以告知Web机器人(通常是搜索引擎)您网站上哪些页面要爬网。
 
  它还告诉网络漫游器哪些页面不能爬网。
 
  让我们来看一个搜索引擎即将访问一个网站。 在访问目标页面之前,它将检查robots.txt以获取信息。
 
  有不同类型的robots.txt文件,所以我们来看几个不同的例子。
 
  让我们说搜索引擎找到这个例子的robots.txt文件 :
 
robots.txt文件
 
  这是robots.txt文件的基本框架。
 
  “user-agent”之后的星号表示robots.txt文件适用于访问该站点的所有Web机器人。
 
  “Disallow”之后的斜杠告诉机器人不要访问网站上的任何页面。
 
  你可能会想知道为什么任何人都想阻止网络漫游器访问他们的网站。
 
  毕竟,SEO的主要目标之一是让搜索引擎轻松抓取您的网站,从而提高您的排名。
 
  你的网站上可能有很多页面,对吧?
 
  如果搜索引擎抓取您的网站,它会抓取您的每一个页面。
 
  如果你有很多页面,那么搜索引擎将会一段时间来抓取它们,这会对您的排名产生负面影响。
 
  这是因为搜索引擎具有“抓取预算”的本质。
 
  这分为两部分。 第一个是爬网率限制。
 
  第二部分是抓取需求:
 
  基本上,抓取预算是“可以抓取并希望抓取的网址数”。
 
  您希望帮助搜索引擎如百度以最佳方式为您的网站支付其抓取预算。 换句话说,它应该是爬行你最宝贵的页面。
 
  根据百度的说法,有一些因素会对网站的抓取和索引造成负面影响。
 
  所以让我们回到robots.txt。
 
  如果您创建正确的robots.txt页面,您可以告诉搜索引擎漫游器(特别是百度)以避免某些页面。
 
  想想这个含义。 如果您告诉搜索引擎机器人只能抓取您最有用的内容,机器人将根据该内容单独抓取并索引您的网站。
 
  正如百度所说 :
 
  “您不希望百度的抓取工具淹没您的服务器,或者无法在您的网站上浪费抓取预算爬行不重要或类似的页面。”
 
  robots.txt有什么作用?通过正确的方式使用您的robots.txt,您可以告诉搜索引擎机器人明智地花费他们的抓取预算。 这就是robots.txt文件在SEO中的作用。
 
  对robots.txt的力量感兴趣?
 
  我们来谈谈如何找到和使用它。
 
  二:找到您的robots.txt文件
 
  如果您只想快速查看您的robots.txt文件,那么有一个非常简单的方法来查看。
 
  事实上, 这种方法将适用于任何网站 。 所以你可以窥视其他网站的文件,看看他们在做什么。
 
  所有你需要做的,在浏览器的搜索栏中输入网站的基本URL(例如,seoyy.cn等)。 然后将/robots.txt添加到最后。
 
  robots.txt放在哪里?三种情况之一将会发生:
 
  1)你会发现一个robots.txt文件。
 
seo教程自学网的robots.txt文件
 
  2)你会发现一个空文件。
 
  例如, 迪士尼似乎缺少一个robots.txt文件:
 
迪士尼网站缺少robots.txt文件
 
  3)你会得到一个404页面(衍生阅读:网页404 not found错误页面怎么解决?)。
 
返回码为404的robots.txt
 
  花一点时间查看自己网站的robots.txt文件。
 
  如果您找到一个空文件或404,您将需要修复。
 
  如果您找到有效的文件,则可能会设置为在创建站点时创建的默认设置。
 
  我特别喜欢这种查看其他网站的robots.txt文件的方法。 一旦学习了robots.txt的内容,这可能是一个有价值的练习。
 
  现在我们来看一下实际更改你的robots.txt文件。
 
  找到您的robots.txt文件
 
  您的下一步将全部取决于您是否拥有robots.txt文件。
 
  如果您没有robots.txt文件,则需要从头开始创建一个。 打开一个纯文本编辑器,如记事本(Windows)或TextEdit(Mac。)
 
  只能使用纯文本编辑器 。 如果您使用Microsoft Word等程序,该程序可能会在文本中插入其他代码。
 
  如果您有一个robots.txt文件,您需要在您的站点的根目录中找到它。
 
  如果您不习惯在源代码中查找,那么找到可编辑版本的robots.txt文件可能会有点困难。
 
  通常,您可以通过访问您的托管帐户网站,登录并转到站点的文件管理或FTP部分找到您的根目录。
 
  你应该看到这样的东西:
 
seo教程自学网robots.txt文件存放位置
 
  找到您的robots.txt文件并打开它进行编辑。 删除所有文本,但保留文件。
 
  注意:如果您使用WordPress,当您访问seoyy.cn/robots.txt时,您可能会看到一个robots.txt文件,但是您将无法在文件中找到该文件。
 
  这是因为如果根目录中没有robots.txt, WordPress会创建一个虚拟的robots.txt文件 。
 
  如果发生这种情况,您需要创建一个新的robots.txt文件。
 
  三:创建一个robots.txt文件
 
  您可以使用您选择的纯文本编辑器创建新的robots.txt文件。 (记住,只能使用纯文本编辑器。)
 
  如果您已经拥有robots.txt文件,请确保已删除文本(而不是文件)。
 
  首先,您需要熟悉robots.txt文件中使用的一些语法。
 
  robots.txt写法有哪些?百度对一些基本的robots.txt条款有一个很好的解释:
 
百度robots.txt文件具体说明
 
  我将向您展示如何设置一个简单的robot.txt文件,然后我们来看看如何为SEO定制它。
 
  首先设置用户代理项。 我们要将其设置为适用于所有Web机器人。
 
  在用户代理术语之后使用星号执行此操作,如下所示:
 
允许所有搜索引擎爬取seo的robots.txt文件
 
  接下来,键入“Disallow:”,但是之后不要输入任何内容。
 
robots.txt文件规则以迎合seo
 
  由于在不允许的情况下没有任何内容,因此Web机器人将被引导到您的整个网站上。 现在,您网站上的所有内容都是公开的。
 
  到目前为止,您的robots.txt文件应如下所示:
 
正确的robots.txt文件
 
  我知道它看起来很简单,但是这两行已经在做很多了。
 
  您也可以链接到您的XML站点地图 ,但没有必要。 如果你想,可以以这种方式写入:
 
包含XML站点地图的robots.txt文件
 
  相信与否,这是一个基本的robots.txt文件。
 
  现在让我们把它提升到一个新的水平,把这个小文件变成一个SEO助推器。
 
  四:优化robots.txt的SEO
 
  您如何优化robots.txt都取决于您在网站上的内容。 有各种方法可以使用robots.txt来获得优势。
 
  我将介绍一些最常用的方法。
 
  (请记住, 您不应该使用robots.txt来阻止搜索引擎中的全部页面,衍生阅读:robots.txt禁止收录(以百度为例)
 
  robots.txt文件的最佳用途之一是通过告知他们不要抓取您的网站上没有向公众展示的部分,来最大限度地提高搜索引擎的抓取预算,从而产生seo优化结果。
 
  例如,如果您访问此网站的robots.txt文件(seoyy.cn),您将看到它不允许登录页面(wp-admin)。
 
不允许登录页面(wp-admin)爬取的robots.txt文件举例
 
  由于该页面仅用于登录站点的后端,因此搜索引擎漫游器无法浪费时间来爬行。
 
  您可以使用类似的指令(或命令)来防止机器人抓取特定页面。 禁止后,输入.com后的URL部分。 把它放在两个正斜杠之间。
 
  所以如果你想告诉机器人不抓取你的页面http://seoyy.com/ ,你可以输入:
 
禁止爬取seo教程自学网某个栏目的robots.txt文件
 
  您可能会特别想知道要从索引中排除什么类型的页面。 以下是几种常见的情况,即会发生这种情况:
 
  五:有意义的重复内容。 虽然重复的内容大多是一件坏事,但有几件事情是必要和可接受的。
 
  例如,如果您有一个打印机友好版本的页面,您技术上具有重复的内容。 在这种情况下,您可以告诉机器人不抓取其中一个版本(通常是打印机友好版本)。
 
  如果您拆分测试具有相同内容但设计不同的页面,这也非常方便。
 
  六:无用页面,如感谢页面是营销人员最喜欢的网页之一,因为它意味着一个新的页面。
 
  事实证明, 有些感谢您的网页可通过Google访问 。 这意味着人们可以访问这些页面,而不需要通过引导捕获过程。
 
  通过封锁您的感谢页面,您可以确保只有合格的潜在客户才能看到它们。
 
禁止爬取seo教程自学网某个栏目的robots.txt文件2
 
  在robots.txt文件中,阻止该页面将如下所示:
 
  由于没有哪些页面不允许的通用规则,您的robots.txt文件将对您的网站是唯一的。 在这里你自行判断。
 
  还有另外两个你应该知道的指令: noindex和nofollow 。
 
  你知道我们一直在使用的disallow指令吗? 它实际上不会阻止页面被索引。
 
  所以在理论上你可以禁止一个页面,但它仍然可能在索引中。
 
  一般来说,你不想要这样。
 
  这就是为什么你需要noindex指令。 它适用于disallow指令,以确保机器人不访问或索引某些页面。
 
  如果您有任何不希望索引的页面(如那些珍贵的谢谢页面),可以同时使用disallow和noindex指令:
 
不希望索引(disallow和noindex)seo教程自学网的robots.txt文件
 
  现在,该页面不会显示在SERP中。
 
  最后还有nofollow指令。 这实际上与nofollow链接相同。 简而言之,它告诉网络漫游器不抓取页面上的链接。
 
  但是,nofollow指令将不同,因为它实际上不是robots.txt文件的一部分。
 
  然而,nofollow指令仍然指示Web机器人,所以它是一样的概念。 唯一的区别是发生的地方。
 
  找到您要更改的页面的源代码,并确保您位于<head>标签之间 。
 
nofollow指令与robots.txt文件
 
  然后粘贴此行:
 
  <meta name =“robots”content =“nofollow”>
 
  所以应该是这样的:
 
符合seo规范的robots.txt文件(nofollow)
 
  确保您没有将这一行放在任何其他标签之间 - 只是<head>标签。
 
  这是感谢您的网页的另一个好的选择,因为网络漫游器不会抓取任何铅磁铁或其他独家内容的链接。
 
  如果要添加noindex和nofollow指令,请使用以下代码行:
 
  <meta name =“robots”content =“noindex,nofollow”>
 
  这将给Web机器人一次指令。
 
  七:测试robots.txt文件
 
  最后,测试您的robots.txt文件,以确保一切正常,并正确运行。
 
  百度提供免费的robots.txt测试器,作为网站管理员工具的一部分。
 
  首先,点击右上角的“登录”登录您的网站管理员帐户 。
 
百度站长平台测试robots.txt文件
 
  选择您的网站,然后点击左侧边栏中的“抓取”。
 
百度站长平台检测seo教程自学网的robots.txt文件
 
  您会看到“robots.txt测试仪”。点击此处。
 
如何利用百度站长平台测试robots.txt文件
 
  如果该框中有任何代码,请将其删除,并将其替换为新的robots.txt文件。
 
  点击屏幕右下角的“检测并更新”。
 
  如果“检测并更新”文本更改为“您的robots.txt文件已生效”,则表示您的robots.txt有效。
 
测试成功的robots.txt文件
 
  以下是有关该工具的更多信息,以便您了解所有内容的详细信息。
 
  最后,将您的robots.txt上传到您的根目录(如果您已经拥有该目录,请将其保存在该目录中)。 您现在拥有强大的文件,您可以看到搜索的可见性有所增加。
 
  结论
 
  我一直喜欢分享一些鲜为人知的搜索引擎优化“黑客”,这可以让您在更多的方式给您真正的优势。
 
  通过以正确的方式设置您的robots.txt文件,您不仅仅是增强自己的SEO。 你也帮助你的访客。
 
  如果搜索引擎漫游器可以明智地花费他们的抓取预算,他们将以最好的方式组织和显示您的内容在SERP中,这意味着您将会更加明显。
 
  您也不需要花费很多精力设置您的robots.txt文件。 它主要是一次性设置,您可以根据需要进行一些更改。
 
  无论您是开始第一个还是第五个网站,完美的使用robots.txt可能会对网站seo产生重大的影响。

发布时间:2017-06-20

文章来源:seo blog

编辑整理:SEO教程自学网

如需转载 http://seoyy.cn/seozhanchangxueyuan/364.html 请注明出处

本文关键词: robots.txt