seo前线:浅谈搜索引擎的网页文档结构化

  

  seo是各个要素的集合,不是简单的相加,而是类似于乘积的关系。深化对seo技术的认知,需要熟悉搜索引擎基本原理。seo前线阐述的搜索引擎的网页文档结构化,具有一定的指导意义。
 
  对于搜索引擎的学习,是SEO人员必须要突破的知识点之一。对于这些知识的学习,就类似于我们学习物理基础知识一样。通过牛顿的力学定律理论,我们可以发导弹和火箭发射升空,甚至到达太空,当然通过这个举列来说明原理性的知识是最重要的。只有掌握了根本的技术理论,从常识出发再结合实践操作,统计常规数据。从而进一步总结出自己的SEO体系化知识!在SEO前线论坛创始人zero的倡导下:结合自己理解的搜索原理,总结出自己认为比较重要的知识点,所以构思了这一篇帖子。
 
seo前线:浅谈搜索引擎的网页文档结构化
 
  为了不断章取义,首先要对几个常见的术语加以或者重写认识和理解。
 
  1、半结构化数据。
 
  互联网上的数据,一般都是以网页为载体表现,那万维网的网页是具有一定的结构性,这种结构性的表现是基于html标记语言。这种网页原始数据被称为“半结构化数据”。
 
  2、网页数据的信息抽取。
 
  对于半结构化的数据,是不能满足网页结构化的需要。那首要的工作是分门别类的从半结构化网页中抽取出有价值的能够代表网页的属性。锚文本,标题,正文标题,正文,正向链接。这样技术实现被称为“网页数据的信息抽取”。
 
  3、锚文本。
 
  或许看到这里的时候,会有人抱怨,这个你也需要解释。这都是一下最基础的知识!我会选择沉默,但请你看完之后在下定论。网页中关于链接的一段描述,通常以文本和图片的方式出现。以链接的方式可以指向文中的某个位置,也可以指向其他网页。或许这样的认识,对于你在其他地方看到的理解有些不同吧。细心的人,总是能超越别人很多的。
 
  通过以上几个术语的学习,我们要开始进入搜索引擎结构化数据的大门,从而通过这些基础理论知识指导我们如何做好网页文档。网页抽取信息中,提到了几个重要的因素,下面先从这里开始谈起:
 
  1.标题:title包含了网页的基本含义,和锚文本相同的是,都是用来描述网页的内容的属性。
 
  2.正文标题:在html网页中,<title>标签中的文字没有任何描述能力,因而并不是合格的标题,为此需要抽取正文中的适当文字作为正文标题。
 
  3.锚文本:除了网页标题可以描述网页以外,还会有一些锚文本来描述它,特别是对于某些没有标题的网页,锚文本是最有益的补充。站内定向锚文本怎么做?是一个问题。
 
  4.正文:锚文本、标题和正文标题都是网页的简短描述,而正文是一个网页的主题内容,它完整的表述了网页的主题内容,一般出现在<DIV>、<table>、<p>等。
 
  5.正向链接:正向链接是引导用户继续在网上冲浪的链接,这些链接的文字也是其他网页的锚文本。一个网页至少包含这5个属性。
 
  我相信,通过这里的学习,大家已经对网页文档的构建和理解,都会有所新的认识。之前的那种为什么标题是重要权重标签,为什么锚文本重要呢,为什么锚文本不只是文字形式展现,为什么链接对SEO比较重要等等一些为什么,大家都会有些认识和理解。这就是你掌握了原理性的知识,才会知道这些作用后会有什么样的SEO效果。接下来我们就谈谈搜索引擎做好信息抽取这一步之后,所要面临的结构化过程和如何实现!
 
  搜索引擎的网页文档结构化。
 
  搜索引擎的网页结构化的过程一般可以理解为两步走:第一建立HTML标签树,第二通过投票方法识别正文的文本块,并按照深度优先遍历的规则组织为正文。
 
  首先我们来看一下建立HTML标签树是怎么实现。
 
  由于HTML标签有一定的嵌套关系,因此通过一定的技术手段整理一个网页的所有html标签,就会得到的是树状结构。这就是建立HTML标签树。
 
  再看第二通过投票方法识别正文的文本。
 
  通过建立标签书的实现,正文就具有了分块保存的特性,因此引入文本块的概念。一般来说网页会出现3种类型的文本块。
 
  (1)主题型文本块。
 
  是指大段文字的文本块,例如<p></p>,<td><td/>等
 
  (2)目录型文本块。
 
  是指描述链接的文本块,例如<a href=""> <a/>
 
  (3)图片型文本块。
 
  是描述图片的文本块,例如<img src=""/> 目录型文本块和图片型文本块容易识别。
 
  如何判读那个文本块是正文,常规的采用手法是"投票算法"计算,这种方法在搜索引擎中特别重要。在这个投票算法中,(重点:除掉一个最高分和最低分)别人为是相对客观和可信的。通过一些规则为每一个文本块打分,得分最高的别人为是正文的可能性足够大,并且可以接受。投票实际规则比较复杂!搜索引擎一般定义为【文本的长度】和【文本的位置】右侧为0分,顶部为3分,左侧为5分,中间为10分。
 
  剩下的工作就是采用深度优先遍历标签树依次记录主题类型的文本块,即可得到该网页的正文。
 
  恭喜你,能看完这篇帖子,我相信认真阅读的人,都会有所收获,或许是好的,也有可能是“坏的”?seo前线认为,对于认真的学习的人,一定会在今后的网页构建中有新的认识。也至于不被有些“网上的大神所忽悠”,基于这样的常识,你一定会有不同的SEO思维。如果各位还想继续学习这方面的知识, 鄙人觉得可以看看“链接分析”和“中文分词”的一些相关知识。
 
  seo教程自学网点评:
 
  推荐自学seo的朋友,熟悉搜索引擎基本原理,把学习到的seo技术与实践相结合。以结果为导向辩证你学习到的seo理论,技术是否有效。假设你的站点运营优化得当,你可以从中获益,另外一方面,还可以增强你学习seo的自信心。

发布时间:2017-07-30

文章来源:seo前线

编辑整理:SEO教程自学网

如需转载 http://seoyy.cn/seozhanchangxueyuan/440.html 请注明出处

本文关键词: 网站页面优化