新闻中心

联系我们

谷歌搜索引擎优化是如何爬取网站数据的

浏览数量： 992 作者：本站编辑发布时间： 2019-12-06 来源：本站

["wechat","weibo","qzone","douban","email"]

1、谷歌搜索引擎提取关键词

2、谷歌搜索引擎消除重复与转载网页

3、谷歌搜索引擎重要信息分析

4、谷歌搜索引擎网页重要度分析

5、谷歌搜索引擎倒排文件

谷歌搜索引擎预处理

　　预处理是搜索引擎最复杂的部分，基本上大部分排名算法都是在预处理这个环节生效。那么搜索引擎在预处理这个环节，针对数据主要进行以下几步处理：

　　1、谷歌搜索引擎提取关键词

　　蜘蛛抓取到的页面与我们在浏览器中查看的源码是一样的，通常代码杂乱无章，而且其中还有很多与页面主要内容是无关的。由此，搜索引擎需要做三件事情：代码去噪。去除掉网页中所有的代码，仅剩下文本文字。②去除非正文关键词。例如页面上的导航栏以及其它不同页面共享的公共区域的关键词。③去除停用词。停用词是指没有具体意义的词汇，例如“的”“在”等。

　　当搜索引擎得到这篇网页的关键词后，会用自身的分词系统，将此文分成一个分词列表，然后储存在数据库中，并与此文的URL进行一一对应。

　　2、谷歌搜索引擎消除重复与转载网页

　　每个搜索引擎其识别重复页面的算法均不相同，但是其中小编认为，如果将消重算法理解为由100个元素组成，那么所有的搜索引擎恐怕其80个元素都是完全一样的。而另外20个元素，则是根据不同的搜索引擎针对seo的态度不同，而专门设立的对应策略。

　　3、谷歌搜索引擎重要信息分析

　　在进行代码除噪的过程中，搜索引擎并非简单的将其去除掉而已，而是充分利用网页代码（例如H标签、strong标签）、关键词密度、内链锚文本等方式分析出此网页中最重要的词组。

　　4、谷歌搜索引擎网页重要度分析

　　通过指向该网页的外链锚文本所传递的权重数值，来为此网页确定一个权重数值，同时结合上述的“重要信息分析”，从而确立此网页的关键词集合p中每一个关键词所具备的排名系数。

　　5、谷歌搜索引擎倒排文件

　　正如上文所说，用户在查询时所得到的查询结果并非是及时的，而是在搜索引擎的缓存区已经大体排好的，当然搜索引擎不会未卜先知，他不会知道用户会查询哪些关键词，但是他可以建立一个关键词词库，而当其处理用户查询请求的时候，会将其请求按照词库进行分词。那么这样下来，搜索引擎就可以在用户产生查询行为之前，将词库中的每一个关键词其对应的URL排名先行计算好，这样就大大节省了处理查询的时间了。

　　简单来说，搜索引擎用控制器来控制蜘蛛爬取，然后将URL集与原始数据库进行保存，保存之后再用索引器控制每个关键词与URL之间的对应关系，并将其保存在索引数据库中。

新闻中心

谷歌搜索引擎优化是如何爬取网站数据的

相关新闻