对于SEO的新手,你不需要考虑太多的东西。明白伪原创也是获胜的法宝的本质。了解获取外部资源的方法足以使您受益。随着SEO工作的不断深入,您将慢慢发现充分利用网络为您提供帮助的重要性。了解搜索引擎的运作就是关键。
搜索引擎的工作原理经常在我们的培训中提到。简而言之,它主要是三个步骤,爬行和爬行,预处理(因为索引是预处理的主要组成部分,所以有些人将此步骤称为索引),排名。排除这一设计算法问题,让我们深入研究它。这里我们主要讨论爬行和爬行以及预处理。
一、爬行和抓取通过蜘蛛程序,每个搜索引擎在访问网站时将首先访问网站根目录下的robots.txt文件,从而获取禁止抓取网站的网站信息。对于禁止抓取的网址,它们不会包含在搜索引擎中。但是,需要注意的一个现象是百度目前以下面的淘宝网方式显示一些使用百度蜘蛛屏幕的网站。这种现象正逐渐变得越来越普遍(特别是,这并不是说百度不遵守机器人协议,打开这种包含URL的快照,你会发现快照是空的)。
20181021_5bcc2a3c73a20.jpg要获取更多信息,蜘蛛会按照页面上的链接抓取页面。从理论上讲,蜘蛛可以通过链接抓取整个互联网上的信息,但实际上,考虑到页面的复杂性,蜘蛛会采取深度爬行和广度爬行来进行页面爬行。为了避免重复抓取和抓取,搜索引擎将创建一个已发现但未被抓取且已被抓取的两个网页地址的参考数据库,并且已抓取的网页将进入原始页面数据库。到目前为止,原始数据库的建立已经结束。
二、预处理(索引)阶段在创建原始数据库之后,搜索引擎将处理网页的文本提取。当然,除了页面上显示的文本之外,搜索引擎还将提取元标记,flash替换文件,锚文本和alt标记等文本。提取文本后,它将进入下一阶段:分词。
无论百度算法有多么垃圾,不可否认的是,百度的中文分词技术无法在搜索引擎中煽动。对于页面上捕获的文本,搜索引擎将执行分词处理,例如,“瘦小腿方法”分为两部分:“瘦腿”和“方法”。分词方法一般有两种方法:字典和统计。字典不需要太多解释;统计学上,它意味着通过分析大量文本来计算单词之间相邻发生的概率。概率越大,形成一个单词就越容易。百度目前正在将这两种方法结合起来,以达到最佳效果。
或许在谈到这一点时,每个人都会问,你用一些经常在中文中找到的词来做什么,比如“,”,“,”,“是”和其他没有实际意义但经常使用的词?答案是剔除,这提高了搜索引擎的计算效率。
浏览网页上的信息时,我们会发现网站上有一些重复的部分,例如“导航”和“广告”。这些部分对页面内容没有实际意义。当然,搜索引擎也将处理该部分内容以过滤掉所包含内容的最终文本部分。当然,在过滤掉文本部分之后,搜索引擎还将比较每个网页上显示的最终文本内容,从而删除重复的内容以供显示。
好了,经过上述步骤,您可以构建索引库。这时,指数将分为两个阶段:前向指数和反向指数。前向索引可以简单地理解为包含页面的URL是主键的数据库,页面上的分词处理结果是作为内容建立的数据库,如下图所示。
20181021_5bcc2a3d18148.jpg转发索引的结束,我们可以发现不能用于排名,那么你需要反转索引,即关键字作为主键,包含关键字的URL和内容索引数据库的相应内容, 如下所示。
20181021_5bcc2a3d9d983.jpg此时,搜索引擎然后通过分析链接和特殊文件的处理,预处理(索引)阶段将结束。由此我们还可以看出,对搜索引擎原理的深入理解,对日常SEO工作的理解和启发仍然非常明显。例如,在伪原创的过程中,您只需在一些文章中添加一些简单的辅助词,或对文本的一小部分进行简单的修改。抱歉,您的文章处于预处理甚至爬行和爬行阶段。通过。