1. 「柴叔SEO」首页
  2. 网络营销

杏鑫注册#首页

《SEO实战密码》搜索引擎工作原理、杏鑫注册#首页【Q86345】为深入了解SEO打下良好基础

1.了解搜索引擎

网站域名和页面权重非常重要,权重除了意味着全维度高、内容可靠,因而容易获得好排名外,获得一个最基本的权重,也是页面能参与相关性计算的最基本条件。一些权重太低的页面,就算有很高的相关性也很可能无法获得排名,因为根本没有机会参与排名。

对于大型网站来说,最关键的问题是解决收录。只有收录充分,才能带动大量长尾关键词。

2.搜索引擎与目录

真正的搜索引擎指的是由蜘蛛程序沿着链接爬行和抓取网上的大量页面,存进数据库,经过预处理,用户在搜索输入关键词后,搜索引擎排序程序从数据库中挑选出符合搜索关键词要求的页面。蜘蛛的爬行、页面的收录及排序都是自动处理。

典型的网站目录包括雅虎目录、开放目录、好123等。目录的数据来源是人工编辑得到的。

搜索引擎与目录各有优劣,首先搜索引擎收录的页面数远远高于目录能收录的页面数,但搜索引擎收录的页面质量参差不齐,对网站内容和关键词提取的准确性通常没有目录高;再者,目录能收录的通常只是网站首页,规模十分有限,但收录的网站质量比较高。最后搜索引擎数据更新快,目录中收录的很多网站内容十分陈旧,甚至不再存在了。

现在的网站目录对于SEO的最大意义是建设外部链接,像雅虎、开放目录、好123等都有很高的权重,可以给被收录的网站带来一个高质量的外部链接。

3.搜索引擎面对的挑战

页面抓取需要快而全面,搜索引擎蜘蛛更新一次数据库中的页面要花很长时间,所以一些网站并不利于搜索引擎蜘蛛爬行和抓取,诸如网站链接结果的缺陷、大量使用Flash、JavaScript脚本,或者把内容放在用户必须登录以后才能访问的部分,都增大了搜索抓取内容的难度。

杏鑫注册经典搜索结果列表,主要分为三部分。(举例:谷歌)

第一行是页面标题,通常取自页面HTML代码中的标题标签(Title Tag)。可见页面标题标签的写法,无论对排名还是对点击率都有重要意义。

第二行、第三行是页面说明。页面说明有的时候取自页面HTML中的说明标签(Description Tag),有的时候从页面可见文字中动态抓取相关内容。显示什么页面说明文字是用户查询时才决定的。

第四行显示三个信息。最左侧是网址,用户可以看到网页来自哪个网站,以及目录、文件名信息。中间是百度数据库中页面最后更新的日期。然后是百度快照链接,用户可以点击快照,查看存储在百度数据库中的页面内容。

用户所搜索的关键词在标题及说明部分都用红色高亮显示。

杏鑫注册
杏鑫注册

4.搜索引擎工作原理简介

搜索引擎的工作过程大体分为三个阶段。

爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。

蜘蛛

蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。

Baiduspider+(+http://www.baidu.com/search/spider.htm) 百度蜘蛛

跟踪链接

最简单的爬行遍历策略分为两种,一种是深度优先,另一种是广度优先,通常混合使用。

吸引蜘蛛

蜘蛛尽量抓取重要页面:1、网站和页面权重,质量高、资格老的网站被认为权重比较高,被爬行的深度也比较高,会收录更多内页;2、页面更新度,经常更新,蜘蛛频繁访问,更快跟踪和抓取新页面;3、导入链接,无论是外部链接还是同一网站的内部链接,必须有导入链接进入页面;4、与首页点击距离,一般网站权重最高是首页,大部分外部链接是指向首页的,离首页点击距离越近,页面权重越高,被蜘蛛爬行机会越大。

爬行时的复制内容检测

杏鑫注册检测并删除复制内容通常在预处理中进行,爬行和抓取文件时也会进行一定程度的复制内容检测。遇到权重很低的网站上大量转载或抄袭内容时,很可能不再继续爬行。

预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。

排名:用户输入关键词后,排名程序索引库数据,计算相关性,然后按一定格式生成搜索结果页面。

5.链接原理

黑帽SEO指所有使用作弊或可疑手段的,如垃圾链接,隐藏网页,桥页,关键词堆砌等。

链接因素现在已经超过页面内容的重要性。

Google PR

PR是PageRank的缩写,Google PR理论是所有基于链接的搜索引擎理论中最有名的。PR是Google创始人之一拉里佩奇发明的,用户表示页面重要性的概念。简单说,反向链接越多的页面就是越重要的页面,因此PR值也就越高。

传递的PR数值也取决于页面上的到处链接数目。所以一个页面的PR值取决于导入链接总数,发出链接页面的PR值,以及发出链接页面上的到处链接数目。

PR值计算公式是PR(A)=(1-d)+d(PR(t1)/C(t1)+…+PR(tn)/C(tn))

A代表页面A

PR(A)代表页面A的PR值

d为阻尼指数。通常认为d=0.85

t1…tn代表链接向页面A的页面t1到tn

C代表页面上的导出链接数目。C(t1)即为页面t1上的导出链接数目。

从概念及计算公式都可以看到,计算PR值必须使用迭代计算。PR值只与链接有关。经常有站长询问,他的网站做了挺长时间,内容也全是原创的,怎么PR还是零呢?其实PR与站长是否认真、做站多长时间、内容是否原创都没有直接关系。有反向链接就有PR,没有反向链接就没有PR。一个高质量的原创网站,一般来说自然会吸引到比较多的外部链接,所以会间接提高PR值,但这并不是必然的。

PR除了影响排名,重要性还有几点:

网站收录是深度和总页面数。PR值越高的网站就能被收录更多页面,蜘蛛爬行内页的深度也更高。

更新频率。PR值越高的网站,搜索引擎蜘蛛访问的越频繁。

重复内容判定。PR值越高、权重越高的大网站,转载小网站内容被当做原创。

排名初始子集的选择。初始子集的选择与关键词相关度无关,而只能从页面的重要程度着手,PR值就是与关键词无关的重要度指标。

PR算法应该已经排除了一部分Google认为可疑或者无效的链接,比如付费链接、博客和论坛中的垃圾链接等。

Hilltop算法

Hilltop算法可以简单理解为与主题相关的PR值。传统PR值与特定关键词或主题没有关联,只计算链接关系。这就有可能出现某种漏洞。所以,要去主题相关、业务相关的论坛或者分类信息网站发锚文本。

Hilltop算法提示SEO,建设外部链接时更应该关注主题相关的网站。最简单的方法是搜索某个关键词,目前排在前面的页面就是最好的链接来源,甚至可能一个来自竞争对手网站的链接效果是最好的。当然,获得这样的链接难度最大。

6.用户怎样浏览和点击搜索结果

著名的用户视线分布金三角

搜索用户点开搜索结果页面后,目光会首先放在最左上角,然后向正下方移动挨个浏览搜索结果,当看到感兴趣的页面时,横向向右阅读页面标题。排在最上面的结果得到的目光关注度最多,越往下越少,形成一个所谓的“金三角”。

7.高级搜索指令

双引号,把搜索词放在双引号中,代表完全匹配搜索,也就是说搜索结果返回的页面包含双引号中出现的所有的词,连顺序也必须完全匹配。百度和Google都支持这个指令,搜索结果更准确。

减号,减号(-),即目标文字-(需排出的词),可排除不相关搜索结果。

关键*语,搜索结果可呈现为“关键术语、关键词语、关键言语”等。

inurl,inurl:指令用于搜索查询词出现在URL中的页面。百度和Google都支持inurl,inurl指令支持中文和英文。

site:是SEO最熟悉的高级搜索指令,用来搜索某个域名下所有文件。

link:也是SEO常用的指令,用来搜索某个url的反向链接,既包含内部链接,也包括外部链接。Google查反向链接几乎没有用,百度则不支持link:指令。

原创文章,作者:柴叔seo,如若转载,请注明出处:https://www.cxta.com/20296.html

发表评论

登录后才能评论

联系我们

13888888888

在线咨询:点击这里给我发消息

邮件:888888@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code