seo11.jpg seo北京网站上的robots.txt文件设置合理吗?哪些文件或目录要求被阻止以及哪些设置对网站运营有利?有人复制相同的内容以应对不同搜索引擎的排名规则。但是,一旦搜索引擎在网站中发现大量“克隆”页面,它将受到处罚,并且不会包含这些重复页面。

另一方面,我们网站的内容是个人和私人的,不希望暴露给搜索引擎。这时,robot.txt就是为了解决这两个问题。

一、什么是robots.txt?

Robots.txt是网站和搜索引擎之间协议的纯文本文件。当搜索引擎蜘蛛访问某个网站时,它会首先抓取以检查网站根目录中是否存在robots.txt,

如果是,请根据文件内容确定访问范围。如果没有,蜘蛛会沿着链接爬行。 robots.txt放在项目的根目录中。

二、 robots.txt基本语法:

1)允许所有搜索引擎访问网站的所有部分

Robots.txt的编写如下:

用户代理: *

禁止:

用户代理: *

允许:/

注意:1。****英文应该大写,冒号是英文,冒号后面有空格。这些要点不得写错。

2)禁止所有搜索引擎访问网站的所有部分

Robots.txt的编写如下:

用户代理: *

禁止:/

3),只需要禁止蜘蛛访问目录,例如禁止将admin,css,images等目录编入索引

Robots.txt的编写如下:

用户代理: *

禁止:/css/

禁止:/admin/

禁止:/images/

注意:斜杠和路径后面的斜杠之间存在差异:例如,Disallow:/images /有一个斜杠,禁止获取整个文件夹。禁止:/images没有斜杠表示路径中有/images关键字。将被阻止

4),屏蔽一个文件夹/模板,但也可以捕获其中一个文件的写入: /模板/主

Robots.txt的编写如下:

用户代理: *

禁止: /模板

允许:/main

5),禁止访问/html /目录中包含后缀“.php”的所有URL(包括子目录)

Robots.txt的编写如下:

用户代理: *

禁止:/html/* .php

6),只允许访问目录中带后缀的文件,使用“$”

Robots.txt的编写如下:

用户代理: *

允许:html $

禁止:/

7),禁止动态页面中的所有索引页面

例如,这里是带有“?”的域名,例如index.php?id=1

Robots.txt的编写如下:

用户代理: *

禁止:/*?*

8),禁止搜索引擎抓取我们网站上的所有图片(如果您的网站使用其他后缀图片名称,您也可以直接在这里添加)

在某些情况下,为了节省服务器资源,我们需要禁止各种搜索引擎在我们的网站上索引图像。除了使用直接阻止文件夹的方法,如“Disallow:/images /”,我们还可以直接采取阻止图像后缀的方式。

Robots.txt的编写如下:

用户代理: *

禁止:jpg $

禁止:jpeg $

禁止:gif $

禁止:png $

禁止:bmp $

 三、写robots.txt要注意的地方:

1),****英文应大写,冒号是英文,冒号后有空格,这些点一定不能写错。

2.),斜杠:/代表整个网站

3)如果“/”后跟一个空格,则整个站点被阻止

4)不要禁止正常内容

5),有效时间为几天到两个月

四、robots.txt文件对网站优化有什么作用?

1.迅速增加网站的重量和访问量;

2.停止搜索引擎索引某些文件,这样可以节省服务器带宽和网站访问速度;

3.为搜索引擎提供简洁明了的索引环境

五、哪些网站的目录需求运用robots.txt文件制止抓取?

1),图像目录

图像是网站的主要组成部分。现在建立一个站越来越方便。提出了许多cms。打字确实会建立一个网站。正是由于这种便利,许多同质化的模板网站在因特网上显示并被重复使用。这样的网站搜索引擎一定是不可爱的。即使输入了您的网站,您的角色也很差。如果您想使用这种类型的网站,建议您在robots.txt文件中阻止它。一般网站图像目录是:imags或img;

2),网站模板目录

cms的强大功能和敏感性也导致许多同质网站模板的呈现和滥用。高度重复的模板在搜索引擎中形成冗余,模板文件通常与生成的文件高度相似,并且同样易于形成。呈现相同的内容。搜索引擎非常不友好,由搜索引擎严重直接进入冷宫,无法翻身,很多cms都有单独的模板注册目录,因此,可能屏蔽了模板目录。通用模板目录的文件目录是:temples

3),css,js目录阻塞

css目录文件在爬网查找引擎时没有用,也没有提供有价值的信息。因此,强烈主张在robots.txt文件中屏蔽它以提高搜索引擎的索引质量。为搜索引擎提供简洁明了的索引环境,可以更轻松地宣传网站的友好性。 css样式目录通常是:css或style,

无法在搜索引擎中识别js文件。只声称它可以被屏蔽。这还有一个优点,即为搜索引擎提供简单明了的索引环境;

4),屏蔽双页内容

以这里的dedecms为例。 Dedecms可以使用静态和动态URL访问相同的内容。如果生成静态全站点,则需要阻止动态地址的url连接。

这有两个好处:

1,静态url的搜索引擎比动态url更友好,更容易进入;

2,为避免静态,动态网址可以访问同一篇文章并将搜索引擎判断为重复内容。这有助于找到引擎友好性。

5),模板缓存目录

许多cms程序都有缓存目录。这个缓存目录的优点,我不想说我们也理解它。提升网站访问速度,减少网站带宽,对用户来说也非常有用。但是,这样的缓存目录也存在一定的缺陷,即搜索引擎会被反复爬行,而网站的内容也是一大牺牲,这对网站没有好处。许多使用cms建造车站的兄弟没有注意到有必要引起注意。

6),删除目录

搜索引擎优化过多的死链已经死了。不能不导致站长的高度。在网站的开发过程中,删除和调整目录是不可避免的。如果您的网站目录当时不存在,则必须屏蔽目录并返回正确的404错误页面。

这里有一个有争议的问题。是否有必要在后台阻止网站的内容?实际上,这是可选的。在确保网站安全的情况下,如果您的网站运营计划很小,即使网站目录显示在robots.txt文件中,也没有太大疑问。我看到很多网站都是这样设置的;但如果是你的网站操作计划很大,而且对手太多了。强烈主张不得出现网站后端管理目录的信息,以免被担心的人使用,这会损害您的利益;引擎越来越智能化,网站的管理目录仍然能够很好地识别和丢弃索引。此外,当我们在网站的后台进行时,我们还可以添加页面元标记:执行搜索和捕获搜索引擎。