SEO优化中的robots.txt文件该怎么设置?

发表时间:2018-06-02 10:36

网站的robots.txt文件的作用是告诉搜索引擎网站的哪些页面可以抓取,哪些页面不允许被抓取。


蜘蛛协议.png


百度官方建议,当且仅当你的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。


网站的哪些内容是应该禁止搜索引擎抓取的呢?答案如下:


1、重复的页面。如果网站的重复页面太多,会大大浪费搜索引擎抓取网站的时间,影响蜘蛛的友好度。比如:网站以前是动态页面,现在做了伪静态,就会生成大量重复的页面。这个时候我们需要把这些重复的动态页面通过robots.txt文件来禁止搜索引擎抓取。


禁止抓取动态页面.png▲禁止抓取网址中带问号的页面,即禁止抓取动态页面


2、重复的图片。如果网站套用的是网络上的模板,那么里面肯定会有许多重复的图片。这也是搜索引擎不喜欢的。另外我们也可以将网站根目录里面的模板文件夹通过robots.txt禁止掉。一般模板目录的文件目录是:templets。


禁止访问模板文件.png


3、缓存目录。许多cms程序都有缓存目录,这种缓存目录的优点能够十分有用的晋升网站的拜访速度,削减网站带宽,对用户体会也是极好的。不过,这样的缓存目录会让搜索引擎蜘蛛进行重复的抓取。所以也有必要禁止掉。


目标访问缓存目录.png


4、隐密性文件(存疑)。如果我们网站有私密文件,不想暴露给搜索引擎,也可以通过robots.txt进行屏蔽。不过这里有一个问题,如果我们把网站的私密文件声明在了robots.txt里面,虽然搜索引擎不会抓取收录,但是生活中难免会有一些居心叵测的人,他们可以非常轻易地通过你的robots.txt协议发现网站的私密性文件,这个是很不安全的。就像我们网站的后台,如果声明在robots.txt文件里,就很容易被别有用心的黑客加以利用,最后危害网站的利益。好在的是,现在搜索引擎越来越智能了,对于网站的后台目录能极好地辨认,并抛弃索引。所以像网站后台这种私密性的目录就没有必要通过robots.txt屏蔽了。


上面说的是网站的哪些内容应该屏蔽搜索引擎,下面再来说说robots.txt的书写案例。


例1:禁止所有搜索引擎抓取网站的任何部分。

User-agent: *

Disallow: /


例2:允许所有的搜索引擎抓取网站的任何部分。

User-agent: *

Disallow:


例3:仅禁止Baiduspider抓取你的网站

User-agent: Baiduspider

Disallow: /


例4:仅允许Baiduspider抓取你的网站

User-agent: Baiduspider

Disallow:


例5:禁止spider抓取特定目录

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /data/


例6:允许抓取特定目录中的部分url

User-agent: *

Allow: /a/b.htm

Disallow: /a/

注:只允许抓取a目录下的b.htm文件。


例7:禁止抓取网站中所有的动态页面

User-agent: *

Disallow: /*?*


例8:禁止搜索引擎抓取网站上所有图片。

User-agent: *

Disallow: /*.jpg$

Disallow: /*.jpeg$

Disallow: /*.gif$

Disallow: /*.png$

Disallow: /*.bmp$

("$" 结束符;"*"任意符)


上面是robots.txt书写的8个案例,更为详细的设置可以参考:robots.txt百度百科