对于 泰州网站优化来说,能够做的事情是方方面面的,要想将网站优化好,就需要注意到一些很细节的问题,比如网站的 Robots文件。 Robots.txt是网站根目录下的一个 搜索引擎协议文件。
当搜索蜘蛛来抓取网站页面的时候,首先就会先访问Robots.txt文件,在这个文件中,按理说应该是要写上蜘蛛不能爬哪些链接,能爬哪些链接。
Robots协议是 搜索引擎通用的一种协议,设定之初主要是为了保护网站隐私,后来成为了一个很重要的东西,通过它,网站不仅仅能够实现阻止搜索引擎抓取特定的页面和文件,还能够引导搜索引擎抓取特定的页面和文件。
比如,你能够在Robots.txt文件中屏蔽一些不重要的页面,减少搜索引擎的抓取,从而节省搜索引擎蜘蛛对于服务器资源的占用;你还能够屏蔽掉一些网站死链,防止搜索引擎对 网站权重的降低;如果在Robots.txt文件中你加入 网站地图链接或者是其他的一些重点页面的链接,还能够引导蜘蛛对这些页面进行频繁的抓取,从而有效的增加网站的 收录。
关于Robots.txt的编写格式,网上已经有一大堆的资料,我们在这里就不做额外的介绍了,下面重点介绍下网站Robots.txt编写的一些要点:
1.屏蔽死链、错误页面、 重复页面
死链一般指的是返回码为是 404的页面,当然还有其他的一些,都是无法访问的页面,搜索引擎对这些页面的抓取会造成整体上对网站进行降权,同理,错误页面和重复页面也会造成同样的结果。特别是有的网站,开始用的是动态地址,后来换成静态地址了,但是却没有及时的屏蔽掉之前的动态地址,造成网站的重复收录,这样对于搜索引擎来说,是不好的。
2.屏蔽后台目录、服务条款页面等等
这些都是对于用户没什么意义的页面和目录,但是也占据了搜索引擎蜘蛛的抓取时间和服务器的资源,所以建议将这些屏蔽掉,但是这个有一个负面,就是容易暴露自己网站的后台地址,具体如何做,可以根据自己的实际情况斟酌一番,但是非重点页面屏蔽掉确实是一个不错的选择。
3.允许抓取重点页面
一般来说,不允许抓取某些页面就是代表着其他的页面都允许抓取,所以没必要再写入允许抓取某些页面的协议了。但是实际上,因为服务器中页面数量庞大,所以要指望搜索蜘蛛能够都将这些被允许抓取的页面抓取一遍,那是非常不现实的事情,所以这个时候,你可以将一些重点页面放入到Robots.txt中去,比如网站地图文件等,这样就能够引导搜索蜘蛛去抓取你想要让蜘蛛频繁抓取和更新的页面了。
4.屏蔽特定的文件
为了避免蜘蛛抓取一些不相关的文件,可以屏蔽掉网站上的所有CSS、JS之类的文件,使用方法就是:Disallow: /*.css$、Disallow: /*.js$。
Robots的编写是一个很严肃的事情,需要你注意其中的每一条,也许一个不经意的错误就能够让你的网站产生无可挽回的后果。但是如果做好了,也会使得你的网站能够更有效率的吸引搜索引擎蜘蛛的抓取,对网站SEO优化有很大的效果。