撰写robots.txt的注意事项

搜索引擎通过一种程序robots.txt(又称spider),自动访问互联网上的网页并获取网页信息。robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。robots.txt的存在不但能节约搜索引擎时间成本,而且能提高对我们网站自身爬取的效率,提高我们网站的收录量也有一定帮助的,但是笔者觉得撰写robots.txt有很多需要注意的地方。

操作方法

  • 01

    一、合理的使用robots.txt文件,可以有效的避免用户从搜索引擎进入网站,不经过登录就能进行各种操作,因为有些网站需求必须登录才能操作,这样也方便管理用户。

  • 02

    ​二、有时候我们可以使用robots.txt防止搜索引擎抓取动态页面,而只允许它抓取伪静态页面。因为现在很多时候,由于网站的需求我们的网页是伪静态。

  • 03

    ​三、我们需要将搜索引擎爬虫远离网站的程序文件和后台管理文件,这样可以保证整个网站的正常运行。

  • 04

    ​四、为了节省服务器的资源,我们可以将一些想保护的文件分类放入特定的文件夹,然后使用Disallow:/语法进行有效的阻止,包括数据库文件、模版文件、CSS样式文件、导航图片和背景图片等等。

  • 05

    ​五、我们还可以设置允许那个或者那几个搜索引擎蜘蛛访问抓取网站的内容,避免一些垃圾的搜索引擎对网站内容无限制抓取,而导致网站服务器性能降低甚至瘫痪的现象发生。

  • 06

    ​六、对于一些初学者来说,robots.txt的语法不怎么熟悉,写的不正确或者不规范,可以直接在网站的根目录下上传一个空的文本文档 ,把文档的名称写为小写的robots.txt。

(0)

相关推荐

  • SEO并不需要太高深的技巧:15个SEO注意事项

    SEO并不需要太高深的技巧:15个SEO注意事项 操作方法 01 SEO应该注意的事项实在非常多,从On-Page与Off-Page的观点来看,就有一大堆的注意事项,如果从QDF的观点来看,又有一堆内 ...

  • Robots是什么意思

    一、Robots是什么意思? Robots是一个英文单词,对英语比较懂的朋友相信都知道,Robots的中文意思是机器人。而我们通常提到的主要是Robots协议,这也是搜索引擎的国际默认公约。 二、Ro ...

  • 利用百度查看网站Robots协议的方法

    相信很多小伙伴都有在使用百度,那么在其中我们怎么去查看网站Robots协议呢?方法很简单,下面小编就来为大家介绍.方法一:1. 通过输入网址"https://www.baidu.com/&q ...

  • linux搭建nginx WEB服务器的教程

    下文来为各位介绍一篇在linux搭建nginx WEB服务器的教程,如果各位不想使用apache环境了,想用nginx环境就可以和小编一起来看看。 1、下载nginx 命令:wget http://n ...

  • SEO优化过程中的十大法则

    在做SEO的时候,你可能有这样那样的问题达不到预期的目标.原因有很多种,深圳优柏通过网站优化实践.总结觉得企业网站优化赢在细节,提出以下十点注意事项: 操作方法 01 1.网站程序选择 很多企业公司, ...

  • 如何申请google谷歌广告联盟?

    操作方法 01 Google AdSense是一种获取收入的快速简便的方法,适合于各种规模的网站发布商.它可以在网站的内容网页上展示相关性较高的Google广告,并且这些广告不会过分夸张醒目.由于所展 ...

  • centos中wget的使用方法

    对于 Linux 用户来说,几乎每天都在使用它。 下面为大家介绍几个有用的 CentOS wget 小技巧,可以让你更加高效而灵活的使用CentOS wget。 CentOS wget 使用技巧 $ ...

  • linux wget 命令用法详解(附实例说明)

    Linux wget是一个下载文件的工具,它用在命令行下。对于Linux用户是必不可少的工具,尤其对于网络管理员,经常要下载一些软件或从远程服务器恢复备份到本地服务器。如果我们使用虚拟主机,处理这样的 ...

  • Windows配置heritrix3做网络爬虫开发实例

    一、引言: 最近在忙某个商业银行的项目,需要引入外部互联网数据作为参考,作为技术选型阶段的工作,之前已经确定了中文分词工具,下一个话题就是网络爬虫的选择,目标很明确,需要下载一些财经网站的新闻信息,然 ...