网站 robots.txt 的格式写法攻略

发布日期：2009/12/11 浏览次

robots.txt是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。

    对待SEO，只是网站推广方法中一种，网站推广只是网络营销工作中的一个环节，而网络营销也只是网络策划中的一部分. 而网络策划只是一个工具。
    但是，我依然很认真的对待SEO，让它逐渐发挥更大的价值
    我没有大家幻想的不肯透露给大家的高深SEO绝招。我只是很认真！认真的在SEO技术基础上，通过各种SEO策略以达到更好的效果，通过SEO赚钱方法总结使更多的SEO学员利用SEO这个工具获得自己想要的。
    所以我在培训SEO（www.lzamai.cn）中，分了四个阶段来讲：1、SEO基础、2、SEO策略、3、排名提高、4、赚钱方法。并且安排有详细的实践作业。所以我敢去承诺保证学会，保证赚钱，在半年内赚不到前退学费。
    当一个搜索机器人（有的叫搜索蜘蛛）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索机器人就沿着链接抓取。
    另外，robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。
一般一个网站的robots.txt的内容格式为：
# Robots.txt file from http://www.lzamai.com
# All robots will spider the domain
User-agent: *
Disallow:
上面的写法中则是接受所有的搜索引擎。
    具体语法分析：其中#后面文字为说明信息；User-agent:后面为搜索机器人的名称，后面如果是*，则泛指所有的搜索机器人；Disallow:后面为不允许访问的文件目录。
举例如下：
    允许所有的robot访问
    User-agent: *
    Disallow:
    或者也可以建一个空文件 “/robots.txt” file
    禁止所有搜索引擎访问网站的任何部分
    User-agent: *
    Disallow: /
禁止所有搜索引擎访问网站的几个部分（下例中的01、02、03目录）
    User-agent: *
    Disallow: /01/
    Disallow: /02/
    Disallow: /03/
禁止某个搜索引擎的访问（下例中的BadBot）
    User-agent: BadBot
    Disallow: /
只允许某个搜索引擎的访问（下例中的Crawler）
    User-agent: Crawler
    Disallow:
    User-agent: *
    Disallow: /
同时robots.txt中也可以带meta标签。
    name=”Robots”表示所有的搜索引擎，可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项：index、noindex、follow、nofollow，指令间以“,”分隔。
介绍下常用搜索引擎的蜘蛛机器人的写法：
    常见搜索引擎机器人Robots名字
    名称搜索引擎
    Baiduspider http://www.baidu.com
    Scooter http://www.altavista.com
    ia_archiver http://www.alexa.com
    Googlebot http://www.google.com
    Robots Meta标签的缺省值是INDEX和FOLLOW，只有inktomi除外，对于它，缺省值是        INDEX,NOFOLLOW。
    NOINDEX -不索引当前页面
    NOFOLLOW -不跟踪当前页面中所有的链接
    NOARCHIVE -在搜索结果中不保存当前页面的快照
    NOSNIPPET - 在搜索结果中不采用当前页面的头部描述信息，且不保存当前页面的快照
    NOODP -搜索结果中不使用DMOZ 中的描述信息，Yahoo!、MSN也支持此类标签。
    NONE -不索引当前页面以及其中的所有链接，跟“NOINDEX, NOFOLLOW” 含义相同
一共有四种组合：
＜META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”＞
＜META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”＞
＜META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”＞
＜META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”＞

绝大多数的搜索引擎机器人都遵守robots.txt的规则，而对于Robots META标签，目前支持的并不多，但是正在逐渐增加，如著名搜索引擎GOOGLE就完全支持，而且GOOGLE还增加了一个指令“archive”，可以限制GOOGLE是否保留网页快照。例如：
＜META NAME=”googlebot” CONTENT=”index,follow,noarchive”＞
表示抓取该站点中页面并沿着页面中链接抓取，但是不在GOOLGE上保留该页面的网页快照。
下面再介绍下常见robots.txt错误
l 颠倒了顺序：
错误写成
User-agent: *
Disallow: GoogleBot
正确的应该是：
User-agent: GoogleBot
Disallow: *
l 把多个禁止命令放在一行中：
例如，错误地写成
Disallow: /css/ /cgi-bin/ /images/
正确的应该是
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
l 行前有大量空格
例如写成
Disallow: /cgi-bin/
尽管在标准没有谈到这个，但是这种方式很容易出问题。
l 404重定向到另外一个页面：
当Robot访问很多没有设置robots.txt文件的站点时，会被自动404重定向到另外一个Html页面。这时Robot常常会以处理 robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题，但是最好能放一个空白的robots.txt文件在站点根目录下。
l 采用大写。例如
USER-AGENT: EXCITE
DISALLOW:
虽然标准是没有大小写的，但是目录和文件名应该小写：
user-agent:GoogleBot
disallow:
l 语法中只有Disallow，没有Allow！
错误的写法是：
User-agent: Baiduspider
Disallow: /john/
allow: /jane/
l 忘记了斜杠/
错误的写做：
User-agent: Baiduspider
Disallow: css

^_^ 美好总是短暂，还想见到你！

上一条：假如没有百度和Google
下一条： robots.txt标准写法及实例

营销小程序