当前位置:首页 > 小程序百科 > 网站 robots.txt 的格式写法攻略

网站 robots.txt 的格式写法攻略

发布日期:2009/12/11 浏览次数: 文章类别:小程序百科

    对待SEO,只是网站推广方法中一种,网站推广只是网络营销工作中的一个环节,而网络营销也只是网络策划中的一部分. 而网络策划只是一个工具。
    但是,我依然很认真的对待SEO,让它逐渐发挥更大的价值
    我没有大家幻想的不肯透露给大家的高深SEO绝招。我只是很认真!认真的在SEO技术基础上,通过各种SEO策略以达到更好的效果,通过SEO赚钱方法总结使更多的SEO学员利用SEO这个工具获得自己想要的。
    所以我在培训SEO(www.lzamai.cn)中,分了四个阶段来讲:1、SEO基础、2、SEO策略、3、排名提高、4、赚钱方法。并且安排有详细的实践作业。所以我敢去承诺保证学会,保证赚钱,在半年内赚不到前退学费。
    当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
    另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
一般一个网站的robots.txt的内容格式为:
# Robots.txt file from http://www.lzamai.com
# All robots will spider the domain
User-agent: *
Disallow:
上面的写法中则是接受所有的搜索引擎。
    具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。
举例如下:
    允许所有的robot访问
    User-agent: *
    Disallow:
    或者也可以建一个空文件 “/robots.txt” file
    禁止所有搜索引擎访问网站的任何部分
    User-agent: *
    Disallow: /
禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)
    User-agent: *
    Disallow: /01/
    Disallow: /02/
    Disallow: /03/
禁止某个搜索引擎的访问(下例中的BadBot)
    User-agent: BadBot
    Disallow: /
只允许某个搜索引擎的访问(下例中的Crawler)
    User-agent: Crawler
    Disallow:
    User-agent: *
    Disallow: /
同时robots.txt中也可以带meta标签。
    name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。
介绍下常用搜索引擎的蜘蛛机器人的写法:
    常见搜索引擎机器人Robots名字
    名称 搜索引擎
    Baiduspider http://www.baidu.com
    Scooter http://www.altavista.com
    ia_archiver http://www.alexa.com
    Googlebot http://www.google.com
    Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是        INDEX,NOFOLLOW。
    NOINDEX -不索引当前页面
    NOFOLLOW -不跟踪当前页面中所有的链接
    NOARCHIVE -在搜索结果中不保存当前页面的快照
    NOSNIPPET - 在搜索结果中不采用当前页面的头部描述信息,且不保存当前页面的快照
    NOODP -搜索结果中不使用DMOZ 中的描述信息,Yahoo!、MSN也支持此类标签。
    NONE -不索引当前页面以及其中的所有链接,跟“NOINDEX, NOFOLLOW” 含义相同
一共有四种组合:
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>

绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:
<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>
表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。
下面再介绍下常见robots.txt错误
l 颠倒了顺序:
错误写成
User-agent: *
Disallow: GoogleBot
正确的应该是:
User-agent: GoogleBot
Disallow: *
l 把多个禁止命令放在一行中:
例如,错误地写成
Disallow: /css/ /cgi-bin/ /images/
正确的应该是
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
l 行前有大量空格
例如写成
Disallow: /cgi-bin/
尽管在标准没有谈到这个,但是这种方式很容易出问题。
l 404重定向到另外一个页面:
当Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理 robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。
l 采用大写。例如
USER-AGENT: EXCITE
DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写:
user-agent:GoogleBot
disallow:
l 语法中只有Disallow,没有Allow!
错误的写法是:
User-agent: Baiduspider
Disallow: /john/
allow: /jane/
l 忘记了斜杠/
错误的写做:
User-agent: Baiduspider
Disallow: css