robots.txt和robots Meta标签的介绍

摘要

robots.txt基本介绍robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人

robots.txt基本介绍

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

robots.txt写作语法

首先,我们来看一个robots.txt范例:

# Robots.txt file from http://www.aaa.com

# All robots will spider the domain

User-agent: *

Disallow:

以上文本表达的意思是允许所有的搜索机器人访问www.aaa.com站点下的所有文件。

具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。

下面,列举一些robots.txt的具体用法:

允许所有的robot访问

User-agent: *

Disallow:

或者也可以建一个空文件 “/robots.txt” file

禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)

User-agent: *

Disallow: /01/

Disallow: /02/

Disallow: /03/

禁止某个搜索引擎的访问(下例中的BadBot)

User-agent: BadBot

Disallow: /

只允许某个搜索引擎的访问(下例中的Crawler)

User-agent: Crawler

Disallow:

User-agent: *

Disallow: /

另外,有必要进行拓展说明,对robots meta进行一些介绍:

Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

Robots META标签的写法:

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面;

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

这样,一共有四种组合:

以下是引用片段:

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>

<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>

<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>

<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>

其中

以下是引用片段:

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”ALL”>;

<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”NONE”>

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:

以下是引用片段:

<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>

主题测试文章,只做测试使用。发布者:佰搜SEM,转转请注明出处:https://www.geoaiseo.com/355.html

(0)
佰搜SEM佰搜SEM
上一篇 2022年5月7日
下一篇 2022年5月7日

相关推荐

  • 求个Mac电脑上的网站SEO优化工具?

    推荐几款常见工具: 1.Website Auditor,这是一款macOS平台的网站SEO优化工具,可以帮助我们在mac电脑上对网站的网页进行详尽的分析,更加有效地对网站进行优化并提高网站排名。 2.Scrutiny,这是一款网站SEO工具,它能够自动检测目标网站的坏链、HTML验证、描述Description、标题Title等SEO信息,并具有强大的报告导…

    SEO优化 2024年7月26日
    00
  • 网站大改版后很长时间否没有收录是什么原因?

    摘要 网站改版是避免不了的,尤其是企业网站,随着企业的业务的变化或产品迭代,网站都是需要进行改版的,有些网站改版之后各方面的数据都表现的非常好,这种网站改版是非常成功的,也有一些网站本来不错,改版之后网站的各项数据都开始下滑,甚至是关键词排名都消失不见了,也有的是网站改版之后很长时间都没有收录,这又是什么原因呢?今天四爷推就告诉你怎么解决。任何一个网站都有被…

    SEO优化 2022年5月7日
    00
  • 影响百度爬虫对网站抓取量的因素

    摘要 虚子雨SEO首先介绍一下百度爬虫抓取量,其实就是百度爬虫对站点一天抓取网页的数量,从百度内部透露来说,一般会抓两种网页,其中一个是这个站点产生新的网页,一般中小型站当天就可以完成,大型网站可能完成不了,另一种是百度以前抓过的网页,它是需 虚子雨SEO首先介绍一下百度爬虫抓取量,其实就是百度爬虫对站点一天抓取网页的数量,从百度内部透露来说,一般会抓两种网…

    SEO优化 2022年5月7日
    00
  • “社交ghosting”:招呼不打一个,我就突然被拉黑了

      最近刷豆瓣,有个叫“社交ghosting”的话题很火。点开一看,发现遇到过的人还不少:   社交ghosting(鬼魂)意味着,在没有解释的情况下切断所有的交流。即:玩失踪,像“鬼”一样人间蒸发。   Ghosting有三种级别:   1. 社交软件上的“已读不回”属于轻量级;   2. 和一个人“见了几次面,却极力回避”属于中等程度;   3. 第三波…

    SEO优化 2022年5月7日
    00
  • 网站内容策略的四大要点

    摘要 我们没有想过什么样的内容会保留用户,什么样的内容用户。当然,我们必须首先带来,然后保持用户,如何将用户前还告诉你之前。但更多的反映技术含量带来后,我们需要保留的,或像一条河,我们有一个网站访问者,因此是累积的,优化将变得越来越累。我在这个问题上也想了无数次,终于总结出几点:1、新闻内容因为新闻是一个永不落幕的电视连续剧,总是可以播放下来,所 我们没有想…

    SEO优化 2022年5月7日
    00

联系我们

在线咨询: QQ交谈

邮件:3413323304@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
网站+域名可转让!