中国最大的自助建站提供商——>>意动社区 成功案例 精美模板
关于意动 | 产品全览 | 免费体验 | 服务与支持 | 建站资源与素材 | 访问旧版网站
      首 页   如何制作网站   如何建网站   网站优化   网络营销   常见问题   网站建设客户   智能一点通         VIP套餐    定制网站
robots.txt模式排除重复内容

robots.txt是位于网站根目录下的文本文件,并符合robots.txt标准。在此重申一下,关于robots.txt需要记住三个基本的概念:

 

一、只能有一个robots.txt文件。

二、robots.txt的正确位置是在WEB站点的根目录下。

三、位于子目录下的robots.txt文件将无法访问。

 

robots.txt的官方正式文档在http://www.robotstxt.org/上。在那里可以找到常见问题页面、完全参考手册和用于遍历WEB的robots名称列表。

 

 如果仔细阅读日志,就会看到搜索引擎蜘蛛对这个特定文件的访问非常频繁。这是因为它们需要对任何被robots.txt排除的文件不做检索,同时需要保持缓存的内容总是最新的。robots.txt以一种非常简单的模式匹配,来向搜索引擎排除URL地址。并且,如果想要从一个站点中排除某个完整目录,或者更特殊一点,比如想要排除很多以相同字符开头的URL地址时,它常常是较为容易使用的方法。

 

出于不同公司的内部管理原因,有时不可能获得对根目录下这个文件的修改权限。在这种情况下,只要对应用程序中部分有问题的源代码有修改权限,就可以使用robots.txt标签。

 

robots.txt并不是一种安全形式!它不能阻止对任何文件的访问。它只能阻止搜索引擎对内容的索引,因此能阻止用户通过搜索引擎的结果页面来浏览那些特定的源。不管怎样,用户还是能通过直接操作地址来访问这些页面。同样地,robots.txt文件本身是个公共资源,任何想要细读它的人都可以将他们的浏览器指向“/robots.txt”来获得。如果使用它的目的不正确,比如为了安全而用,只会将那些资源更明显地暴露在潜在的黑客面前。为了保护内容,应该使用传统方法验证用户,并授权他们访问站点中的资源。

 

robots.txt文件包括User-agent规范,它定义了排除的目标,并为在想排除的一个或多URL地址设置Disallow条目。robots.txt中以“#”号开始的行是注释,并将被忽略。

 

下面位于站点根文件夹下的robots.txt文件示例,不允许任何robots(*)访问站点的任何文件:

 

User-agent:*

Disallow:/

 

以下示例不允许任何以“/directory”开头的URL地址被Google索引:

 

User-agent:googlebot

Disallow:/directory

 

“googlebot”是Google的用户代理名。把每个Disallow看作匹配前缀,而不是文件或URL地址,这会很有用。特别地,“/directory.html”也会由于匹配该规则而被排除。如果只希望directory文件夹下的内容被排除,就应该定义为“/directory/”。那个最后的“/”阻止了“/directory.html”被匹配。同样要注意,第一个“/”在所有排除中都必须的。以下示例是无效的:

 

Disallow:directory

 

在Disallow之后定义的字符串等同于正则表达式^<your string>.*$——这意味着它是匹配任何以该字符串开头的字符串:

 

在User-agent中使用的“*”号,并不是用作通配符的。它不是没有任何作用,但是“goo*bot”并不匹配“googlebot”,而且是无效的。

 

通配符在Disallow命令中同样不是正式有效的。但是Google、MSN以及最近的YAhoo!,都支持这个非标准的通配符匹配格式。然而,我们通常不推荐使用它。因为它不是标准的部分,而且其他很多搜索引擎也不支持。

 

如果一定要在Disallow语句中使用通配符,明智的做法是只在特定的用户代理子句中这么做,比如User-agent:googlebot。

 

使用通配符,以下文件robots.txt将通知Google不要索引任何包含子字符串“print=”URL地址,而不论这个子字符串位于该URL中的哪个位置:

 

User-agent:googlebot

Disallow:/&print=

 

 


用户名:
密 码:
新手建站全过程视频讲解教程 成功案例
在线客服
如何制作网站

FLASH和AJAX

使用自定义标记语言来生成搜索引擎友好的HTML

搜索引擎友好的HTML

用图像来替换文字

使用sIFR

可检索的图像和图形文本

实现可检索的弹出窗口

搜索引擎友好的JavaScript(二)

搜索引擎友好的HTML和JavaScript

重定向数化的会员URL地址例子#2

重定向数化的会员URL地址

常见重复页面的解决方案(三)

常见重复页面的解决方案(二)

常见重复页面的解决方案(一)

网络空间的优势

免费空间的缺点与分类

如何挑选免费空间

空间是什么

帮助中心 付款方式 合同下载
北京蓝纤科技有限公司 Copyright 2000 - 2008
总机:010-64681504  64684094   传真:010-64673024
意动时代建网站联系:888@edo2008.com  代理意动时代自助建站业务:zhangyong@edo2008.com
非上班时间值班电话:13693193565 北京市通信管理局:京ICP证040119号
地址:(100028)北京市朝阳区静安庄一区领先商务中心106