您已经知道了,重复内容能给网站的排名带来负面效应。但是怎样才能检查某个特定的网站是否存在这个问题,怎样才能减少或者避免它呢?
从开始,可以将重复内容划分为两个主要的种类:
(一)网站结构导致的重复内容
(二)内容盗窃导致的重复内容
将单独讨论这些,因为他们本质上是完全不同的问题。
网站结构导致的重复内容
一些网站结构本身会引起重复内容,如下所示:
(一)打印友好的页面
(二)具有大体上类似的内容,且能通过不同的URL地址访问的页面
(三)上有非常类似的单元的页面,比如在一个电子商务目录中,一连串不同颜色的衬衫,它们有相似的描述
(四)页面是一个追踪应用程序的会员程序的一部分,且这个程序配置不正确
(五)有重复的标题或重复的meta标签值的页面
(六)使用基于URL地址的会话ID
(七)标准化问题
为了查找网站结构导致的重复内容,可以使用“site:www.edo2008.com”查询串来检查已被搜索引擎索引过的网站的URL地址。所有主要的搜索引擎都支持这个功能。通常“打印友好”的页面如果被索引的话,就会很快显示出来。
GOOGLE经常将它认为是重复内容的内容放在“补充索引”中。在搜索引擎结果的最底下有个“补充结果”的短语,放置的就是这些内容。如果某个WEB站点有很多页面出现在补充索引中,可能意味着这些页面是重复内容——至少GOOGLE这么认为。如果可能的话,研究这几个页面的URL地址,并查找有没有前述的情形。特别要看看位于结果后面的页面。如果不注意就特别容易产生重复内容问题,因此以有利于搜索引擎的观点去看将很有用处。
内容盗窃导致的重复内容
内容盗窃产生的是一个完全不同的问题。正如盗贼能偷真实的财产一样,他们也能偷内容。毫无疑问,这是为什么它被称为内容盗窃的原因。它对搜索引擎产生了相似的问题,因为搜索引擎努力从搜索结果之中过滤重复内容,并且有时会对哪些是原创权威内容做出一些错误假定。
在某些情况下,这是个隐蔽的问题,并且可能给排名带来灾难性的影响。CopyScape是一种能帮助找到内容盗窃的服务,它在其他网页上扫描,查看和给定页面所包含的内容是否相似。站点地图也能提供帮助,它可以更快地索引新的内容,所以能有助于确定谁是原创作者。站点地图将在以后深入讨论。
如果您是内容盗窃的牺牲品,并且想要有所行为,那么首先要给那个使用非法内容的人发送一封要求暂停并中止的信。可以使用该网站提供的联系信息,或者该域名在WHOIS记录中的联系信息。如果这个方式失败,那么可以找主流搜索引擎来警告他们的内容盗窃行为。下面是主流搜索引擎负责此事的URL地址:
(一)Google:http://www.google.com/dmca.html
(二)YaHoo!:http://docs.yahoo.com/info/copyright/copyright.html
(三)MSN:http://search.msn.com/docs/siteowner.aspx?t=SEARCH_WEBMASTER_CONC_AboutDMCA.htm
不幸的是,如果与内容盗窃展开竞争,将令人可笑地成为费时又费钱的行为——特别是如果律师也加入进来的话。对所有的情况都这么做可能并不现实;而且搜索引擎通常能够精确地评定谁是原创作者并将优先显示他的页面。GOOGLE,通常将非常复制品转移到补充索引中。但是,在一些不太可能发生的情况下,比如含有偷盗内容的URL地址的实际排名居然比原创本身的还要高,那么就应该采取行动。