我看到几个常见的错误弹出。一个错误的想法,索引页,你应该阻止抓取路径。有意义的,对不对?如果你不想要的页面索引,为什么你会希望它爬?不幸的是,虽然这听起来合乎逻辑的,也是完全错误的。让我们来看看一个例子...

  例如:产品评论

  假设我们有一个体面的大型电子商务网站,与独特的产品1000页。这些网页看起来像这样:

  

 

  每个产品都有自己的URL页面,当然,这些网址如下结构:

  http://www.***.com/product/1

  http://www.***.com/product/2

  http://www.***.com/product/3

  http://www.***.com/product/1000

  现在让我们说,每个这些产品的网页链接到该产品的评论页:

  

 

  这些审查的网页也有自己的,独特的网址(并列产品ID),像这样:

  http://www.***.com/review/1

  http://www.***.com/review/2

  http://www.***.com/review/3

  http://www.***.com/review/1000

  不幸的是,我们刚刚剥离出1000个重复的网页,每次评审的页面是真的只是一种形式,有没有独特的内容。这些审查的网页有没有搜索价值,只是稀释我们的索引。因此,我们决定是时候采取行动......

  “修复”,第1部分

  我们希望这些网页了,所以我们决定使用noindex元(元机器人)标签。因为我们真的,真的要完全页面,我们也决定nofollow的审查链接。我们首次尝试修复结束,看起来像这样:

  

 

  表面上,它是有道理的。这里的问题,虽然 - 那些红色箭头正在削减路径,可能阻止蜘蛛。如果蜘蛛审查页面永远不会回去,他们永远也读了NOINDEX,他们不会去索引的网页。最好的情况下,它会需要很长时间(已去指数化的时间太长,对大型网站)。

  修复,第2部分

  相反,让我们离开路径(我们应遵循的链接)。这种方式,将继续爬虫访问的页面,重复审查的URL应该逐渐消失:

  

 

  坚持下去,在这个过程中仍然需要一段时间(周,在大多数情况下)。监视您的索引(在“site:”操作符)每日 - 你要找的随着时间的推移逐渐减少。如果这发生,你是在良好的状态。PRO提示:不要采取任何一天的“网站:”算太严重 - 它可以是不可靠的,不时。随着时间的推移的趋势看。