我们发现收集内容并非不可能。当您需要时,您必须提供内容增益,例如更快的访问速度,更多相关内容等,但实际上有一个关键点,即网站收益。
因此,大站到小站的内容本身是有利的,并且通常难以获得小站的排名。
有人发布了一个关于新闻事件的原创博客,后来被新浪转发到新闻频道。这是从描述内容的重复。然而,这种重复仅仅是主题内容的重复。一方面,其重传带来了访问速度,稳定性等方面的增益,并且随后的检索用户也可以使用“新闻事件+新浪”来检索该新闻。这可以称为网站收益。另一方面,它可能会在重新打印过程中更改页面的标题,并且根据其受众,在重新打印页面上可能会有更多有价值的评论和回复,并且可能有新闻指向其他相关事件。链接。这些可称为内容增益。因此,即使主题内容没有变化,新浪的转载也很有价值,而且它的稀缺性也很高。
同样,相反,如果重新发布的网站是相当未知的,它将不会带来网站名称/稳定性/速度的增益。更重要的是,在重新打印之后,在页面上添加大量广告会妨碍阅读,或者仅重新打印内容的不完整部分。这种重印或收集纯粹是重复的。与收集源相比,没有检索值。没了。
总之,对于内容重复的网页,我们应该评估是否存在网站收益和内容增益。仅对于大量没有任何收益的重复页面,我们应该考虑到稀缺性很低。