在(2011)之前,通常通过比较两个页面的内容和节点来确认两个页面之间的相似性。该方法可以更准确地计算,时间复杂度太高,并且计算耗时。通过在页面中签署一些重要信息然后比较两个页面的签名来计算相似性。该方法更简单,更高效,更快速,更适用于互联网等海量信息的应用场景!
在百度专利《一种网页重复的判断系统及其判断方法》(申请号: 201110031636.9)中,使用新方法重复检测网页库中的网页。
第一种是提取要检测的网页的文本。文本提取的方法是阻止网页,然后获取文本块,然后提取文本块中的文章。
在提取文章的内容之后,对文本进行分段,然后对每个句子进行转换和过滤(特殊字符),并且对较长的一个或多个句子进行散列以获得网页的句子签名。
然后将具有相同句子签名的文章划分为一个类。我们称之为页面集,然后对页面集下的文章做出下一个判断。在这里,我们必须计算一些签名。
1.网页正文的simhash签名
2.真实标题的哈希签名
3.标签标题的哈希签名
4.网页摘要的哈希签名
5. Web内容的哈希签名
6.位置签名散列签名
7.评论消息的哈希签名
8.资源签名(资源签名是通过对网页中图片资源,声音资源,视频资源或下载链接资源的url进行散列签名操作获得的)
9.Hash签名的URL文件名(url文件名签名是通过对网页url中文件名的散列签名操作获得的)
完成这些计算后,您可以进行下一步。真正重复页面的示例是:
1.两个网页的真实标题签名是相同的。
2.两个网页的网页内容签名是相同的。
3.两个网页的网页签名(simhash)的位数差异小于6。
4.两个网页的页面位置签名相同,url文件名签名相同。
5.注释块签名,资源签名,标记标题签名,摘要签名和URL文件名签名中的三个签名相同。
通过比较两页或两页,您可以获得真正重复的网址集合。通常,如果该真实URL集合中的页面数量/整个页面集合中的页面数量是> 30%,然后整个页面集被认为是真正的重复,否则它是一个假的重复。