每个网站都有一些属于关键页面的页面,如主页,频道页面,百度在关键页面上有专利。我认为有必要去看一下。
Web权威性是搜索引擎对结果进行排名的重要参考因素。当计算网页的权限时,参与计算的所有网页被视为一组,并且通过该组中的网页之间的链接关系迭代地计算网页的权限。然而,随着互联网的发展,互联网上的网页越来越多。如果因特网上的所有网页都被用作权威计算的网页,则计算系统的体系结构要求非常高。因此,通常只选择网站和外部网站。具有链接关系的网页作为参与权威计算的网页存在,但是现有技术的这种方式可能导致每个网站内的一些优秀网页无法获得权威值,并且还影响参与计算的网页的权限。价值的准确性。
为了改善上述问题,现有技术提供了一种提取网站中与外部网站具有链接关系的网页,并提取网页中的一些重要网页作为网页进行权威计算的方法。在现有技术中,网页的重要性由网站网页中反链链接的数量决定,例如,提取网站中反链数量大于设定阈值的网页,如果网页指向的网页的网页如果链的数量也大于设定的阈值,则这些页面和引用的网页用作关键页面。然而,该现有技术方法具有低召回率和低精度。
该专利提供了一种挖掘网站关键页面的方法和装置,以提高挖掘网站关键页面时的召回率和准确率。
从网站的每个页面中提取导航链接字符串;
将提取的导航链接串分离成链接对,其中每个链接对由导航链接串中相邻位置的两个链接组成;
从每个链路对确定密钥链路对,并且相应的链路用作网站的关键页面。