互联网上有很多算法用于文本提取,基于dom树,文本长度,投票,视觉信息,这些可以很容易理解,但对于国内主要的搜索引擎百度,我们必须找出他是否有这个方面。专利。
百度专利<<用于页面的主题识别的方法和设备>>申请于2011年,即确定主题
1.划分页面,块是合并一些标签,一般来说html标签,p,span,font等是文本,div,table,td等的常用标签是块的标签通过合并,结构页面的内容可以简化和分析。
2.合并块,当它们属于同一级别时,属于可合并类型的块(其中类型不限于图片,文本,链接等)被合并,这可以简单地理解为合并段落。
3.识别合并块的字体格式信息,行号,宽度和位置。
4.识别主题,有相应的投票机制和算法,例如:如果该块位于网页中间,则行数和宽度大于预设阈值,标题字体大小和文本字体大小不同,它被认为是主题。
以上是本专利的主要方法,但应该理解,不同的行业实际上具有不同的识别规则。在某些行业中,由于数据结构的特殊性,它不是单词或主题的数量,例如产品页面,大多数字段。可能是评论栏。因此,对不同行业进行不同的分析。