概观
搜索词
用户信息需求
网页自己的信息
网页的附属信息
相关计算框架
概观
关联
搜索项与正在检索的页面关联的程度
相关性的真正含义
用户信息提供的信息与结果页面之间的重叠程度
相关因素
搜索词
用户信息需求
网页自己的信息
网页附加信息
如何显示搜索结果
网页不同于普通文本:异质性
来源不是单一的
记者
研究人员
商务人士
个人
使用不是单一的
新闻
业务和产品信息
个人爱好
娱乐信息
研究和学术信息
多样化
手动和出版系统
动态和静态
及时性:在不同时间产生
动态:可以随时间变化
欺骗和欺诈
搜索词
语义
实体名称
名称
地名
公司和机构名称
产品和服务名称
其他专有名词名称
普通名词
其他类别名称
其他
信息格式
语言
结构化,非结构化
信息类别
研究信息
产品和服务信息
宗教文化
娱乐信息
新闻
个人信息
搜索字词格式
数值
布尔运算(AND,OR,NOT)
特殊语法(网站搜索,类别搜索,文件类型,链接到)
排名查询
搜索词 – 相关性处理
实体名称用于确定网站第一页的权重。
搜索词分类用于将权重与网站页面分类相结合
信息类别的分类和统计
行业和地理分类和统计
搜索格式分析
单一语素和多吗啡
和搜索研究
网页分类
按网页结构信息分类(主页,频道页面,搜索页面,错误页面,租借页面.)
按网页内容主题(体育,健康,娱乐,教育.)分类
用户信息需求
搜索任务多样性
查询已识别的特定信息
知识获取浏览
目的不明确:在过程中形成目的
搜索词的语义多样性
搜索范围的不确定性
信息类型
工业,地理等
成功搜索的标准是不同的
实体名称,具体网站, – 导航查询
实体名称,没有特定网站,相关网站 – 交易查询
一般信息,没有网站信息,提到很多网页 – 信息类型查询
一般信息,没有网站信息,提到的网页很少 – 信息类型查询
个人知识结构和兴趣
个人信息准确性和多样性要求
用户信息需求 – 相关性设计
结果,主页尝试显示多种类型的网页。
功能性,多类别和垂直搜索结果集成设计
个性化测序设计
搜索日志的背景分析
用户行为数据挖掘
网页自己的信息(属性)
文字信息:文字,单词,短语,句子,段落,章节
文字功能信息
标题
文本
文章篇幅
知识量
其他功能:粗体,链接等
结构信息
导航(1级导航,2级导航.)
广告(文字链,横幅)
图片
引用(博客,论坛),
版权声明等
语义信息
文章类型:概述/细节,新闻,技术和研究,个人,特殊文件链接
地理信息
行业资讯
语言信息
网页自己的信息 – 相关性设计
词的一致性和准确性
身体内容的模糊度解析,未注册的单词识别
查询分词和文本分段一致性问题处理
文本特征提取和权重分配
标题准确性
标题提取规则:URL,标题等
实际标题
标题的真实性
标题长度拦截
标题验证可消除人为错误
标题作弊歧视
没有身体标题处理
身体准确性
广告文字
网页模板文本
iframe处理
Js内容处理
文本的真实性
引入语义标签
功能标签重量和调整
文章长度调整因子
纠正长篇文章
DOC,PPT,PDF处理
网页自己的信息 – 相关性设计
结构信息提取和处理
家庭和频道主页识别和标记将使用网站PR
导航区统计,识别和标记
对于主页识别,该链接将不参与PR和外部锚文本的计算
网站附件页面的统计,识别和标记
为了给网站一个相关的PR,该链接将不参与PR和外部锚文本的计算。
广告链接的统计,标识和标记不会参与PR和外部锚文本的计算
内容分析
按功能统计结合手动方法进行站点分类
文章类型信息:新闻页面的特殊标签
地理信息
行业和其他机密信息
中英文比例调整
网页的附属信息(属性)
网页本身的辅助信息
URL:长度和阶段数,动态和静态
生产时间
网页文件大小
可连接的程度
连接率
死链情况
内容稳定性:
更新周期
生命周期
域名和网站特征
类别
权威性
环境产生的附属信息
网站内的重要性:主页,频道,外部链接数量
全球权威:他人的认可程度
及时性:时间从现在开始
真实性:实际内容信息与文本和辅助信息的一致性
可重复性:与其他Web内容重合
信息内容和质量:他人对内容的认可程度
用户评价
深度和广度
网页的附属信息 – 相关处理
时间信息参与排序
新闻页面倒置:影响力很大
网页的时间因素:影响力弱
不影响主页和频道主页
连接速率和更新速率参与排序
弱连接功率降低
减轻载重量
更新频率参与功率降低
网站功能
网站分类和搜索术语的一致性提高了相关性
网站真实性参与相关计算:
作弊连接网站黑名单(Link Farm)
TrickRank
网站重要性:
网站DR(域名排名)
阻止PR
计算站内的PR,分别计算网站
无论站内的链路如何,都要计算场外PR
放电和保留
镜像列表:PR和外部锚文本传递
家庭体重规则
内容加权规则
跳转: PR的类型和规则以及外部锚文本的传输
外部锚文本的真实性
链接交换网站黑名单
文字验证
相关计算框架
主要设计模式
公式相关排序
无公式人工神经网络(MLR)
全面分析搜索术语和用户信息需要确定策略
结合劳动力和程序来提高提取和处理网页的能力
提高锚文本中包含的单词的质量,以防止作弊
PR,DR,TR组合,提高网页权威判断质量,保证首页,索引页面正面
增加网页会员信息以参与排序
增加因素之间的交叉验证
手动调整一些高频词(同音字)
相关性排序外围技术
下载
文字分析
切词
手动和程序分类
PR,DR,TR计算
锚文本文字处理
遗传算法训练排序因子