http://www.wocaoseo.com/thread-186-1-1.html

议程
  • 概述
  • 检索词
  • 用户的信息需求
  • 网页的自有信息
  • 网页的附属信息
  • 相关性的计算框架

概述

  • 相关性的表象
    • 检索词与被检索网页的相关联程度
  • 相关性的真实意义
    • 用户信息需求与结果网页所提供的信息的重合度
  • 相关性涉及的因素
    • 检索词
    • 用户信息需求
    • 网页自有信息
    • 网页附属信息
    • 检索结果的显示方式
  • 网页与普通文本的不同:异质性
    • 来源不单一
      • 新闻记者
      • 研究人员
      • 商业人士
      • 个人
    • 用途不单一
      • 新闻
      • 商业及产品信息
      • 个人爱好
      • 娱乐信息
      • 研究及学术信息
    • 产生方式多样化
      • 手工及发布系统
      • 动态与静态
      • 时效性:不同时间产生
      • 动态性:可随时间变化
    • 欺骗与造假

检索词

  • 语义
    • 实体名
      • 人名
      • 地名
      • 公司及机构名
      • 商品及服务名
      • 其他专有名词名
    • 普通名词
    • 其他类别名
    • 其他
  • 信息格式
    • 语种
    • 结构化,非结构化
  • 信息类别
    • 研究信息
    • 商品及服务信息
    • 宗教文化
    • 娱乐信息
    • 新闻
    • 个人信息
  • 检索词格式
    • 数值
    • 布尔运算(AND, OR, NOT)
    • 特殊语法(网站检索,类别检索,filetype,linkto)
    • Rank Query

检索词 - 相关性处理

  • 实体名的判定用于网站首页加权
  • 检索词分类用于与网站网页分类结合加权
    • 信息类别的分类与统计
    • 行业与地域的分类与统计
    • 检索格式的分析
      • 单语素与多语素
      • AND检索的研究
    • 网页分类两种体系
      • 按网页结构信息分类(主页,频道页,检索页,错误页,租用页…)
      • 按网页内容主题分类(体育,保健,娱乐,教育..)

用户的信息需求

  • 检索任务的多样性
    • 确定的特定信息的查询
    • 知识获取式的浏览
    • 目的不明确的浏览:在过程中形成目的
  • 检索词的语义多样性
  • 检索范围的不确定性
    • 信息种类
    • 行业,地域,等等
  • 检索成功的标准不一
    • 实体名,有特定网站,- 导航型查询
    • 实体名,无特定网站,有相关网站 - 事务型查询
    • 一般信息,无网站信息,许多网页提及 - 信息型查询
    • 一般信息,无网站信息,很少网页提及 - 信息型查询
  • 个人知识结构与兴趣
  • 个人的信息精确性和多样性要求程度

用户的信息需求- 相关性设计

  • 结果首页尽量显示多个类型的网页
  • 功能,多分类和垂直搜索结果整合设计
  • 个性化排序设计
  • 检索日志的后台分析
  • 用户行为数据挖掘

网页的自有信息(属性)

  • 文本信息:字,词,短语,句子,段落,篇章
  • 文本特征信息
    • 标题
    • 正文
    • 文章长度
    • 知识量
    • 其他特征:黑体,链接,等等
  • 结构信息
    • 导航(一级导航,二级导航。。。)
    • 广告(文字链,banner)
    • 图片
    • 引用(博客,论坛),
    • 版权说明等等
  • 语义信息
    • 文章类型:综述/细节,新闻,科技与研究,个人,特种文件链接
    • 地域信息
    • 行业信息
  • 语种信息

网页的自有信息 - 相关性设计

  • 切词一致性与准确性
    • 正文内容的歧义消解,未登录词识别
    • 查询词切分和正文切分的一致性问题处理
  • 文本特征提取与权重指定
    • 标题的准确性
      • 标题提取规则:URL,标题等
      • 实际标题
    • 标题的真实性
      • 标题长度截取
      • 标题验证去除人工错误
      • 标题作弊判别
      • 无正文的标题处理
    • 正文的准确性
      • 广告文字
      • 网页模板文字
      • iframe处理
      • js 内容处理
    • 正文的真实性
      • 语义tag的引入
      • 特征tag的权重和调整
    • 文章长度的调整系数
      • 对超长文章的修正
      • DOC,PPT,PDF处理

网页的自有信息 - 相关性设计

  • 结构信息提取与处理
    • 首页和频道首页的识别和标记,将使用网站PR
    • 导航区的统计,识别和标记

      用于首页识别,链接将不参与PR及外部锚文本的计算
    • 网站附属页的统计,识别和标记

      赋予网站相关的PR, 链接将不参与PR及外部锚文本的计算
    • 广告链接的统计,识别和标记,将不参与PR及外部锚文本的计算
  • 内容分析
    • 通过特征统计结合手工方式进行网站分类
    • 文章类型信息:新闻页的特殊标记
    • 地域信息
    • 行业及其他分类信息
    • 中英文比例调整

网页的附属信息(属性)

  • 网页本身的附属信息
    • URL:长度与级数,动态与静态
    • 产生时间
    • 网页文件大小
    • 可连接程度
      • 连通率
      • 死链情况
  • 内容的稳定性:
    • 更新周期
    • 生命周期
  • 所属域名及网站特性
    • 类别
    • 权威性
  • 网页由环境所产生的附属信息
    • 在网站内的重要性:首页,频道,外部被链接数量
    • 全局权威性:被别人的认可程度
    • 时效性:距今时间
    • 真实性:实际内容信息与文本和附属信息的吻合度
    • 重复性:与其他网页内容的重合度
    • 信息内容和质量:别人对内容的认可程度
      • 用户的评价
      • 深度和广度

网页的附属信息-相关性处理

  • 时间信息参与排序
    • 新闻页的倒排: 强影响
    • 网页的时间因素:弱影响
    • 不影响首页和频道首页
  • 连通率与更新率参与排序
    • 弱连通的减权
    • 死链的减权
    • 更新频度参与减权
  • 网站特性
    • 网站分类与检索词的吻合提高相关性
    • 网站真实性参与相关性计算:
      • 作弊连接网站的黑名单(Link Farm)
      • TrickRank
  • 网站重要性:
    • 网站DR(Domain Rank)
    • Block PR
  • 计算站内PR,网站分别计算
  • 计算站外PR,不考虑站内链接
  • 排重和保留
    • 镜像列表: PR和外部锚文本的传递
    • 首页排重规则
    • 内容排重规则
    • 跳转的类型和规则: PR和外部锚文本的传递
  • 外部锚文本的真实性
    • 链接交换网站黑名单
    • 正文验证去躁

相关性的计算框架

  • 主要设计模式
    • 有公式-相关性排序
    • 无公式人工神经网络(MLR)
  • 针对检索词和用户信息需求综合分析确定策略
  • 人工和程序结合提高网页自有信息的提取和处理能力
  • 提高锚文本包含的词质量,防止作弊
  • PR,DR,TR结合,提高网页权威性判定质量,保证首页,索引页靠前
  • 增加网页附属信息参与排序
  • 增加各因素之间的交叉验证
  • 对部分高频词做手工调整(homony)

相关性排序的周边技术

  • 下载
  • 正文分析
  • 切词
  • 手工与程序分类
  • PR,DR,TR计算
  • 锚文本词处理
  • 遗传算法训练排序因子

soso官方:基于相关排序的判断

以上内容由SEO论坛版权所有。http://www.wocaoseo.com/forum-37-1.html

soso官方:基于相关排序的判断的更多相关文章

  1. soso官方:网页分类技术介绍

    http://www.wocaoseo.com/thread-190-1-1.html 1.    技术背景     分类问题是人类所面临的一个非常重要且具有普遍意义的问题.将事物正确的分类,有助于人 ...

  2. C++ STL中Map的相关排序操作:按Key排序和按Value排序 - 编程小径 - 博客频道 - CSDN.NET

    C++ STL中Map的相关排序操作:按Key排序和按Value排序 - 编程小径 - 博客频道 - CSDN.NET C++ STL中Map的相关排序操作:按Key排序和按Value排序 分类: C ...

  3. CompareTo 基于的排序算法

    CompareTo 基于的排序算法(高级排序) 这个是今天学习MapReduce时发现的,自定义类后实现了WritableComparable<>接口后实现了接口中的compareTo方法 ...

  4. soso官方:搜索引擎的对检索结果常用的评测方法

    http://www.wocaoseo.com/thread-188-1-1.html       很久很久以前,搜索引擎还不象今天的百花齐放,人们对它的要求较低,只要它能把互连网上相关的网站搜出来, ...

  5. C#路径的八种相关操作,判断字符串是否为路径等

    原文:C#路径的八种相关操作,判断字符串是否为路径等 1.判定一个给定的C#路径是否有效,合法 通过Path.GetInvalidPathChars或Path.GetInvalidFileNameCh ...

  6. Java实现基于桶式排序思想和计数排序思想实现的基数排序

    计数排序 前提:待排序表中的所有待排序关键字必须互不相同: 思想:计数排序算法针对表中的每个记录,扫描待排序的表一趟,统计表中有多少个记录的关键码比该记录的关键码小,假设针对某一个记录,统计出的计数值 ...

  7. JavaScript 基于offsetHeight和clientHeight判断是否出现滚动条

    基于offsetHeight和clientHeight判断是否出现滚动条   by:授客 QQ:1033553122 HTMLEelement.offsetHeight简介 HTMLElement.o ...

  8. 牛客网_Go语言相关练习_判断&选择题(4)

    题目来源于牛客网 一.判断题 成员变量或者函数的首字母表示是否对外部可见. switch后面的声明语句和表达式语句都是可以选择的.例如: //可以什么都不加 switch: break; 错误指的是可 ...

  9. 【原创】基于日志增量,统计qps,并基于ip排序

    增量统计日志行数(只统计上一秒) dns_qps.py #!/usr/bin/env python #_*_coding:utf-8_*_ import datetime import re impo ...

随机推荐

  1. 使用ProxySQL实现MySQL Group Replication的故障转移、读写分离(二)

    在上一篇文章<使用ProxySQL实现MySQL Group Replication的故障转移.读写分离(一) > 中,已经完成了MGR+ProxySQL集群的搭建,也测试了ProxySQ ...

  2. 改变对象的字符串显示__str__repr

    改变对象的字符串显示 # l=list('hello') # # print(l) # file=open('test.txt','w') # print(file) class Foo: def _ ...

  3. Windows-快速预览文件-QuickLook

    开源.免费的文件快速预览工具, 支持图片.文档.音视频.代码文本.压缩包等多种格式. 获得 Mac OS 空格键快速预览文件相同的体验 效果图 文件夹 音视频 浏览 压缩包,文本 支持的格式: 图片: ...

  4. hashCode竟然不是根据对象内存地址生成的?还对内存泄漏与偏向锁有影响?

    起因 起因是群里的一位童鞋突然问了这么问题: 如果重写 equals 不重写 hashcode 会有什么影响? 这个问题从上午10:45 开始陆续讨论,到下午15:39 接近尾声 (忽略这形同虚设的马 ...

  5. 618购物节要到了,Python帮你实现商品有货的微信提醒

    时间过的真快,不知不觉一年已过了一半,又快到618购物狂欢节了,剁手党们都希望无论是618购物节还是双11购物节,都能够买到便宜又实惠的商品,但是真心实惠的东西往往是紧俏的,经常会出现无货的情况,我们 ...

  6. SpringBoot进阶教程(六十三)Jasypt配置文件加密

    数据库密码直接明文写在配置中,对安全来说,是一个很大的挑战.一旦密码泄漏,将会带来很大的安全隐患.尤其在一些企业对安全性要求很高,因此我们就考虑如何对密码进行加密.本文着重介绍Jasypt对Sprin ...

  7. keil 5.29 无法找到 flash的算法文件

    安装5.29之后,发现编译文件可以,但是Debuger下的flash download找不到对应的flash文件 解决, 重新 安装keil5.29时,PACK的目录选择安装在Keil同级目录下的AR ...

  8. VUE——添加组件模块(图表)

    Vue是由一个个小模块组成的,模块可以让页面简介还可以复用: 1.不固定数据数量传到子组件 父组件: <chartVue v-for="(item, index) in chartLi ...

  9. chaos;head移植版缺失python27.dll SDL2.dll问题解决

    注意 不要在目录名中有字符' ; '

  10. Express Response 之 end /send 傻傻分不清楚

    Express是一个轻量的经典的Node.js开启服务和快速路由管理的库.开启服务的方式也是非常的简单 只需要简单的,安装 $ npm install express   -------> 引入 ...