之前的博客中已经介绍了Ranking Relevance的一些基本情况(Click Behavior,和Text Match):http://www.cnblogs.com/bentuwuying/p/6714064.html,这里就不再赘述了.针对之前在计算Ranking Relevance的过程中遇到的问题:Click Behavior对长尾的或者根本没出现过的query-doc pair无效,Term Match无法解决近义词和语义隔离问题,Topic Match解释性差的问题.本篇博客介…
之前的博客中已经介绍了Ranking Relevance的一些基本情况(Click Behavior,和Text Match):http://www.cnblogs.com/bentuwuying/p/6714064.html,这里就不再赘述了.针对之前在计算Ranking Relevance的过程中遇到的问题:Click Behavior对长尾的或者根本没出现过的query-doc pair无效,Term Match无法解决近义词和语义隔离问题,Topic Match解释性差的问题.本篇博客介…
有人问我怎么这个系列没有写自己做的东西呢? 大哥大姐,这是"学习笔记"啊!当然主要以解读和笔记为主咯. 也有人找我要实例代码(不是示例),我表示AJS尚未成熟,现在数据编辑功能才简略地在AJS 4.3中出现,4.2是没有的,widget和分析功能也不是很完善,还是再等等吧,先学着基础,其他的以后再说. 本节我会紧随这个例子学习一下Query这个类,作为图层查询方法的重要参数,它起了传递查询用的信息的作用. 本例对应官方的例子是:Query a SceneLayer's linked F…
一.简单总结 其实相似度计算方法也是老生常谈,比如常用的有: 1.常规方法 a.编辑距离 b.Jaccard c.余弦距离 d.曼哈顿距离 e.欧氏距离 f.皮尔逊相关系数 2.语义方法 a.LSA b.Doc2Vec c.DSSM ...... 二.利用熵计算相似度 关于什么是熵.相对熵.交叉熵的概念,网上有很多,这里就不总结了.本篇主要关注工程方面,即怎么用代码实现,参考的论文来自<Content-based relevance estimation on the web using int…
本文是Xapian检索过程的分析,本文内容中源码比较多.检索过程,总的来说就是拉取倒排链,取得合法doc,然后做打分排序的过程. 1 理论分析 1.1  检索语法 面对不同的检索业务,我们会有多种检索需求,譬如:要求A term和B term都在Doc中出现:要求A term或者B term任意在Doc中出现:要求A term或者B term任意在Doc出现,并且C term不出现…...,用符号表示: A & B A || B (A || B) & ~C ( A & ( B ||…
目录: 一.简介: 1.用户意图识别概念 2.用户意图识别难点 3.用户意图识别分类 4.意图识别方法: (1)基于规则 (2)基于穷举 (3)基于分类模型 二.意图识别具体做法: 1.数据集 2.数据处理 3.query分析 query纠错.[query rewrite] query 词自动提示.[query相关性计算] query扩展,[query相关性计算] query自动分类.[query类目预测] 语义标签.[query tagging] 4.特征工程 5.分类训练 三.应用场景 四.…
一.简介:TF-IDF 的改进算法 https://blog.csdn.net/weixin_41090915/article/details/79053584 bm25 是一种用来评价搜索词和文档之间相关性的算法.通俗地说:主要就是计算一个query里面所有词q和文档的相关度,然后再把分数做累加操作. 我们有一个query和一批文档Ds,现在要计算query和每篇文档D之间的相关性分数,我们的做法是,先对query进行切分,得到单词qi,然后单词的分数由3部分组成: 单词qi和D之间的相关性…
selectNodes() 方法用一个 XPath 查询选择节点. nodeObject.selectNodes(query)query  XPath 查询串. 包含了匹配查询的节点的一个 NodeList. 这个特定于 IE 的方法计算一个 XPath 表达式,使用该节点作为查询的根节点,并且将结果作为一个 NodeList 返回.这个 selectNodes() 方法只用于 XML 文档节点,不用于 HTML 文档节点.注意,既然 Document 对象是它们自己的节点,这个方法可以应用于整…
一.多shard场景下relevance score不准确问题     1.问题描述:            多个shard下,如果每个shard包含指定搜索条件的document数量不均匀的情况下,会导致在某个shard上document数量少的时候,计算该指定搜索条件的document的相关性评分要虚高.导致该document比实际真正想要返回的document的评分要高.     2.解决         (1)生产环境下,数据量大,尽可能实现均匀分配 数据量很大的话,其实一般情况下,在概…
一.keyword 字段和keyword数据类型    1.测试准备数据 POST /forum/article/_bulk { "index": { "_id": 1 }} { "articleID" : "XHDK-A-1293-#fJ3", "userID" : 1, "hidden": false, "postDate": "2017-01-01&q…