PHP 实现简单搜索功能
方案:问答搜索 1. 搜索结果列表,高亮显示搜索关键词内容 2. 用户输入内容,点击搜索
2.1 获取用户的搜索内容;
2.2 调用分词服务,获取对搜索内容的分词;
2.3 先查询是否已经存在这些关键词内容的缓存,有则直接取结果;否,进行下一步;
2.4 如果 2.2 返回的分词数大于 5 个,则取 5 个关键词的问答帖子交集,判断数量是否 >= 30 条;
不够,则逐次丢弃最后的关键词,再次进行查询,直到关键词的个数减到只有 1 个为止;
2.4.1 对 2.4 中的多次结果进行去从,以及进行帖子的权重计算
(
问答帖子的质量计算:
Q = α * T + β * S + γ * A , α = 0.2 , β = 0.5 , γ = 0.3 ;
T - 时间; S - 点赞数 ; A - 回答数;
T = (当前的时间秒戳 - 帖子的发帖时间) / 7*86400;
)
2.5 将 2.4 中的问答结果写入 Redis ,10 分钟失效;(key - hnb:qa:search_result , 帖子)
2.6 读取 2.5 Redis 结果,展示到页面 // 问答搜索
public function getQuestionBySearch($arr_keyWords , $arr_keyWeight , $start , $num)
{
$arr_temple_keyWords = $arr_keyWords; count($arr_keyWords) > 8 ? $len = 8 : $len = count($arr_keyWords); // redis 中的 key 值
$key = 'hnb:qa:search:qa_score:' . implode('_' , array_splice($arr_temple_keyWords , 0 , $len)); // 读取 redis 中 key = hnb-search:'关键词',... 有没有缓存.
$exists = Hnb_Model_Qa_Question_Cache::getInstance()->existsKey($key); if($exists)
{
$arr_questionInfo = unserialize($exists); } else { $arr_questionInfo = array();
$arr_question_ids = array();
$arr_label_in_question = array();
do{ $arr_keyWords = array_splice($arr_keyWords , 0 , $len--);
$arr_result = Hnb_Model_Qa_Question_Cache::getInstance()->getSearchRelativeQuestion($arr_keyWords , $start , $num); // 问答帖子
foreach($arr_result as $question)
{
// 去掉重复的问答
if(!in_array($question['id'] , $arr_question_ids))
{
$arr_question_ids[] = $question['id']; // 权重计算
$question['score'] = pow(2 , $len);
$this->_logicQaWeight($question , $arr_keyWords , $arr_keyWeight);
$arr_questionInfo[] = $question;
}
} } while((count($arr_questionInfo) < 100) && $len); // 存在数据时
if($arr_questionInfo)
{
// 权重排序
//uasort($arr_questionInfo , array($this , 'cmp'));
usort($arr_questionInfo , array($this , 'cmp'));
// 保存临时数据
//Hnb_Model_Qa_Question_Cache::getInstance()->saveTempleData($key , $arr_questionInfo , $timeOutSecond = 600);
// 设定该临时数据的失效时间
}
} return $arr_questionInfo;
} // 按帖子的权重排序
private function cmp($a , $b)
{
if($a['score'] == $b['score'])
{
return 0;
}
return ($a['score'] > $b['score']) ? -1 : 1;
}
// 问答帖子的权重计算逻辑
private function _logicQaWeight(&$questionInfo , $arr_keyWords , $arr_keyWeight)
{
$a = 0.2; // 发帖时间
$b = 0.5; // 点赞数
$c = 0.3; // 回复数
//$d = ..; // 匹配度因子
$b = $c = 0;
$timeLine = 30 * 86400; // $minus = time() - $questionInfo['create_time']; // 向下取整
$t = floor($minus / $timeLine); $tParam = 2 * pow(0.5 , $t);
// 用户回答
$user_answers = Hnb_Model_Qa_Answer::getInstance()->getAnswerInfoByQuestion($questionInfo['id']);
// 顾问回答权重计算
if($user_answers)
{
is_string($user_answers) ? $user_answers = unserialize($user_answers) : '';
$praise_num = null;
foreach($user_answers as $answer)
{
$praise_num += $answer['praise_num'];
}
} else {
$praise_num = 0;
} // 匹配度因子计算
$this->_matchingQARate($questionInfo , $arr_keyWords , $arr_keyWeight); $weight = $a * $tParam + $b * $praise_num + $c * $questionInfo['answer_num'];
$questionInfo['all_praise_num'] = $praise_num;
$questionInfo['keywords'] = implode(',' , $arr_keyWords);
$questionInfo['params'] = '时间-' . ($a * $tParam) . '##tParam-' . $tParam. '## 点赞数-' . ($b * $praise_num) . '## 回复数-' . ($c * $questionInfo['answer_num']);
$questionInfo['score'] = $questionInfo['score'] + $weight;
//print_r($questionInfo);
} // 帖子的匹配度
public function _matchingQARate(&$questionInfo , $arr_keyWords , $arr_keyWeight)
{
// 1. 发送搜索内容到分词服务 $arr_kwIntersect_result = array_intersect($arr_keyWords , $questionInfo['keyword']);
echo '交集';
print_r($arr_kwIntersect_result);
// 2. 获取到返回的分词与权重
$arr_format_wordInfo = Hnb_Model_Search::getInstance()->formatWordInfo($questionInfo['keyword2']); // 帖子关键词的权重,注意次序
$w = array();
foreach($arr_format_wordInfo as $wordInfo)
{
if(in_array($wordInfo['keyword'] , $arr_kwIntersect_result))
{
$w[] = $wordInfo['weight'];
}
} // 搜索内容分词的权重,注意次序
$y = array(); foreach($arr_keyWeight as $weightInfo)
{
if(in_array($weightInfo['keyword'] , $arr_kwIntersect_result))
{
$y[] = $weightInfo['weight'];
}
} print_r($w);
echo '<br />';
print_r($y);
echo '###############';
$element = null;
foreach($w as $key => $v)
{
$element += $v * $y[$key];
}
echo $element; // 3. 与搜索出来的帖子做交集 // 4. 计算帖子的匹配度 /*
* 计算公式:
* 3 中的交集作为分子
* 3 中的帖子与 2 的分词权重
*/
}
PHP 实现简单搜索功能的更多相关文章
- asp.net mvc 简单搜索功能
View中代码: <input type="text" class="searchText" id="searchText"/> ...
- Flutter 实现简单搜索功能
先建立一个主文件,继承StatelessWidget,然后在home属性中加入SearchBarDemo,这是一个自定义的Widget,主要代码都在这个文件中. import 'package:flu ...
- ElasticSearch(五):简单的ElasticSearch搜索功能
这里主要是一些简单的ElasticSearch的搜索功能,复杂的搜索,比如过滤,聚合等以后单独在写 1. 搜索全部 GET book/_search 直接搜索全部,下面是对搜索结果的详细介绍:默认情况 ...
- jQuery实现简单前端搜索功能
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
- Vue下简单分页及搜索功能
最近利用Vue和element ui仿写了个小页面,记一哈分页和搜索功能的简单实现. 首页 emmmm..... 搜索框输入..... 搜索完成 数据是直接写在这里面的: cardPhoto:[ ...
- jquery实现简单的搜索功能
管理系统中需要实现导航列表的搜索功能,写了一个简单的小栗子: <!DOCTYPE html> <html lang="en"> <head> & ...
- 简单三步-实现dede站内搜索功能
第一步:找到对应的搜索模板的代码 我们都知道,dede有自带的搜索功能,我们只要找到对应的模板,然后把我们想要的代码拿出来就行了.具体如下: 首先进入templets-->default--&g ...
- ElasticSearch 5学习(4)——简单搜索笔记
空搜索: GET /_search hits: total 总数 hits 前10条数据 hits 数组中的每个结果都包含_index._type和文档的_id字段,被加入到_source字段中这意味 ...
- Android搜索功能的案例,本地保存搜索历史记录......
开发的APP有一个搜索功能,并且需要显示搜索的历史记录,我闲暇之余帮她开发了这个功能,现把该页面抽取成一个demo分享给大家. 实现效果如图所示: 本案例实现起来很简单,所以可以直接拿来嵌入项目中使 ...
随机推荐
- 黄聪:VPS服务器如何配置PHP.ini解决wordpress使用WP-Mail-SMTP插件发邮件出现Could not connect to SMTP host的解决办法
1.首先是WP-Mail-SMTP的下载地址:http://wordpress.org/plugins/wp-mail-smtp/ 2.出现Could not connect to SMTP host ...
- 七.jQuery源码解析之.toArray()
toArray()是将jQuery对象转换成数组 从源码中可以看到,这些常见的方法,都是直接从原生的 javascript中"借鉴"过来的.为什么这么说呢? 225行中,在运行时, ...
- Python中常见的数据类型总结
Python提供多种数据类型来存放数据项集合,主要包括序列(列表list和元组tuple),映射(如字典dict),集合(set),下面对这几种一一介绍: 一 序列 1.列表list 列表是一种有序的 ...
- Ansible 系列之 Inventory 资源清单介绍
一.Inventory 库存清单文件 1.Inventory 作用 Ansible 可以在同一时间针对多个系统设施进行管理工作.它通过选择Ansible 资源清单文件中列出的系统,该清单文件默认是在/ ...
- MVC中@Html.Action的用法
MVC项目中如果有公共部分的代码就可以单独拿出来作为控件来用(比如头部和底部代码).跟ASP.NET中的ASCX实现的效果一样,但MVC比它方便的多. 想要实现该效果,需要知道@Html.Action ...
- python greenlet 背景介绍与实现机制
最近开始研究Python的并行开发技术,包括多线程,多进程,协程等.逐步整理了网上的一些资料,今天整理一下greenlet相关的资料. 并发处理的技术背景 并行化处理目前很受重视, 因为在很多时候,并 ...
- 可视化库-Matplotlib-直方图(第四天)
1.plt.hist(array, bins, color) # array表示数值, bins表示的是bin的范围 data = np.random.normal(0, 20, 1000) # 画 ...
- 图像特征与描述子(直方图, 聚类, 边缘检测, 兴趣点/关键点, Harris角点, 斑点(Blob), SIFI, 纹理特征)
1.直方图 用于计算图片特征,表达, 使得数据具有总结性, 颜色直方图对数据空间进行量化,好比10个bin 2. 聚类 类内对象的相关性高 类间对象的相关性差 常用算法:kmeans, EM算法, m ...
- nginx tcp负载均衡配置
1. nginx从1.9.0后引入模块ngx_stream_core_module,模块是没有编译的,需要用到编译需添加--with-stream配置参数 2. 在 nginx.conf 文件中, 与 ...
- epoll用法【整理】
l epoll是什么? epoll是当前在Linux下开发大规模并发网络程序的热门人选,epoll 在Linux2.6内核中正式引入,和select相似,都是I/O多路复用(IO multiplex ...