继上次匆匆搭建起结合solr和nutch的所谓站内搜索引擎之后,虽当时心中兴奋不已,可是看了看百度,再只能看看我的控制台的打印出每个索引项的几行文字,哦,好像差距还是有点大……
     简陋的信息显示环境最起码给了我一个信号,这条路没有走错,好吧,让我们来继续探索搜索引擎的奥秘吧。
     上期回顾:上次主要是介绍了solrj,通过solrj的api与solr服务器进行通信,获取服务器上的索引数据以及在编写程序中遇到的一些问题和解决方法。本期主要是建立与solr服务器的通信,提供搜索界面输入关键字或搜索规则,根据关键字或规则到索引数据中寻找匹配项并返回结果到界面上。
    1.本篇的前提是你已经配置好nutch以及solr,并通过网页爬取将索引数据存放到了solr服务器中(solr可以可以部署到tomcat的下也可以不部署,另外我的所有搭建都是在Ubuntu环境下),我配置了中文分词器,以上工作可以在网上搜,资料很多,过程中也有很多错误需要解决,如果有时间我会对这块做个总结,solr服务器的界面如下:
接下来就是要做一个搜索界面,基于是一个纯所搜引擎,所以提供一个招牌、一个输入框以及一个确认按钮即可,关于招牌定什么,问过朋友,有吸引眼球的千度、谷哥哥,一看就是要和度娘们叫板,算了咱不干以卵击石的事,还是有点自知之明的好,最终还是叫“jiesearch”吧——小众,不矫情。这块不涉及什么代码量,所以就多扯了几句,界面如下:
    2.针对上次主题代码进行完善,因为上次返回的是一个SolrDocumentList 对象,不能直接转换为到jsp页面显示的list集合,所以借鉴网上前辈们的指点对代码进行了改写。
 //首先定义HttpSolrServer对象,用于程序连接solr
 1 public class SolrServer {
2 private static SolrServer solrServer = null;
3 private static HttpSolrServer server=null;
4 private static String url="http://solrIP:8080/solr";
5
6 public static synchronized SolrServer getInstance() {
7 if (solrServer==null){
8 solrServer=new SolrServer();
9 }
10 return solrServer;
11 }
12 public static HttpSolrServer getServer(){
13 try {
14 if(server==null){
15 server = new HttpSolrServer(url);
16 server.setSoTimeout(1000); // socket read timeout
17 server.setConnectionTimeout(1000);
18 server.setDefaultMaxConnectionsPerHost(100);
19 server.setMaxTotalConnections(100);
20 server.setFollowRedirects(false); // defaults to false
21 //allowCompression defaults to false.
22 //Server side must support gzip or deflate for this to have any effect.
23 server.setAllowCompression(true);
24 server.setMaxRetries(1); // defaults to 0. > 1 not recommended.
25 }
26 } catch (Exception e) {
27 // TODO Auto-generated catch block
28 e.printStackTrace();
29 }
30 return server;
31 }
32 }
//然后定义一个实体类BlogsDo用于接收和配置索引的各个字段
 1 @Entity
2 @Table(name="blogs")
3 public class BlogsDO implements Serializable{
4 private static final long serialVersionUID = -4721368786493126226L;
5 @Field("Id")
6 private String id;
7 @Field("content")
8 private String content;
9 @Field("title")
10 private String title;
11 @Field("url")
12 private String url;
13 @Field("_version_")
14 private String _version_;
15 public String getId() {
16 return id;
17 }
18 public void setId(String id) {
19 this.id = id;
20 }
21 public String getContent() {
22 return content;
23 }
24 public void setContent(String content) {
25 this.content = content;
26 }
27 public String getTitle() {
28 return title;
29 }
30 public void setTitle(String title) {
31 this.title = title;
32 }
33 public String getUrl() {
34 return url;
35 }
36 public void setUrl(String url) {
37 this.url = url;
38 }
39 public String get_version_() {
40 return _version_;
41 }
42 public void set_version_(String version) {
43 _version_ = version;
44 }
45 public static long getSerialversionuid() {
46 return serialVersionUID;
47 }
48 }
备注:这些字段相应的都应该在schema.xml中存在<fields></fields>之间,如下所示,另外个人理解,对于实体类上的注解    @Field("")应该也是一种映射,就是将实体类的字段与配置文件中的选项相对应。
<field name="id" type="string" stored="true" indexed="true"/>
<field name="_version_" type="long" indexed="true" stored="true"/> 
<!-- fields for index-basic plugin -->
<field name="url" type="url" stored="true" indexed="true"required="true"/>
<field name="content" type="text" stored="true" indexed="true"/>
<field name="title" type="text" stored="true" indexed="true"/>
//添加查询规则以及是否高亮的设置以及结果的返回与接收
 1 String searchWord=request.getParameter("searchText");
2 List<BlogsDO> blogList=new ArrayList<BlogsDO>();
3 BlogsDO blogsDO=null;
4 HttpSolrServer solrServer= SolrServer.getInstance().getServer();
5 SolrQuery sQuery = new SolrQuery();
6 String para="";
7 Page page=null;
8 para="content:"+searchWord+"";
9
10 logger.info("para:"+para);
11 sQuery.setQuery(para);
12 sQuery.setStart(0);
13 sQuery.setRows(10);
14 //设置高亮
15 sQuery.setHighlight(true); // 开启高亮组件
16 sQuery.addHighlightField("content");// 高亮字段
17 sQuery.addHighlightField("title");// 高亮字段
18 sQuery.setHighlightSimplePre("<font color='red'>");//标记,高亮关键字前缀
19 sQuery.setHighlightSimplePost("</font>");//后缀
20 sQuery.setHighlightSnippets(2);//结果分片数,默认为1
21 sQuery.setHighlightFragsize(1000);//每个分片的最大长度,默认为100
22
23 //分片信息
24 sQuery.setFacet(true)
25 .setFacetMinCount(1)
26 .setFacetLimit(5)//段
27 .addFacetField("content");//分片字段
28
29 long startSearch=System.currentTimeMillis();
30 Integer counts=0;
31 try {
32 QueryResponse response = solrServer.query(sQuery);
33 SolrDocumentList list = response.getResults();
34 counts=(int) list.getNumFound();//搜索数量
35 logger.info("counts:"+counts);
36 //获取所有高亮的字段
37 Map<String,Map<String,List<String>>> highlightMap=response.getHighlighting();
38 String blogId="";
39 for (SolrDocument solrDocument : list) {
40 blogsDO=new BlogsDO();
41 blogId=(String) solrDocument.getFieldValue("id").toString();
42 blogsDO.setId(blogId);
43 blogsDO.set_version_(solrDocument.getFieldValue("_version_").toString());
44 blogsDO.setUrl(solrDocument.getFieldValue("url").toString());
45
46 List<String> titleList=highlightMap.get(blogId).get("title");
47 List<String> contentList=highlightMap.get(blogId).get("content");
48 if(titleList!=null && titleList.size()>0){
49 blogsDO.setTitle(titleList.get(0));
50 }else{
51 //获取并设置高亮的字段title
52 blogsDO.setTitle(solrDocument.getFieldValue("title").toString());
53 }
54 if(contentList!=null && contentList.size()>0){
55 blogsDO.setContent(contentList.get(0));
56 }else{
57 //获取并设置高亮的字段content
58 blogsDO.setContent(solrDocument.getFieldValue("content").toString());
59 }
60 blogList.add(blogsDO);
61 }
62 } catch (SolrServerException e) {
63 e.printStackTrace();
64 }
65 long endSearch=System.currentTimeMillis();
66 model.addObject("time", (double)(endSearch-startSearch)/1000);
67 model.addObject("counts", counts);
68 model.addObject("blogList", blogList);
3.下面要做的就是在前台jsp页面中接收list集合和传过去的counts(搜索结果个数),time(搜索耗时)并相应的调整界面布局即可,效果如下:
     至此一个搜索引擎做的算是有点模样了,下一步如果还有时间可以对本地文档图片等建立索引并实现搜索功能。
    另外最近我在看大数据可视化方面的东西,如果有兴趣有见解的可以交流下
邮箱:zjhxp_1990@163.com
文中如有不足和错误还请指正!
    参考博文:http://blog.csdn.net/chunming8302/article/details/7321501

友情赞助

如果你觉得博主的文章对你那么一点小帮助,恰巧你又有想打赏博主的小冲动,那么事不宜迟,赶紧扫一扫,小额地赞助下,攒个奶粉钱,也是让博主有动力继续努力,写出更好的文章^^。

    1. 支付宝                          2. 微信

                      

在ssh中利用Solr服务建立的界面化站内搜索的更多相关文章

  1. 在ssh中利用Solr服务建立的界面化站内搜索---solr2

         继上次匆匆搭建起结合solr和nutch的所谓站内搜索引擎之后,虽当时心中兴奋不已,可是看了看百度,再只能看看我的控制台的打印出每个索引项的几行文字,哦,好像差距还是有点大……        ...

  2. 利用Solr服务建立的站内搜索雏形---solr1

    最近看完nutch后总感觉像好好捯饬下solr,上次看到老大给我展现了下站内搜索我便久久不能忘怀.总觉着之前搭建的nutch配上solr还是有点呆板,在nutch爬取的时候就建立索引到solr服务下, ...

  3. 利用Solr服务建立的站内搜索雏形

    最近看完nutch后总感觉像好好捯饬下solr,上次看到老大给我展现了下站内搜索我便久久不能忘怀.总觉着之前搭建的nutch配上solr还是有点呆板,在nutch爬取的时候就建立索引到solr服务下, ...

  4. JAVAEE——宜立方商城07:Linux上搭建Solr服务、数据库导入索引库、搜索功能的实现

    1. 学习计划 1.Solr服务搭建 2.Solrj使用测试 3.把数据库中的数据导入索引库 4.搜索功能的实现 2. Solr服务搭建 2.1. Solr的环境 Solr是java开发. 需要安装j ...

  5. Django之站内搜索-Solr,Haystack

    java -version 不多说 solr 是java 开发的 java version "1.7.0_79" Java(TM) SE Runtime Environment ( ...

  6. solr服务中集成IKAnalyzer中文分词器、集成dataimportHandler插件

    昨天已经在Tomcat容器中成功的部署了solr全文检索引擎系统的服务:今天来分享一下solr服务在海量数据的网站中是如何实现数据的检索. 在solr服务中集成IKAnalyzer中文分词器的步骤: ...

  7. J2EE进阶(七)利用SSH框架根据数据表建立model类

    J2EE进阶(七)利用SSH框架根据数据表建立model类 前言 在利用SSH框架进行项目开发时,若将数据库已经建好,并且数据表之间的依赖关系已经确定,可以利用Hibernate的反转功能进行mode ...

  8. 【C#】教你纯手工用C#实现SSH协议作为GIT服务端

    SSH(Secure Shell)是一种工作在应用层和传输层上的安全协议,能在非安全通道上建立安全通道.提供身份认证.密钥更新.数据校验.通道复用等功能,同时具有良好的可扩展性.本文从SSH的架构开始 ...

  9. 利用solr实现商品的搜索功能

      后期补充: 为什么要用solr服务,为什么要用luncence? 问题提出:当我们访问购物网站的时候,我们可以根据我们随意所想的内容输入关键字就可以查询出相关的内容,这是怎么做到呢?这些随意的数据 ...

随机推荐

  1. SQL Server 查询性能优化——覆盖索引

    覆盖索引又可以称为索引覆盖. 解释一: 就是select的数据列只用从索引中就能够取得,不必从数据表中读取,换句话说查询列要被所使用的索引覆盖. 解释二: 索引是高效找到行的一个方法,当能通过检索索引 ...

  2. Kubernetes HPA

    简介 通过手工执行 kubectl scale 命令或者通过修改deployment的replicas数量,可以实现 Pod 扩容或缩容.但如果仅止于此,显然不符合 Google 对 Kubernet ...

  3. Hadoop基础-MapReduce的Partitioner用法案例

    Hadoop基础-MapReduce的Partitioner用法案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Partitioner关键代码剖析 1>.返回的分区号 ...

  4. python---django中models配置修改数据库引擎

    Django支持多种数据库,sqlite,mysql,oracle等,其默认数据库是sqlite 在settings文件中可以发现: DATABASES = { 'default': { 'ENGIN ...

  5. npm install --save

    1. npm install:本地安装 2. npm install -g:全局安装 我们在使用 npm install 安装模块或插件时,有两种命令把它们写入到 package.json 文件中去, ...

  6. MySQL主从复制部署

    前言 MySQL的主从复制是基于二进制日志机制的,需开启二进制日志功能.在具体的配置过程中,需注意主服务器与从服务器均配置唯一ID编号,且从服务器必须设置主服务器的主机名.日志文件名.文件位置等参数. ...

  7. C# 解决VS2008在win7找不到输入序列号的地方

    1.VS2008在Windows7 打开维护界面看不到可以输序列号的地方. 因为微软把他隐藏了. 2.我们可以借用工具把他显示出来 下载地址:http://www.zlsoft.com/techbbs ...

  8. [LeetCode] Candy (分糖果),时间复杂度O(n),空间复杂度为O(1),且只需遍历一次的实现

    [LeetCode] Candy (分糖果),时间复杂度O(n),空间复杂度为O(1),且只需遍历一次的实现 原题: There are N children standing in a line. ...

  9. 【转载】Maven pom文件详解

    什么是pom?    pom作为项目对象模型.通过xml表示maven项目,使用pom.xml来实现.主要描述了项目:包括配置文件:开发者需要遵循的规则,缺陷管理系统,组织和licenses,项目的u ...

  10. BAT修改文本内容

    @echo off (for /f "delims=" %%a in (文件名) do ( set "str=%%a" setlocal enabledelay ...