lucene 4.0学习

一：官方文件

　　http://lucene.apache.org/core/4_0_0/

　　ps：网上参考文章：http://www.cnblogs.com/xing901022/p/3933675.html

二：jar包

（1）lucene-core-4.0.0.jar

（2）lucene-analyzers-common-4.0.0.jar

（3）lucene-analyzers-smartcn-4.0.0.jar

（4）lucene-queries-4.0.0.jar

（5）lucene-queryparser-4.0.0.jar

（6）jxl.jar

（7）spring相关jar包

（8）poi包

注：目前最新的lucene6.2需要jdk1.8，貌似是myeclipse8.5不兼容jdk1.8，导致出错，所以还是选用了jdk1.6+lucene4.0

三：例子

package demo;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileReader;

import java.util.ArrayList;

import java.util.Date;

import java.util.List;

import jxl.Cell;

import jxl.Sheet;

import jxl.Workbook;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.TextField;

import org.apache.lucene.document.Field.Store;

import org.apache.lucene.index.DirectoryReader;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.IndexWriterConfig;

import org.apache.lucene.queryparser.classic.QueryParser;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.Query;

import org.apache.lucene.search.ScoreDoc;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

import org.apache.lucene.util.Version;

import org.apache.poi.hwpf.HWPFDocument;

import org.apache.poi.hwpf.usermodel.Range;

import org.springframework.stereotype.Controller;

import org.springframework.web.bind.annotation.RequestMapping;

import org.springframework.web.bind.annotation.ResponseBody;

/**

 * @author xinghl

 *

 */

@Controller

@RequestMapping("/luceneController")

public class luceneController{

    private static String content="";

    private static String INDEX_DIR = "D:\\luceneIndex";

    private static String DATA_DIR = "D:\\luceneData";

    private static Analyzer analyzer = null;

    private static Directory directory = null;

    private static IndexWriter indexWriter = null;

     * 创建当前文件目录的索引

     * @param path 当前文件目录

     * @return 是否成功

     */

    @SuppressWarnings({ "deprecation" })

    public static boolean createIndex(String path){

        Date date1 = new Date();

        List<File> fileList = getFileList(path);

        for (File file : fileList) {

            content = "";

            //获取文件后缀

            String type = file.getName().substring(file.getName().lastIndexOf(".")+1);

            if("txt".equalsIgnoreCase(type)){

                content += txt2String(file);

            }else if("doc".equalsIgnoreCase(type)){

                content += doc2String(file);

            }else if("xls".equalsIgnoreCase(type)){

                content += xls2String(file);

            }

            System.out.println("name :"+file.getName());

            System.out.println("path :"+file.getPath());

            System.out.println();

            try{

                analyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);

                directory = FSDirectory.open(new File(INDEX_DIR));

                File indexFile = new File(INDEX_DIR);

                if (!indexFile.exists()) {

                    indexFile.mkdirs();

                }

                IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_CURRENT, analyzer);

                indexWriter = new IndexWriter(directory, config);

                Document document = new Document();

                document.add(new TextField("filename", file.getName(), Store.YES));

                document.add(new TextField("content", content, Store.YES));

                document.add(new TextField("path", file.getPath(), Store.YES));

                indexWriter.addDocument(document);

                indexWriter.commit();

                closeWriter();

            }catch(Exception e){

                e.printStackTrace();

            }

            content = "";

        }

        Date date2 = new Date();

        System.out.println("创建索引-----耗时：" + (date2.getTime() - date1.getTime()) + "ms\n");

        return true;

    }

    /**

     * 读取txt文件的内容

     * @param file 想要读取的文件对象

     * @return 返回文件内容

     */

    public static String txt2String(File file){

        String result = "";

        try{

            BufferedReader br = new BufferedReader(new FileReader(file));//构造一个BufferedReader类来读取文件

            String s = null;

            while((s = br.readLine())!=null){//使用readLine方法，一次读一行

                result = result + "\n" +s;

            }

            br.close();

        }catch(Exception e){

            e.printStackTrace();

        }

        return result;

    }

    /**

     * 读取doc文件内容

     * @param file 想要读取的文件对象

     * @return 返回文件内容

     */

    public static String doc2String(File file){

        String result = "";

        try{

            FileInputStream fis = new FileInputStream(file);

            HWPFDocument doc = new HWPFDocument(fis);

            Range rang = doc.getRange();

            result += rang.text();

            fis.close();

        }catch(Exception e){

            e.printStackTrace();

        }

        return result;

    }

    /**

     * 读取xls文件内容

     * @param file 想要读取的文件对象

     * @return 返回文件内容

     */

    public static String xls2String(File file){

        String result = "";

        try{

            FileInputStream fis = new FileInputStream(file);

            StringBuilder sb = new StringBuilder();

            jxl.Workbook rwb = Workbook.getWorkbook(fis);

            Sheet[] sheet = rwb.getSheets();

            for (int i = 0; i < sheet.length; i++) {

                Sheet rs = rwb.getSheet(i);

                for (int j = 0; j < rs.getRows(); j++) {

                   Cell[] cells = rs.getRow(j);

                   for(int k=0;k<cells.length;k++)

                   sb.append(cells[k].getContents());

                }

            }

            fis.close();

            result += sb.toString();

        }catch(Exception e){

            e.printStackTrace();

        }

        return result;

    }

    /**

     * 查找索引，返回符合条件的文件

     * @param text 查找的字符串

     * @return 符合条件的文件List

     */

    public static void searchIndex(String text){

        Date date1 = new Date();

        try{

            directory = FSDirectory.open(new File(INDEX_DIR));

            analyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);

            DirectoryReader ireader = DirectoryReader.open(directory); //DATA_DIR目录下为空时，这里会报异常并被捕获

            IndexSearcher isearcher = new IndexSearcher(ireader);

            QueryParser parser = new QueryParser(Version.LUCENE_CURRENT, "content", analyzer);

            Query query = parser.parse(text);

            ScoreDoc[] hits = isearcher.search(query, null, 1000).scoreDocs;

            for (int i = 0; i < hits.length; i++) {

                Document hitDoc = isearcher.doc(hits[i].doc);

                System.out.println("____________________________");

                System.out.println(hitDoc.get("filename"));

                System.out.println(hitDoc.get("content"));

                System.out.println(hitDoc.get("path"));

                System.out.println("____________________________");

            }

            ireader.close();

            directory.close();

        }catch(Exception e){

            e.printStackTrace();

        }

        Date date2 = new Date();

        System.out.println("查看索引-----耗时：" + (date2.getTime() - date1.getTime()) + "ms\n");

    }

    /**

     * 过滤目录下的文件

     * @param dirPath 想要获取文件的目录

     * @return 返回文件list

     */

    public static List<File> getFileList(String dirPath) {

        File[] files = new File(dirPath).listFiles();

        List<File> fileList = new ArrayList<File>();

        for (File file : files) {

            if (isTxtFile(file.getName())) {

                fileList.add(file);

            }

        }

        return fileList;

    }

    /**

     * 判断是否为目标文件，目前支持txt xls doc格式

     * @param fileName 文件名称

     * @return 如果是文件类型满足过滤条件，返回true；否则返回false

     */

    public static boolean isTxtFile(String fileName) {

        if (fileName.lastIndexOf(".txt") > 0) {

            return true;

        }else if (fileName.lastIndexOf(".xls") > 0) {

            return true;

        }else if (fileName.lastIndexOf(".doc") > 0) {

            return true;

        }

        return false;

    }

    public static void closeWriter() throws Exception {

        if (indexWriter != null) {

            indexWriter.close();

        }

    }

    /**

     * 删除文件目录下的所有文件

     * @param file 要删除的文件目录

     * @return 如果成功，返回true.

     */

    public static boolean deleteDir(File file){

        if(file.isDirectory()){

            File[] files = file.listFiles();

            for(int i=0; i<files.length; i++){

                deleteDir(files[i]);

            }

        }

        file.delete();

        return true;

    }

    @RequestMapping(params="test")

    @ResponseBody

    public String main(String value){   //value为前端传过来的要查询的字符串

        File fileIndex = new File(INDEX_DIR);

        if(deleteDir(fileIndex)){

            fileIndex.mkdir();

        }else{

            fileIndex.mkdir();

        }

        createIndex(DATA_DIR);

        searchIndex(value);

        return "success";

    }

}

四：前端

<body>

     <form id="testform" method="post" action="luceneController.do?test">

        <button id="one">点我开始测试</button>

        <input type="text" name="value"/>

    </form>

  </body>

  <script type="text/javascript">

 　　 $("#one").live("click",function(){

     　　 $("#testform").submit();

 　　 });

  </script>

lucene 4.0学习的更多相关文章

Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合，以及对分词器的思考
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
Lucene.net(4.8.0) 学习问题记录六：Lucene 的索引系统和搜索过程分析
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
solr6.0学习
solr6.0学习(一)环境搭建准备工作:目前最新版本6.0.下载solr 6.0:Solr6.0下载JDK8 下载jdk1.8:jdk1.8[solr6.0是基于jdk8开发的]tomcat8.0 ...
Lucene.net入门学习
Lucene.net入门学习(结合盘古分词) Lucene简介 Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全 ...
关于Lucene 3.0升级到Lucene 4.x 备忘
最近,需要对项目进行lucene版本升级.而原来项目时基于lucene 3.0的,很古老的一个版本的了.在老版本中中,我们主要用了几个lucene的东西: 1.查询lucene多目录索引. 2.构建R ...
Servlet3.0学习总结——基于Servlet3.0的文件上传
Servlet3.0学习总结(三)——基于Servlet3.0的文件上传在Servlet2.5中,我们要实现文件上传功能时,一般都需要借助第三方开源组件,例如Apache的commons-fileu ...
DirectX 总结和DirectX 9.0 学习笔记
转自:http://www.cnblogs.com/graphics/archive/2009/11/25/1583682.html DirectX 总结 DDS DirectXDraw Surfac ...
[EntLib]微软企业库5.0 学习之路——第一步、基本入门
话说在大学的时候帮老师做项目的时候就已经接触过企业库了但是当初一直没明白为什么要用这个,只觉得好麻烦啊,竟然有那么多的乱七八糟的配置(原来我不知道有配置工具可以进行配置,请原谅我的小白). 直到去年在 ...
Bootstrap3.0学习14
Bootstrap3.0学习第十四轮(分页.徽章) 前言阅读之前您也可以到Bootstrap3.0入门学习系列导航中进行查看http://www.cnblogs.com/aehyok/p/340 ...

随机推荐

cocos2dx 运动+旋转动画 CCSequence CCAnimation CCAnimate CCMoveTo CCCallFuncN
cocos2dx 动画是个非常奇妙的东西~~. 这里看到的是一个物体,在运动的过程中会不断地翻转的过程. 两个动画一起来~~ 以下的代码中涉及到:CCAnimation(补间动画 ) CCAnima ...
hdu 5442 Favorite Donut 后缀数组
Favorite Donut Time Limit: 1 Sec Memory Limit: 256 MB 题目连接 http://acm.hdu.edu.cn/showproblem.php?pid ...
[置顶] Java编程笔试题之一 ----文件操作
题目:给定一个文件和一个字符串,判断文件是否包含该字符串,如果包含,请打印出包含该字符串的行号以及该行的全部内容. 思路: ①使用缓冲流(BufferedReader)读取文件,定义初始行号为0. ...
ios开发——实用技术OC篇&地图与定位
地图与定位 11.1 iOS定位服务 11.2 iOS地图 11.3 Web地图 1 iOS定位服务 iOS中有三个定位服务组件: Wifi定位,通过查询一个Wifi路由器的地理位置的信息.比较省电, ...
垃圾回收算法手册：自动内存管理的艺术 BOOK
垃圾回收算法手册:自动内存管理的艺术 2016-03-18 华章计算机内容简介 PROSPECTUS 本书是自动内存管理领域的里程碑作品,汇集了这个领域里经过50多年的研究沉积下来的最佳实践,包含当 ...
HTTP 无法注册 URL http://+:12345/HelloWcfService/。进程不具有此命名空间的访问权限
运行的时候却发现出如下问题:HTTP 无法注册 URLhttp://+:12345/HelloWcfService/.进程不具有此命名空间的访问权限(有关详细信息,请参见http://go.micro ...
Java基础知识强化之网络编程笔记20：Android网络通信之 Android常用OAuth登录和分享
1. 申请百度开发者账号及百度OAuth简介. (1)申请开发者账号: http://developer.baidu.com/ (2)创建项目: http://developer.baidu.com ...
Flex学习第一天(两个数相加)
<?xml version="1.0" encoding="utf-8"?><s:Application xmlns:fx="htt ...
Windows系统下用命令行编译C/C++程序过程总结
转自:http://www.cnblogs.com/caikehe/archive/2013/01/12/2858017.html (1)先用记事本编写如下所示的代码,并另存为hello.cpp,假设 ...
Redis主备复制
Redis 支持 Master-Slave(主从)模式,Redis Server 可以设置为另一个 Redis Server 的主机(从机),从机定期从主机拿数据.特殊的,一个从机同样可以设置为一个 ...

lucene 4.0学习

lucene 4.0学习的更多相关文章

随机推荐

热门专题