时间:

2015/3/18

杨鑫newlife



对于文档的预处理后。就要開始使用Lucene来处理相关的内容了。

这里使用的Lucene的过程例如以下:

首先要为处理对象机那里索引

二是构建查询对象

三是在索引中查找

这里的代码是处理创建索引的部分

代码:

package ch2.lucenedemo.process;





import java.io.BufferedReader;

import java.io.File;

import java.io.FileReader;

import java.io.IOException;





import jeasy.analysis.MMAnalyzer;





import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.document.Field.Index;

import org.apache.lucene.index.IndexWriter;

public class IndexProcessor {

//成员变量。存储创建的索引文件存放的位置

private String INDEX_STORE_PATH = "E:\\Lucene项目\\索引文件夹";



//创建索引

public void createIndex(String inputDir){

try

{

System.out.println("程序開始执行。正在创建索引->->->->->");

IndexWriter writer = new IndexWriter(INDEX_STORE_PATH, new MMAnalyzer(), true);



File filesDir = new File(inputDir);



//取得全部须要建立索引的文件数组

File[] files = filesDir.listFiles();



//遍历数组

for(int i = 0; i < files.length; i++){



//获取文件名称

String fileName = files[i].getName(); 



//推断文件是否为txt类型的文件

if(fileName.substring(fileName.lastIndexOf(".")).equals(".txt")){



//创建一个新的Document

Document doc = new Document();

System.out.println("正在为文件名称创建索引->->->->");

//为文件名称创建一个Field

Field field = new Field("filename", files[i].getName(), Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field);

System.out.println("正在为文件内容创建索引->->->->");

//为文件内容创建一个Field

field = new Field("content", loadFileToString(files[i]), Field.Store.NO, Field.Index.TOKENIZED);

doc.add(field);



//把Document增加到IndexWriter

writer.addDocument(doc);



}



}

writer.close();

System.out.println("程序创建结束->->->->");

}catch(Exception e){

e.printStackTrace();

}



}



/*

* 从文件里把内容读取出来,全部的内容就放在一个String中返回

* */

public String loadFileToString(File file){

try{

BufferedReader br = new BufferedReader(new FileReader(file));

StringBuffer sb = new StringBuffer();

String line= br.readLine();

while(line != null){

sb.append(line);

line = br.readLine();

}

br.close();

return sb.toString();

}catch(IOException e){

e.printStackTrace();

return null;

}

}



public static void main(String[] args){

IndexProcessor ip = new IndexProcessor();

ip.createIndex("E:\\Lucene项目\\目标文件");



}



}

使用Lucene对预处理后的文档进行创建索引(可执行)的更多相关文章

  1. lucene全文搜索之三:生成索引字段,创建索引文档(给索引字段加权)基于lucene5.5.3

    前言:上一章中我们已经实现了索引器的创建,但是我们没有索引文档,本章将会讲解如何生成字段.创建索引文档,给字段加权以及保存文档到索引器目录 luncene5.5.3集合jar包下载地址:http:// ...

  2. ELK学习总结(2-4)bulk 批量操作-实现多个文档的创建、索引、更新和删除

    bulk 批量操作-实现多个文档的创建.索引.更新和删除 ----------------------------------------------------------------------- ...

  3. [翻译] DTCoreText 从HTML文档中创建富文本

    DTCoreText 从HTML文档中创建富文本 https://github.com/Cocoanetics/DTCoreText 注意哦亲,DTRichTextEditor 这个组件是收费的,不贵 ...

  4. es删除文档或者删除索引

    es删除文档或者删除索引 学习了:https://www.imooc.com/video/15771 删除文档: DELETE http://127.0.0.1:9200/people/man/1 删 ...

  5. js 文档加载完成之后执行 备用

    //文档加载完成之后执行 (function(){ var _globeCallback; window.$$ = function(callback){ _globeCallback = callb ...

  6. MongoDB 大数据技术之mongodb中在嵌套子文档的文档上面建立索引

    一.给collection objectid赋自定义的值 MongoDB Enterprise > db.testid.insert({_id:{imsi:"4567890123&qu ...

  7. matlab2018a安装后帮助文档打不开解决方法

    安装matlab2018a破解版后,帮助文档提示需要许可证问题(破解版没有可用许可证): 解决方法是把文档设置为离线即可(预设---->帮助---->安装在本地---->小窗口)

  8. 微信小程序API 文档快速参考索引

    内容那么多,这个页面到底做了什么? 第一:解决微信文档APi文档使用不便: 第二:解决了内容搜索与索引:—— 最好是写成全文索引文档,但是比较需要时间,而且更新是一件麻烦的事:所以以下是直接 连接官网 ...

  9. Linux命令学习之路——文档连接创建:ln

    使用权限:所有角色 使用方式:ln [ -options ] source target 作用:建立源文件与目标文件之间的连接 注意点: 1.连接分为硬连接和软连接,其中硬连接不能对目录做硬连接,且不 ...

随机推荐

  1. python 11:range(起始索引,终止索引,步数)(默认情况下步数为1,生成从起始索引,每次增加(终止索引-起始索引)/步数,到终止索引前的数字串)

    squares = [] for value in range(1,11): #第三参数默认为1,生成从1开始,每次增加1步数,到11前的10为止的数字串 square = value ** 2 sq ...

  2. BZOJ 4565 状压DP

    思路: f[i][j][S]表示从i到j压成S状态 j-m是k-1的倍数 $f[i][j][S<<1]=max(f[i][j][S<<1],f[i][m-1][S]+f[m][ ...

  3. Spring Boot (7) JdbcTemplate访问数据库

    使用jdbcTemplate操作数据库 spring framework对数据库的操作在jdbc上面做了深层次的封装,通过依赖注入功能,可以将datasource注册到jdbcTemplate中,学习 ...

  4. Spring Boot (1) 构建第一个Spring Boot工程

    Spring boot简介 spring boot是spring官方推出的一个全新框架,其设计目的是用来简化新spring应用的初始搭建以及开发过程. Spring boot特点 1.化繁为简,简化配 ...

  5. Python yield解析

    Pyhton generators and the yield keyword At a glance,the yield statement is used to define generators ...

  6. PCL的学习必要性、重要性、意义及最初——持续修改中

    为什么学习PCL:图像描述:各种维度图像的逻辑描述形式  ^-^ 且点云库是机器人学领域的必备基础库,ICRA和IROS的计算机视觉相关一般都使用了PCL库,PCL库也成为ROS的基础部分,与机器人操 ...

  7. 【sqli-labs】 less15 POST - Blind- Boolian/time Based - Single quotes (基于bool/时间的单引号POST型盲注)

    错误不回显了 构造永真登陆 登陆成功了 虽然登陆成功了,但是数据库的数据还么有爆出来 构造一下用户名 ' or length(database())=8# 如果数据库名的长度不等于8,登陆会失败 猜测 ...

  8. EasyUI 解决Js动态加载页面样式不显示问题

    var strHtml = "<input name='mydate' class='easyui-datebox'>"; 直接使用append把内容加载到页面中,Ea ...

  9. python 各个地方导航(方便查询,持续更新!)

    老男孩python全栈开发教程,武沛齐老师的知识点!:戳这里>>> 老男孩python全栈开发教程,linhaifeng老师的知识点!:戳这里>>> 老男孩pyth ...

  10. PL\SQL(day05)

    PLSQL 1.常用的访问数据库的相关技术 1) plsql 过程化的sql 2) proc/c++ 在c/c++语言中访问oracle数据库的技术 3) ado/odbc vc中访问数据库的技术 4 ...