Lucene中Analyzer语句分析

Lucene中Analyzer语句分析,利用lucene中自带的词法分析工具Analyzer，进行对句子的分析。

源代码如下：

 package com.test;

 import java.io.IOException;

 import java.io.StringReader;

 import java.util.List;

 import org.apache.lucene.analysis.Analyzer;

 import org.apache.lucene.analysis.SimpleAnalyzer;

 import org.apache.lucene.analysis.StopAnalyzer;

 import org.apache.lucene.analysis.Token;

 import org.apache.lucene.analysis.TokenStream;

 import org.apache.lucene.analysis.WhitespaceAnalyzer;

 import org.apache.lucene.analysis.standard.StandardAnalyzer;

 import org.apache.lucene.analysis.tokenattributes.TermToBytesRefAttribute;

 import org.apache.lucene.util.Version;

 import com.bean.mashupDerscriptionTest;

 import com.daoImpl.MashupDaoImpl;

 import com.gargoylesoftware.htmlunit.javascript.host.Comment;

 public class KeyWordsTest {

     /**

      * @param args

      */

     public static void main(String[] args) {

         MashupDaoImpl mashupDao = new MashupDaoImpl();

         List<mashupDerscriptionTest> list = mashupDao

                 .findAllmashupDescripteonTest();

         int i = 1;

         String comment = null;

         for (mashupDerscriptionTest mashup : list) {

             // 描述为空去名字作为描述

             if (mashup.getComments().equals("")) {

                 comment = mashup.getName();

             } else {

                 comment = mashup.getComments();

             }

 //            System.out.println(comment);

             //对读取的描述利用Lucene中的Analyzer进行句子分析产生

             //空格及各种符号分割,去掉停止词，停止词包括 is,are,in,on,the等无实际意义的词

             StringReader reader = new StringReader(comment);

             Analyzer analyzer = new StopAnalyzer();

             TokenStream tStream = analyzer.tokenStream("", reader);

             Token t;

             try {

                 while ((t = tStream.next()) != null) {

                     //对每个单词采用

                     System.out.print(t.termText()+" ");

                 }

                 System.out.println((i++)+"条描述分词结束！");

             } catch (IOException e) {

                 e.printStackTrace();

             }

         }

     }

 }

　　注:数据来源于数据库中......

Lucene中Analyzer语句分析的更多相关文章

《Lucene in Action 第二版》第4章节学习总结 -- Lucene中的分析
通过第四章的学习,可以了解lucene的分析过程是怎样的,并且可以学会如何使用lucene内置分析器,以及自定义分析器.下面是具体总结 1. 分析(Analysis)是什么? 在lucene中,分析就 ...
免费的Lucene 原理与代码分析完整版下载
Lucene是一个基于Java的高效的全文检索库.那么什么是全文检索,为什么需要全文检索?目前人们生活中出现的数据总的来说分为两类:结构化数据和非结构化数据.很容易理解,结构化数据是有固定格式和结构的 ...
Lucene 中的Tokenizer, TokenFilter学习
lucene中的TokenStream,TokenFilter之间关系 TokenStream是一个能够在被调用后产生语汇单元序列的类,其中有两个类型:Tokenizer和TokenFilte ...
lucene中Field简析
http://blog.csdn.net/zhaoxiao2008/article/details/14180019 先看一段lucene3代码 Document doc = new Document ...
如何理解T-SQL中Merge语句
写在前面的话:之前看过Merge语句,感觉没什么用,完全可以用其他的方式来替代,最近又看了看Merge语句,确实挺好用,可以少写很多代码,看起来也很紧凑,当然也有别的优点. ====正文开始===== ...
lucene中FSDirectory、RAMDirectory的用法
package com.ljq.one; import java.io.BufferedReader;import java.io.File;import java.io.FileInputStrea ...
tsql语句分析工具转
一款好用且免费的语句分析工具在调优过程中的查询语句优化阶段,分析语句的执行计划是必经之路,一款好的执行计划分析工具确实可以帮助我们事半功倍一款名为“Plan Explorer“,自己用的挺爽,不私 ...
oracle过程中动态语句实现
oracle过程中动态语句实现一般的PL/SQL程序设计中,在DML和事务控制的语句中可以直接使用SQL,但是DDL语句及系统控制语句却不能在PL/SQL中直接使用,要想实现在PL/SQL中使用DD ...
mysql语句分析
explain的每个输出行提供一个表的相关信息,并且每个行包括下面的列: 1,id select识别符.这是select的查询序列号.2,select_type 可以为一下任何一种类型simple ...

随机推荐

C++ Rand()各种实现
参考链接:http://www.cplusplus.com/reference/cstdlib/rand/ 使用实例: v1 = rand() % 100; // v1 in the range 0 ...
AI 的会议总结（by南大周志华）
原文链接:http://blog.csdn.net/akipeng/article/details/6533897 这个列的更详细:http://www.cvchina.info/2010/08/31 ...
（转）基于Metronic的Bootstrap开发框架经验总结（4）--Bootstrap图标的提取和利用
http://www.cnblogs.com/wuhuacong/p/4762924.html 在前面的一篇随笔<基于Metronic的Bootstrap开发框架经验总结(1)-框架总览及菜单模 ...
Javascript语法，变量类型，条件，循环语句，函数，面向对象
1．JavaScript代码革两种存在形式:  <script type='txt/javascript' src='/js/comment.js'>& ...
竞品分析」项目协作管理平台-Teambition和CORNERSTONE--深度体验
一.分析目的通过分析2B产品中的团队协作管理软件的对比分析,用于为公司团队协作软件的选型做产考. 二.竞品归属市场概况 2.1.目标用户群及需求主要面向企业用户,用于解决企业不同地域以及不同职能部 ...
JDK8新特性：Lambda表达式
Lambda表达式,案例一:new Thread(() -> System.out.println("thread")); Lambda表达式,案例二:由参数/箭头和主体组成 ...
DATEPART()
定义和用法 DATEPART() 函数用于返回日期/时间的单独部分,比如年.月.日.小时.分钟等等. 语法 DATEPART(datepart,date) date 参数是合法的日期表达式.datep ...
复习C语言基础知识（day02）
一.大型软件组织定义规则,规则就是协议.用户和中介的接口. 软件开发的过程: 定义规则,定义协议.软件为用户提供的功能. 在C语言中使用接口实现.接口就是函数. 两种用户函数的使用者函数的实现者 ...
bpm被攻击事件
bpm登录不上,服务器是windows2008,从深信服上面设置了ddos每秒钟连接超5000次封锁,阻断后面的IP连接,,深信服DDOS日志没有记录在bpm服务器上面通过netstat -a查看发 ...
JQuery dom 操作总结
DOM 操作之获取值获得内容 - text():设置或返回所选元素的文本内容 $("#btn1").click(function(){ alert("Text: &qu ...

Lucene中Analyzer语句分析

Lucene中Analyzer语句分析的更多相关文章

随机推荐

热门专题