一、普通java项目

(1)添加项目jar包
File -> Project Structure
    Libarries 添加jar包jna-4.0.0.jar
(2)将Data文件夹复制到ICTCLAS2015文件夹下
(3)声明调用分词器的接口,如下:
//定义接口Clibrary,继承自com.sun.jna.Library
public interface CLibrary extends Library{
//定义并初始化接口的静态变量,这一个语句是用来加载dll的,注意dll文件的路径
//可以是绝对路径也可以是相对路径,只需要填写dll的文件名,不能加后缀
//加载dll文件NLPIR.dll
CLibrary Instance =(CLibrary) Native.loadLibrary(
"C:\\jars\\nlpir\\bin\\ICTCLAS2015\\NLPIR",CLibrary.class);
// 初始化函数声明
public int NLPIR_Init(String sDataPath, int encoding, String sLicenceCode);
//执行分词函数声明
public String NLPIR_ParagraphProcess(String sSrc, int bPOSTagged);
//提取关键词函数声明
public String NLPIR_GetKeyWords(String sLine, int nMaxKeyLimit, boolean bWeightOut);
//提取文件中关键词的函数声明
public String NLPIR_GetFileKeyWords(String sLine, int nMaxKeyLimit, boolean bWeightOut);
//添加用户词典声明
public int NLPIR_AddUserWord(String sWord);//add by qp 2008.11.10
//删除用户词典声明
public int NLPIR_DelUsrWord(String sWord);//add by qp 2008.11.10
//获取最后一个错误的说明
public String NLPIR_GetLastErrorMsg();
//退出函数声明
public void NLPIR_Exit();
//文件分词声明
public void NLPIR_FileProcess(String utf8File, String utf8FileResult, int i);

}
(4)分词器使用实例:
String system_charset="UTF-8";
//说明分词器的bin文件所在的目录
String dir="C:\\jars\\nlpir\\bin\\ICTCLAS2015";
int charset_type=1;
String utf8File="C:\\utf8file.txt";
String utf8FileResult ="C:\\utf8result.txt";
//初始化分词器
int init_flag =CLibrary.Instance.NLPIR_Init(dir,charset_type,"0");
String nativeBytes=null;
if(init_flag==0){
nativeBytes=CLibrary.Instance.NLPIR_GetLastErrorMsg();
System.out.println("初始化失败,原因为"+nativeBytes);
return;
}
String sinput="去年开始,打开百度李毅吧,满屏的帖子大多含有“屌丝”二字,一般网友不仅不懂这词什么意思,更难理解这个词为什么会这么火。然而从下半年开始,“屌丝”已经覆盖网络各个角落,人人争说屌丝,人人争当屌丝。\n" +
"从遭遇恶搞到群体自嘲,“屌丝”名号横空出世";
try{

//参数0代表不带词性,参数1代表带有词性标识
nativeBytes=CLibrary.Instance.NLPIR_ParagraphProcess(sinput,0);
System.out.println("分词结果为:"+nativeBytes);
//添加用户词典
CLibrary.Instance.NLPIR_AddUserWord("满屏的帖子 n");
CLibrary.Instance.NLPIR_AddUserWord("更难理解 n");
//执行分词
nativeBytes=CLibrary.Instance.NLPIR_ParagraphProcess(sinput,1);
System.out.println("增加用户词典后分词的结果为: " +nativeBytes);
//删除用户定义的词 更难理解
CLibrary.Instance.NLPIR_DelUsrWord("更难理解");
//执行分词
nativeBytes=CLibrary.Instance.NLPIR_ParagraphProcess(sinput,1);
System.out.println("删除用户词典后分词结果为: "+nativeBytes);
//从utf8File目录中读取语句进行分词,将结果写入utf8FileResult对应的路径之中,保留词性对应的标志
CLibrary.Instance.NLPIR_FileProcess(utf8File,utf8FileResult,1);
//获取sinput中对应的关键词,指定关键词数目最多为3
nativeBytes=CLibrary.Instance.NLPIR_GetKeyWords(sinput,3,false);
System.out.println("关键词提取结果是:"+nativeBytes);
//获取文件中对应的关键词
nativeBytes=CLibrary.Instance.NLPIR_GetFileKeyWords(utf8File,10,false);
System.out.println("关键词提取结果是:"+nativeBytes);
}catch (Exception e){
e.printStackTrace();
}
(3)String编码方式转换函数的实现:
//转换String的编码方式
public static String transString(String str,String ori_encoding,String new_encoding){
try{
return new String(str.getBytes(ori_encoding),new_encoding);
}catch (UnsupportedEncodingException e){
e.printStackTrace();
}
return null;
}
二、spark项目
    请注意,一中步骤(1),(2),(3)也是必不可少的!
    有了普通实现的完成,下一步我想将分词部署在spark中,就有了下述项目。我想将文本转换为 单词,词性标志 PairRDD,具体实现如下,有上面的基础,就不在详细解释了。
SparkConf conf =new SparkConf().setAppName("test").setMaster("local");
JavaSparkContext sc =new JavaSparkContext(conf);
JavaRDD<String> inputs =sc.textFile("C:\\utf8file.txt");
JavaRDD<String> source=inputs.filter(
new Function<String, Boolean>() {
public Boolean call(String v1) throws Exception {
return !v1.trim().isEmpty();
}
}
);
JavaRDD<String> transmit = source.mapPartitions(
new FlatMapFunction<Iterator<String>, String>() {
public Iterable<String> call(Iterator<String> it) throws Exception {
List<String> list=new ArrayList<String>();
String dir="C:\\jars\\nlpir\\bin\\ICTCLAS2015";
int charset_type=1;
int init_flag =CLibrary.Instance.NLPIR_Init(dir,charset_type,"0");
if(init_flag==0){
throw new RuntimeException(CLibrary.Instance.NLPIR_GetLastErrorMsg());
}
try{
while(it.hasNext()){
list.add(CLibrary.Instance.NLPIR_ParagraphProcess(it.next(),1));
}
}catch (Exception e){
e.printStackTrace();
}
return list;
}
}
).filter(
new Function<String, Boolean>() {
public Boolean call(String v1) throws Exception {
return !v1.trim().isEmpty();
}
}
);

JavaRDD<String> words = transmit.flatMap(
new FlatMapFunction<String, String>() {
public Iterable<String> call(String s) throws Exception {
return Arrays.asList(s.split(" "));
}
}
).filter(
new Function<String, Boolean>() {
public Boolean call(String v1) throws Exception {
return !v1.trim().isEmpty();
}
}
);
JavaPairRDD<String, String> result = words.mapToPair(
new PairFunction<String, String, String>() {
public Tuple2<String, String> call(String s) throws Exception {
String[] split = s.split("/");
return new Tuple2<String, String>(split[0], split[1]);
}
}
);
for(Tuple2<String,String> t:result.collect())
System.out.println(t._1()+" "+t._2());

sc.stop();
程序执行结果:

scala版本
def ok(f:Iterator[String]):Iterator[String] ={
val dir="C:\\jars\\nlpir\\bin\\ICTCLAS2015"
val charset_type=1
val init_flag=CLibrary.Instance.NLPIR_Init(dir,charset_type,"0")
if(init_flag==0)
null
val buf = new ArrayBuffer[String]
for(it<-f){
buf+=(CLibrary.Instance.NLPIR_ParagraphProcess(it,0))
}
buf.iterator
}

def main(args:Array[String]): Unit = {
val conf = new SparkConf().setAppName("test").setMaster("local");
val sc = new SparkContext(conf);
val inputs = sc.textFile("c:\\utf8file.txt");
val results=inputs.mapPartitions(
ok
);
results.collect().foreach(println)

}



NLPIR中文分词器的使用的更多相关文章

  1. ES-自然语言处理之中文分词器

    前言 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块.不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性.句法树 ...

  2. Elasticsearch系列---使用中文分词器

    前言 前面的案例使用standard.english分词器,是英文原生的分词器,对中文分词支持不太好.中文作为全球最优美.最复杂的语言,目前中文分词器较多,ik-analyzer.结巴中文分词.THU ...

  3. solr服务中集成IKAnalyzer中文分词器、集成dataimportHandler插件

    昨天已经在Tomcat容器中成功的部署了solr全文检索引擎系统的服务:今天来分享一下solr服务在海量数据的网站中是如何实现数据的检索. 在solr服务中集成IKAnalyzer中文分词器的步骤: ...

  4. 11大Java开源中文分词器的使用方法和分词效果对比

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

  5. 转:solr6.0配置中文分词器IK Analyzer

    solr6.0中进行中文分词器IK Analyzer的配置和solr低版本中最大不同点在于IK Analyzer中jar包的引用.一般的IK分词jar包都是不能用的,因为IK分词中传统的jar不支持s ...

  6. 我与solr(六)--solr6.0配置中文分词器IK Analyzer

    转自:http://blog.csdn.net/linzhiqiang0316/article/details/51554217,表示感谢. 由于前面没有设置分词器,以至于查询的结果出入比较大,并且无 ...

  7. Solr入门之(8)中文分词器配置

    Solr中虽然提供了一个中文分词器,但是效果很差,可以使用IKAnalyzer或Mmseg4j 或其他中文分词器. 一.IKAnalyzer分词器配置: 1.下载IKAnalyzer(IKAnalyz ...

  8. Solr学习笔记之2、集成IK中文分词器

    Solr学习笔记之2.集成IK中文分词器 一.下载IK中文分词器 IK中文分词器 此文IK版本:IK Analyer 2012-FF hotfix 1 完整分发包 二.在Solr中集成IK中文分词器 ...

  9. solr4.7中文分词器(ik-analyzer)配置

    solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器. 一.版本信息 solr版本:4.7.0 需 ...

随机推荐

  1. [转]程序开发基础学习二(C++ Google Style 命名规则)

    无规矩不成方圆,新的岗位就需要服从团队的编码规则.很开心团队用的是Google的C++编码规则,大概看了下Google 的编码规则,正如九天翔雁说的:“Google的 C++ Style Guide远 ...

  2. CodeForces--TechnoCup--2016.10.15--ProblemB--Bill Total Value(字符串处理)

    Bill Total Value time limit per test 1 second memory limit per test 256 megabytes input standard inp ...

  3. unity 创建NGUI字体

    1.NGUI -> Open -> Font Maker 打开FoontMaker窗口. 2.点Source选择.ttf字体,必须是中文命令,否则会出错. 3.点Custom单选按钮,输入 ...

  4. elasticsearch 配置说明

    elasticsearch的config文件夹里面有两个配置文件:elasticsearch.yml和logging.yml,第一个是es的基本 配置文件,第二个是日志配置文件,es也是使用log4j ...

  5. 几种在shell命令行中过滤adb logcat输出的方法

    我们在Android开发中总能看到程序的log日志内容充满了屏幕,而真正对开发者有意义的信息被淹没在洪流之中,让开发者无所适从,严重影响开发效率.本文就具体介绍几种在shell命令行中过滤adblog ...

  6. a java runtime environment(JRE) or java development kit(JDK) must be....

    错误: 解决方法: 系统变量里设置下面: 变量名:JAVA_HOME 变量值:C:\Program Files\Java\jdk1.6.0_25 变量名:CLASSPATH 变量值:.;%JAVA_H ...

  7. 自定义View常处理的回调函数

    自定义View常处理的回调函数 onFinishInflate() 当View中所有的子控件均被映射成xml后触发 onMeasure(int, int) 确定所有子元素的大小 onLayout(bo ...

  8. cc2530串口通信流程

    //串口发送接收流程 main: //主函数 ->osal_init_system(); //操作系统初始化 ->osalInitTasks(); //任务初始化 -->ZDApp_ ...

  9. 基于Verilog HDL 的数字电压表设计

    本次实验是在“基于Verilog HDL的ADC0809CCN数据采样”实验上进一步改进,利用ADC0809采集到的8位数据,进行BCD编码,以供查表方式相加进行显示,本次实验用三位数码管. ADC0 ...

  10. Android USER 版本与ENG 版本的差异--MTK官方解释

     分类: Android(4)  Description]Android USER 版本与ENG 版本的差异 [Keyword]USER ENG user eng 用户版本 工程版本 差异 [Solu ...