自然语言交流系统 phxnet团队创新实训项目博客（十）

关于本项目中使用到的庖丁分词的总结：

Paoding 详细介绍

庖丁中文分词库是一个使用Java开发的，可结合到Lucene应用中的，为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白，致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。

Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻，采用完全的面向对象设计，构思先进。

高效率：在PIII 1G内存个人机器上，1秒可准确分词 100万汉字。

采用基于 不限制个数 的词典文件对文章进行有效切分，使能够将对词汇分类定义。

能够对未知的词汇进行合理解析

1. 从网上下载了一个庖丁解牛中文分词工具压缩包，放入D:\SoftwarePackage中。解压D:\SoftwarePackage中的paoding-analysis-2.0.4-beta压缩包到文件夹D:\software\paoding-analysis-2.0.4-beta中。

2. 新建Java工程PaodingAnalysisTest，在工程下新建文件夹lib,将解压后文件里面的paoding-analysis.jar以及lib目录下的commons-logging.jar,lucene-analyzer-2.2.0.jar,lucene-core-2.2.0.jar四个文件拷贝到lib目录下，在这里需要修改下paoding-analysis.jar里面的内容，用解压工具打开paoding-analysis.jar，修改paoding-dic-home.properties里面的内容，将#paoding.dic.home=dic修改成paoding.dic.home=E://WorkSpace//data//dic（此处路径可根据字典存放的位置进行相应更改），保存即可。

3. 右键单击工程->Properties->JavaBuild Path，在右侧选中第三个标签Libraries，点击Add JARs…，导入上述四个包；再选择第四个标签Order and Export，勾选上这四个包，点击OK按钮。

4. 然后创建一个主类，编写测试小程序（此程序是从网上copy过来的）

import java.io.*;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.Token;

import org.apache.lucene.analysis.TokenStream;

import net.paoding.analysis.analyzer.PaodingAnalyzer;

public class FenciTest{

/**

* @param args

public static voidmain(String[] args) {

// TODOAuto-generated method stub

Analyzeranalyzer=new PaodingAnalyzer();

StringdocText=null;

Filefile=new File("E:\\WorkSpace\\data\\FenciTest1.txt");

docText=readText(file);

TokenStreamtokenStream=analyzer.tokenStream(docText, newStringReader(docText));

try{

Tokent;

//System.out.println(docText);

while((t=tokenStream.next())!=null){

System.out.println(t);

}

}catch(IOExceptione){

e.printStackTrace();

}

private static StringreadText(File file) {

// TODOAuto-generated method stub

String text=null;

try{

InputStreamReaderread1=new InputStreamReader(newFileInputStream(file),"GBK");

BufferedReaderbr1=new BufferedReader(read1);

StringBufferbuff1=new StringBuffer();

while((text=br1.readLine())!=null){

buff1.append(text+"/r/n");

}

br1.close();

text=buff1.toString();

}catch(FileNotFoundExceptione){

System.out.println(e);

}catch(IOExceptione){

System.out.println(e);

}

return text;

}

如果您愿意花几块钱请我喝杯茶的话，可以用手机扫描下方的二维码，通过支付宝捐赠。我会努力写出更好的文章。
（捐赠不显示捐赠者的个人信息，如需要，请注明您的联系方式）
Thank you for your kindly donation！！

自然语言交流系统 phxnet团队创新实训项目博客（十）的更多相关文章

自然语言交流系统 phxnet团队创新实训项目博客（四）
刚开始做时,一点头绪都没有,整天的上网找资料,各种谷歌百度,各种博客论坛,搜索的关键词也无非是智能自然语言交流.智能机器人.中文问答系统等等等等.而我们的思路也是些零散的,例如我们知道会用到分词,会用 ...
自然语言交流系统 phxnet团队创新实训项目博客（二）
基本要求打开软件,即可进入2D文本交流界面, 软件此时已经连接到服务器,点击文本输入框输入你想说的话,点击发送按钮即可进行交流,点击CHAT和STUDY分别切换到聊天模式或是学习模式,聊天模式是机器 ...
自然语言交流系统 phxnet团队创新实训项目博客（十四）
项目技术借鉴报告: 一.服务器端(Server) 1.分词分词使用的是庖丁分词.使用盘古分词词库和词素作为辅助.其中包括下载Jar包并且使用. 2.人工神经网络以网上已有的初级网络为蓝图,结合机器 ...
自然语言交流系统 phxnet团队创新实训项目博客（十三）
对我们项目中的关键技术实现进行总结: 一.3DMax关键技术实现 1.一下的关于3DMax中对于人物的设计和操作均需要在对3DMax基础知识熟练掌握的情况下进行的. 2. 骨骼架设:首先对导入到3DM ...
自然语言交流系统 phxnet团队创新实训项目博客（十二）
关于情感词典的学习总结: 情感倾向可认为是主体对某一客体主观存在的内心喜恶,内在评价的一种倾向.它由两个方面来衡量:一个情感倾向方向,一个是情感倾向度. 情感倾向方向也称为情感极性.在微博中,可以理解 ...
自然语言交流系统 phxnet团队创新实训项目博客（五）
3DMax方面所涉及的专业知识: (1)一下的关于3DMax中对于人物的设计和操作均需要在对3DMax基础知识熟练掌握的情况下进行的. (2)骨骼架设:首先 ...
自然语言交流系统 phxnet团队创新实训项目博客（一）
2D文字聊天界面大致预期实现文字输入.发送消息.接收消息.你可以通过点击按钮让机器人开启聊天模式或者学习模式.又或是进入3D语音聊天界面或者退出. 目背景 (1) 开发动机的形态随着科技的进步与生活 ...
自然语言交流系统 phxnet团队创新实训项目博客（十一）
神经网络的计算过程神经网络结构如下图所示,最左边的是输入层,最右边的是输出层,中间是多个隐含层,隐含层和输出层的每个神经节点,都是由上一层节点乘以其权重累加得到,标上“+1”的圆圈为截距项b,对输入 ...
自然语言交流系统 phxnet团队创新实训项目博客（九）
项目技术总结: VoiceToText的具体使用方法: 语音转文本部分是调用的科大讯飞的在线语音,它的激发方式是按键,通过按钮触发开启安卓设备的录音,此部分需要在源码中写入关于安卓权限的要求,来调用安 ...

随机推荐

log4j的正确使用姿势
最近清明节,朋友公司的日志爆了,说控制台打得太满了,出了问题,早上4点多被喊去公司修改代码,他们把所有的日志全部在控制台打印了,结果就...我说日志这么做不可取啊,你们打印出来的内容太多啦,控制台没必 ...
Unity5 BakeGI(Mixed Lighting)小记
1.模型需勾选Generate Lightmap UVs,否则烘培图像撕裂. 2.关于为何新版的改叫Mixed Lighting,猜测是之前属于全部烘培,现在算是部分烘培,实时阴影和烘培阴影可以混用, ...
Atitti 过程导向 vs 结果导向 attlax的策
Atitti 过程导向 vs 结果导向 attilax的策略 1. 结果导向的问题以结果为导向”的明显弊端2 1.1. 白猫黑猫的策略是错误的2 1.2. 为了目的不择手段,完全违背了程序正义原则2 ...
使用flow捕获js错误提高代码质量
本文将介绍Flow及其主特性.下面分别从如何安装设置,如何添加类型注释,如何在运行时自动去掉注释等方面来介绍. 安装目前Flow兼容的操作系统有Mac OS X,Linux(64位),Windows ...
View：Android View的scrollTo(),scrollBy(),getScrollX(), getScrollY()的理解
Android系统手机屏幕的左上角为坐标系,同时y轴方向与笛卡尔坐标系的y轴方向想反.提供了 getLeft(), getTop(), getBottom(), getRight() 这些API来获取 ...
lua -- table.nums
table.nums 计算表格包含的字段数量. 格式: count = table.nums(表格对象) Lua 的“#”操作可以取得表格的长度,但仅限从开始连续数字为索引的表格.table.num ...
Python:sitecustomize 和 usercustomize
Python提供了两个hook用于定制Python:sitecustomize 和 usercustomize,首先需要查看site包目录, 然后就可以在此目录下创建usercustomize.py文 ...
关于 android receiver
可以在代码文件中声明一个receiver,也可以在manifest中声明一个,前者中的receiver只有在该activity launch起来以后才会监听其所感兴趣的事件,而如果在androidMa ...
[DIOCP3-IocpTask说明书]基于IOCP引擎的多线程任务的投递和回调处理单元
[说明] IocpTask是基于Iocp引擎的多线程任务投递和处理单元,可以方便的把任务进行投递到IOCP线程进行统一调度和处理,是模仿QDAC-QWorker的处理方式,支持D7以上的版本. [使用 ...
spark on alluxio和MR on alluxio测试(改进版)【转】
转自:http://kaimingwan.com/post/alluxio/spark-on-alluxiohe-mr-on-alluxioce-shi-gai-jin-ban 1. 介绍 2. 准备 ...

自然语言交流系统 phxnet团队 创新实训 项目博客 （十）

自然语言交流系统 phxnet团队 创新实训 项目博客 （十）的更多相关文章

随机推荐

热门专题

自然语言交流系统 phxnet团队创新实训项目博客（十）

自然语言交流系统 phxnet团队创新实训项目博客（十）的更多相关文章