LTP 分词算法实践
参考链接:
https://github.com/HIT-SCIR/ltp/blob/master/doc/install.rst
http://www.xfyun.cn/index.php/services/ltp/detail?&app_id=NTZmYzg5ZWE=
http://www.ltp-cloud.com/document/#api_rest_format_json
其他分词算法参考链接:
NLPIR:http://www.nlpir.org/ http://www.datatang.com/data/13483
bosonnlp: http://bosonnlp.com/
下面针对LTP分词算法 实践
1.登录官网 获取授权码api_key
2.分词接口操作
接口参数:

StringBuilder sb = new StringBuilder();
sb.Append(" 本报讯 (记者 王少勇)3月28日,国土资源部部长、党组书记、国家土地总督察姜大明主持召开第10次部党组会议,传达学习习xx总书记在北京市考察工作时的重要讲话精神。会议提出,要深刻理解习xx总书记重要讲话精神,充分发挥国土资源部门的服务和保障作用,推进京津冀协同发展。 xx平总书记高度重视北京发展和京津冀协同发展,今年2月下旬专程到北京市调研考察,并发表重要讲话,从做好北京发展和管理工作、推动京津冀协同发展两个方面进行了深刻阐述。会议指出,习xx总书记的重要讲话,对于实现京津冀优势互补、促进环渤海经济区发展、带动北方腹地发展,意义重大、影响深远,要认真学习,深刻领会。 会议提出,国土资源部门要进一步解放思想,加大改革创新力度,");
string url = "http://ltpapi.voicecloud.cn/analysis/";
string data = "api_key=xxx&text=" + sb.ToString() + "&pattern=ws&format=xml";
string returnValue= HttpHelper.HttpPost(url,data);
Console.WriteLine(returnValue);
Console.ReadKey();
/// <summary>
/// Post请求 webClient
/// </summary>
/// <param name="Url">地址</param>
/// <param name="postString">这里即为传递的参数,可以用工具抓包分析,也可以自己分析,主要是form里面每一个name都要加进来 </param>
/// <returns></returns>
public static string HttpPost(string url, string postString)
{
byte[] postData = Encoding.UTF8.GetBytes(postString);//编码,尤其是汉字,事先要看下抓取网页的编码方式
WebClient webClient = new WebClient();
webClient.Headers.Add("Content-Type", "application/x-www-form-urlencoded");//采取POST方式必须加的header,如果改为GET方式的话就去掉这句话即可
byte[] responseData = webClient.UploadData(url, "POST", postData);//得到返回字符流
string srcString = Encoding.UTF8.GetString(responseData);//解码
return srcString;
}
3.测试结果
<?xml version="1.0" encoding="utf-8" ?>
<xml4nlp>
<note sent="y" word="y" pos="n" ne="n" parser="n" wsd="n" srl="n" />
<doc>
<para id="">
<sent id="" cont="本报讯 (记者 王少勇)3月28日,国土资源部部长、党
组书记、国家土地总督察姜大明主持召开第10次部党组会议,传达学习习xx总书记在北京
市考察工作时的重要讲话精神。">
<word id="" cont="本报" />
<word id="" cont="讯" />
<word id="" cont="(" />
<word id="" cont="记者" />
<word id="" cont="王少勇" />
<word id="" cont=")" />
<word id="" cont="3月" />
<word id="" cont="28日" />
<word id="" cont="," />
<word id="" cont="国土" />
<word id="" cont="资源部" />
<word id="" cont="部长" />
<word id="" cont="、" />
<word id="" cont="党组" />
<word id="" cont="书记" />
<word id="" cont="、" />
<word id="" cont="国家" />
<word id="" cont="土地" />
<word id="" cont="总督" />
<word id="" cont="察姜" />
<word id="" cont="大明" />
<word id="" cont="主持" />
<word id="" cont="召开" />
<word id="" cont="第10" />
<word id="" cont="次" />
<word id="" cont="部党组" />
<word id="" cont="会议" />
<word id="" cont="," />
<word id="" cont="传达" />
<word id="" cont="学习" />
<word id="" cont="习" />
<word id="" cont="近平" />
<word id="" cont="总书记" />
<word id="" cont="在" />
<word id="" cont="北京市" />
<word id="" cont="考察" />
<word id="" cont="工作" />
<word id="" cont="时" />
<word id="" cont="的" />
<word id="" cont="重要" />
<word id="" cont="讲话" />
<word id="" cont="精神" />
<word id="" cont="。" />
</sent>
<sent id="" cont="会议提出,要深刻理解习xx总书记重要讲话精神,充
分发挥国土资源部门的服务和保障作用,推进京津冀协同发展。">
<word id="" cont="会议" />
<word id="" cont="提出" />
<word id="" cont="," />
<word id="" cont="要" />
<word id="" cont="深刻" />
<word id="" cont="理解" />
<word id="" cont="习" />
<word id="" cont="近平" />
<word id="" cont="总书记" />
<word id="" cont="重要" />
<word id="" cont="讲话" />
<word id="" cont="精神" />
<word id="" cont="," />
<word id="" cont="充分" />
<word id="" cont="发挥" />
<word id="" cont="国土" />
<word id="" cont="资源" />
<word id="" cont="部门" />
<word id="" cont="的" />
<word id="" cont="服务" />
<word id="" cont="和" />
<word id="" cont="保障" />
<word id="" cont="作用" />
<word id="" cont="," />
<word id="" cont="推进" />
<word id="" cont="京" />
<word id="" cont="津" />
<word id="" cont="冀" />
<word id="" cont="协同" />
<word id="" cont="发展" />
<word id="" cont="。" />
</sent>
<sent id="" cont="习xx总书记高度重视北京发展和京津冀协同发展,今
年2月下旬专程到北京市调研考察,并发表重要讲话,从做好北京发展和管理工作、推动京
津冀协同发展两个方面进行了深刻阐述。">
<word id="" cont="习" />
<word id="" cont="近平" />
<word id="" cont="总书记" />
<word id="" cont="高度" />
<word id="" cont="重视" />
<word id="" cont="北京" />
<word id="" cont="发展" />
<word id="" cont="和" />
<word id="" cont="京" />
<word id="" cont="津" />
<word id="" cont="冀" />
<word id="" cont="协同" />
<word id="" cont="发展" />
<word id="" cont="," />
<word id="" cont="今年" />
<word id="" cont="2月" />
<word id="" cont="下旬" />
<word id="" cont="专程" />
<word id="" cont="到" />
<word id="" cont="北京市" />
<word id="" cont="调研" />
<word id="" cont="考察" />
<word id="" cont="," />
<word id="" cont="并" />
<word id="" cont="发表" />
<word id="" cont="重要" />
<word id="" cont="讲话" />
<word id="" cont="," />
<word id="" cont="从" />
<word id="" cont="做好" />
<word id="" cont="北京" />
<word id="" cont="发展" />
<word id="" cont="和" />
<word id="" cont="管理" />
<word id="" cont="工作" />
<word id="" cont="、" />
<word id="" cont="推动" />
<word id="" cont="京" />
<word id="" cont="津" />
<word id="" cont="冀" />
<word id="" cont="协同" />
<word id="" cont="发展" />
<word id="" cont="两" />
<word id="" cont="个" />
<word id="" cont="方面" />
<word id="" cont="进行" />
<word id="" cont="了" />
<word id="" cont="深刻" />
<word id="" cont="阐述" />
<word id="" cont="。" />
</sent>
<sent id="" cont="会议指出,习xx总书记的重要讲话,对于实现京津冀
优势互补、促进环渤海经济区发展、带动北方腹地发展,意义重大、影响深远,要认真学习
,深刻领会。">
<word id="" cont="会议" />
<word id="" cont="指出" />
<word id="" cont="," />
<word id="" cont="习xx" />
<word id="" cont="总书记" />
<word id="" cont="的" />
<word id="" cont="重要" />
<word id="" cont="讲话" />
<word id="" cont="," />
<word id="" cont="对于" />
<word id="" cont="实现" />
<word id="" cont="京" />
<word id="" cont="津" />
<word id="" cont="冀" />
<word id="" cont="优势" />
<word id="" cont="互补" />
<word id="" cont="、" />
<word id="" cont="促进" />
<word id="" cont="环" />
<word id="" cont="渤海" />
<word id="" cont="经济区" />
<word id="" cont="发展" />
<word id="" cont="、" />
<word id="" cont="带动" />
<word id="" cont="北方" />
<word id="" cont="腹地" />
<word id="" cont="发展" />
<word id="" cont="," />
<word id="" cont="意义" />
<word id="" cont="重大" />
<word id="" cont="、" />
<word id="" cont="影响" />
<word id="" cont="深远" />
<word id="" cont="," />
<word id="" cont="要" />
<word id="" cont="认真" />
<word id="" cont="学习" />
<word id="" cont="," />
<word id="" cont="深刻" />
<word id="" cont="领会" />
<word id="" cont="。" />
</sent>
<sent id="" cont="会议提出,国土资源部门要进一步解放思想,加大改革
创新力度,">
<word id="" cont="会议" />
<word id="" cont="提出" />
<word id="" cont="," />
<word id="" cont="国土" />
<word id="" cont="资源" />
<word id="" cont="部门" />
<word id="" cont="要" />
<word id="" cont="进一步" />
<word id="" cont="解放思想" />
<word id="" cont="," />
<word id="" cont="加大" />
<word id="" cont="改革" />
<word id="" cont="创新" />
<word id="" cont="力度" />
<word id="" cont="," />
</sent>
</para>
</doc>
</xml4nlp>
LTP 分词算法实践的更多相关文章
- 【NLP】中文分词:原理及分词算法
一.中文分词 词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键. ...
- Mmseg中文分词算法解析
Mmseg中文分词算法解析 @author linjiexing 开发中文搜索和中文词库语义自己主动识别的时候,我採用都是基于mmseg中文分词算法开发的Jcseg开源project.使用场景涉及搜索 ...
- IK分词算法设计总结
IK分词算法设计思考 加载词典 IK分词算法初始化时加载了“敏感词”.“主词典”.“停词”.“量词”,如果这些词语的数量很多,怎么保证加载的时候内存不溢出 分词缓冲区 在分词缓冲区中进行分词操作,怎么 ...
- 中文分词算法之最大正向匹配算法(Python版)
最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法,分为正向和逆向,原理都是一样的. 正向最大匹配算法,故名思意,从左向右扫描寻找词的最大匹配. 首先我们可以规定一个词的最大长度,每次扫描的时候 ...
- 机器学习算法实践:Platt SMO 和遗传算法优化 SVM
机器学习算法实践:Platt SMO 和遗传算法优化 SVM 之前实现了简单的SMO算法来优化SVM的对偶问题,其中在选取α的时候使用的是两重循环通过完全随机的方式选取,具体的实现参考<机器学习 ...
- 算法实践——舞蹈链(Dancing Links)算法求解数独
在“跳跃的舞者,舞蹈链(Dancing Links)算法——求解精确覆盖问题”一文中介绍了舞蹈链(Dancing Links)算法求解精确覆盖问题. 本文介绍该算法的实际运用,利用舞蹈链(Dancin ...
- 浅谈分词算法(5)基于字的分词方法(bi-LSTM)
目录 前言 目录 循环神经网络 基于LSTM的分词 Embedding 数据预处理 模型 如何添加用户词典 前言 很早便规划的浅谈分词算法,总共分为了五个部分,想聊聊自己在各种场景中使用到的分词方法做 ...
- 浅谈分词算法(4)基于字的分词方法(CRF)
目录 前言 目录 条件随机场(conditional random field CRF) 核心点 线性链条件随机场 简化形式 CRF分词 CRF VS HMM 代码实现 训练代码 实验结果 参考文献 ...
- 浅谈分词算法(3)基于字的分词方法(HMM)
目录 前言 目录 隐马尔可夫模型(Hidden Markov Model,HMM) HMM分词 两个假设 Viterbi算法 代码实现 实现效果 完整代码 参考文献 前言 在浅谈分词算法(1)分词中的 ...
随机推荐
- 树莓派(jessie)制作服务并开机启动
/etc/init.d/xware #!/bin/sh ### BEGIN INIT INFO # Provides: svn_serve # Required-Start: $remote_fs # ...
- linux解压命令
.tar 解包:tar xvf FileName.tar打包:tar cvf FileName.tar DirName(注:tar是打包,不是压缩!)———————————————.gz解压1:gun ...
- Duplex Service in WCF(CodeProject上的)
Duplex Service in WCF In WCF, a service can call back to its clients. That is to say that, at the ti ...
- bzoj3124
很好的一道treedp,当然也挺烦的首先不难想到先求出一个直径,然后穷举每条边,看他删除之后直径大小是否会变,变了的话就是必须经过的边下面我们就要想怎么优化,本人语言表达略差,还是配合程序说吧. ty ...
- ASP.NET 中Request.QueryString 中的key
在ASP.net中 的Key是可能为null的,例如在如下的Url中 http://localhost:14546/Home/Index?a 有一个key=null 其value是a,以前一直以为ke ...
- xml中1字节的UTF-8序列的字节1无效([字符编码]Invalid byte 1 of 1-byte UTF-8 sequence终极解决方案)
今天在eclipse中编写pom.xml文件时,注释中的中文被eclipse识别到错误:Invalid byte 1 of 1-byte UTF-8 sequence,曾多次遇到该问题,问题的根源是: ...
- 【转】OpenGL基础图形编程(一)
原文:http://blog.chinaunix.net/uid-20638550-id-1909183.html 分类: 一.OpenGL与3D图形世界 1.1.OpenGL使人们进入三维图形世界 ...
- JavaScript高级程序设计1.pdf
第一遍通读的时候对JavaScript一点都不了解翻了一整本书仅仅是眼熟的几个名词,现在会写一些js效果了,对程序有一定的认知,又要在读一遍,再加深一些了解,当然以后还会有第三遍第四遍,等完全啃透了这 ...
- NIO组件Selector工作机制详解(上)
转自:http://blog.csdn.net/haoel/article/details/2224055 一. 前言 自从J2SE 1.4版本以来,JDK发布了全新的I/O类库,简称NIO,其不但 ...
- winfrom 底层类 验证码 分类: C# 2014-12-17 11:18 258人阅读 评论(0) 收藏
效果图: 底层类: /// <summary> /// 生成验证码 /// </summary> /// <param n ...