HanLP 自然语言处理 for nodejs
HanLP 自然语言处理 for nodejs
·支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)
环境要求
java 1.8
nodejs >= 6
docker
·build image
cd node-hanlp
./scripts/build-docker-image.sh
Or pull image
docker pull samurais/hanlp-api:1.0.0
· start container
docker run -it --rm -p 3002:3000 samurais/hanlp-api:1.0.0
·access service
POST /tokenizer HTTP/1.1
Host: localhost:3002
Content-Type: application/json
{
"type": "nlp",
"content": "刘德华和张学友创作了很多流行歌曲"
}
RESPONSE
{
"status": "success",
"data": [
{
"word": "刘德华",
"nature": "nr",
"offset": 0
},
{
"word": "和",
"nature": "cc",
"offset": 0
},
{
"word": "张学友",
"nature": "nr",
"offset": 0
},
{
"word": "创作",
"nature": "v",
"offset": 0
},
{
"word": "了",
"nature": "ule",
"offset": 0
},
{
"word": "很多",
"nature": "m",
"offset": 0
},
{
"word": "流行歌曲",
"nature": "n",
"offset": 0
}
]
}
·Other APIs
l tokenizer 分词
l keyword 关键词
l summary 摘要
l phrase 短语提取
l query 关键词、摘要
l conversion 简、繁、拼音转换
源码
node module
·Install
npm install node-hanlp
·Config
² 配置文件路径 node_modules/node-hanlp/lib/src-java/hanLP.proerties
² 请修改root为您的目录路径
² 词典文件目录 ./data
² 请下载词典 pan.baidu.com/s/1pKUVNYF 放入 ./data (约800MB文件) 目录下
·Usage
const Hanlp = require("node-hanlp");
//分词库初始化及配置
const HanLP = new Hanlp({
CustomDict : true, //使用自定义词典
NameRecognize : true, //中国人名识别
TranslatedNameRecognize : true , //音译人名识别
JapaneseNameRecognize : true, //日本人名识别
PlaceRecognize : true , //地名识别
OrgRecognize : true //机构名识别
});
let words = HanLP.Tokenizer("商品和服务");
标准分词 HanLP.Tokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.Tokenizer("商品和服务");
[
{ word: '商品', nature: 'n', offset: 0 },
{ word: '和', nature: 'cc', offset: 0 },
{ word: '服务', nature: 'vn', offset: 0 }
]
NLP分词 HanLP.NLPTokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.NLPTokenizer("中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程");
[
{ word: '中国科学院计算技术研究所', nature: 'nt', offset: 0 },
{ word: '的', nature: 'ude1', offset: 0 },
{ word: '宗成庆', nature: 'nr', offset: 0 },
{ word: '教授', nature: 'nnt', offset: 0 },
...
]
索引分词 HanLP.IndexTokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.IndexTokenizer("主副食品");
[
{ word: '主副食品', nature: 'n', offset: 0 },
{ word: '主副食', nature: 'j', offset: 0 },
{ word: '副食', nature: 'n', offset: 1 },
{ word: '副食品', nature: 'n', offset: 1 },
{ word: '食品', nature: 'n', offset: 2 }
]
CRF分词 HanLP.CRFTokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.CRFTokenizer("你好,欢迎使用HanLP汉语处理包!");
[
{ word: '你好', nature: 'vl', offset: 0 },
{ word: ',', nature: 'w', offset: 0 },
{ word: '欢迎', nature: 'v', offset: 0 },
{ word: '使用', nature: 'v', offset: 0 },
{ word: 'HanLP', nature: 'nz', offset: 0 },
{ word: '汉语', nature: 'gi', offset: 0 },
...
]
去除停用词分词 HanLP.NoStopWord( text )
@param String text [文本]
@ruten Object
let words = HanLP.NoStopWord("你好,欢迎使用HanLP汉语处理包!");
[
{ word: '你好', nature: 'vl', offset: 0 },
{ word: '欢迎', nature: 'v', offset: 0 },
{ word: '使用', nature: 'v', offset: 0 },
{ word: 'HanLP', nature: 'nz', offset: 0 },
{ word: '汉语', nature: 'gi', offset: 0 },
...
]
最短路分词 HanLP.ShortSegment( text )
@param String text [文本]
@ruten Object
let words = HanLP.ShortSegment("今天,liuzhijun案的关键人物,山西女商人dingshumiao在市二中院出庭受审。");
[
{ word: '今天', nature: 't', offset: 0 },
{ word: ',', nature: 'w', offset: 0 },
{ word: 'liushijun', nature: 'nr', offset: 0 },
{ word: '案', nature: 'ng', offset: 0 },
{ word: '的', nature: 'ude1', offset: 0 },
{ word: '关键', nature: 'n', offset: 0 },
...
]
N-最短分词 HanLP.NShortSegment( text )
@param String text [文本]
@ruten Object
let words = HanLP.NShortSegment("刘喜杰石国祥会见吴亚琴先进事迹报告团成员");
[
{ word: '刘喜杰', nature: 'nr', offset: 0 },
{ word: '石国祥', nature: 'nr', offset: 0 },
{ word: '会见', nature: 'v', offset: 0 },
{ word: '吴亚琴', nature: 'nr', offset: 0 },
{ word: '先进', nature: 'a', offset: 0 },
...
]
极速词典分词 HanLP.SpeedTokenizer( text )
@param String text [文本]
@ruten Object
let words = HanLP.SpeedTokenizer("江西鄱阳湖干枯,中国最大淡水湖变成大草原");
[
{ word: '江西', offset: 0 },
{ word: '鄱阳湖', offset: 2 },
{ word: '干枯', offset: 5 },
{ word: ',', offset: 7 },
{ word: '中国', offset: 8 },
]
关键词提取 HanLP.Keyword( text , nTop )
@param String text [文本]
@param Number nTop [关键词个数,默认5个]
@ruten Object
let words = HanLP.Keyword("江西鄱阳湖干枯,中国最大淡水湖变成大草原" , 3);
[ '中国', '最大', '淡水湖' ]
短语提取 HanLP.Phrase( text , nTop )
@param String text [文本]
@param Number nTop [短语个数,默认3个]
@ruten Object
let words = HanLP.Phrase("江西鄱阳湖干枯,中国最大淡水湖变成大草原" , 2 );
[ '中国最大', '变成草原' ]
提取文章摘要 HanLP.Summary( text , nTop )
@param String text [文本]
@param Number nTop [文章摘要条数,默认3条]
@ruten Object
let text = "据美国福克斯新闻报道,俄罗斯黑海舰队一艘护卫舰格里戈罗维奇海军上将号,正在驶向美国军舰发射导弹攻击叙利亚的区域。该护卫舰是俄罗斯最先进的护卫舰,2016年才刚服役,除防空、反舰导弹外,也可以发射巡航导弹。格里戈罗维奇海军上将号原定于本周访问叙利亚的塔尔图斯港。"
let words = HanLP.Summary( text , 3);
[
'俄罗斯黑海舰队一艘护卫舰格里戈罗维奇海军上将号',
'格里戈罗维奇海军上将号原定于本周访问叙利亚的塔尔图斯港',
'正在驶向美国军舰发射导弹攻击叙利亚的区域'
]
文本推荐 HanLP.Suggester( list, words, Ntop )
@param Array list 句子列表
@param Array words 词语
@param Number nTop 相似句子推荐个数,默认1个
@ruten Object
句子级别,从一系列句子中挑出与输入句子最相似的那一个
语义距离 HanLP.WordDistance( words )
@param Array words 词
@ruten Object
简繁转换 HanLP.ConversionFont( text , type )
@param String text 文本
@ruten String type 类型 jt简体|ft繁体,默认jt
@ruten String
拼音转换 HanLP.Pinyin( text , type )
@param String text 文本
@ruten String type 类型 类型 num数字音调|tone符号音调|outtone无音调|shengmu声母|yunmu韵母|head输入法头,默认outtone
@ruten Object
HanLP 自然语言处理 for nodejs的更多相关文章
- GitHub10岁之际HanLP自然语言处理包用户量跃居榜首
在本周,GitHub终于度过了属于它自己的十周岁生日.这个在2008年由3个来自旧金山的年轻人创建的基于Git的代码托管网站,先后超越了元老级的SourceForge和背景强大的Google Code ...
- HanLP自然语言处理包介绍
支持中文分词(N-最短路分词.CRF分词.索引分词.用户自定义词典.词性标注),命名实体识别(中国人名.音译人名.日本人名.地名.实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换, ...
- 配置Hanlp自然语言处理进阶
中文分词 中文分词中有众多分词工具,如结巴.hanlp.盘古分词器.庖丁解牛分词等:其中庖丁解牛分词仅仅支持java,分词是HanLP最基础的功能,HanLP实现了许多种分词算法,每个分词器都支持特定 ...
- hanlp自然语言处理包的基本使用--python
hanlp拥有:中文分词.命名实体识别.摘要关键字.依存句法分析.简繁拼音转换.智能推荐. 这里主要介绍一下hanlp的中文分词.命名实体识别.依存句法分析,这里就不介绍具体的hanlp的安装了,百度 ...
- Hanlp自然语言处理工具的使用演练
Hanlp是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用.Hanlp具备功能完善.性能高效.架构清洗.语料时新.可自定义的特点:提供词法分析(中文分词.磁性标注.命名实体识 ...
- HanLP自然语言处理包开源(包含源码)
支持中文分词(N-最短路分词.CRF分词.索引分词.用户自定义词典.词性标注),命名实体识别(中国人名.音译人名.日本人名.地名.实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换, ...
- Hanlp自然语言处理工具之词法分析器
本章是接前两篇<分词工具Hanlp基于感知机的中文分词框架>和<基于结构化感知机的词性标注与命名实体识别框架>的.本系统将同时进行中文分词.词性标注与命名实体识别3个任务的子系 ...
- 如何编译运行HanLP自然语言处理包
master分支 对于master分支,编译方法如下: git clone https://github.com/hankcs/HanLP.git mvn install -DskipTests · ...
- hanlp自然语言处理包的人名识别代码解析
HanLP发射矩阵词典nr.txt中收录单字姓氏393个.袁义达在<中国的三大姓氏是如何统计出来的>文献中指出:当代中国100个常见姓氏中,集中了全国人口的87%,根据这一数据我们只保留n ...
随机推荐
- python常见函数以及模块调用
1.常用函数区别 print: 在python3.0中print是函数,这意味着需要编写print(A )而不是print A str()和repr()的区别 >>>print st ...
- 专业的“python爬虫工程师”需要学习哪些知识?
学到哪种程度 暂且把目标定位初级爬虫工程师,简单列一下吧: (必要部分) 熟悉多线程编程.网络编程.HTTP协议相关 开发过完整爬虫项目(最好有全站爬虫经验,这个下面会说到) 反爬相关,cookie. ...
- 解决nim db_mysql could not load: libmysql.dll的问题
title: 解决nim db_mysql could not load: libmysql.dll的问题 nim中使用db_mysql 操作数据库的代码看起来很简单: import db_mysql ...
- Linux:Linux Mint系统的安装
今天就更新一篇了,其实Linux系统大部分都是用虚拟机来安装的,毕竟Windows系统才是我们常用的系统,而Linux系统只是我们工作时才用的,而且使用虚拟机是非常方便的,不用重启电脑就可以使用另一种 ...
- json的xpath:简易数据查询
class JsonQuery(object): def __init__(self, data): super(JsonQuery, self).__init__() self.data = dat ...
- Can DBC 文件翻译,不是很标准,凑合看还可以
1 引言 DBC文件描述单个CAN网络的通信.这个信息足以监测和分析网络并模拟不是物理可用的节点(剩余的总线模拟). DBC文件也可以用来开发电子控制单元的通信软件,该控制单元应该是CAN网络的一部分 ...
- Python统计excel表格中文本的词频,生成词云图片
import xlrd import jieba import pymysql import matplotlib.pylab as plt from wordcloud import WordClo ...
- 在VS中连接MySQL
VS没有主动提供那些繁多的连接器,需要的话得自己再安装这些第三方程序包. MySQL为windows平台开发者提供了许多程序包:http://dev.mysql.com/downloads/windo ...
- centos7 ,windows7 grub2 双系统引导
因为原先的windows7 和 centos6.3 安装在一台笔记本上.因为centos6.3不能识别无线网卡,在网上找了找,要升级内核到3.2以上. 因为本人初级水平,不敢擅自行动,怕把window ...
- Python dict(或对象)与json之间的互相转化
Python dict(或对象)与json之间的互相转化 原文转载自 1.JSON:JavaScript 对象表示法,是轻量级的文本数据交换格式,独立于语言,平台 2.JSON 语法规则 数据在名称/ ...