HanLP 自然语言处理 for nodejs

·支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)

环境要求

java 1.8

nodejs >= 6

docker

·build image

cd node-hanlp

./scripts/build-docker-image.sh

Or pull image

docker pull samurais/hanlp-api:1.0.0

·  start container

docker run -it --rm -p 3002:3000 samurais/hanlp-api:1.0.0

·access service

POST /tokenizer HTTP/1.1

Host: localhost:3002

Content-Type: application/json

{

"type": "nlp",

"content": "刘德华和张学友创作了很多流行歌曲"

}

RESPONSE

{

"status": "success",

"data": [

{

"word": "刘德华",

"nature": "nr",

"offset": 0

},

{

"word": "和",

"nature": "cc",

"offset": 0

},

{

"word": "张学友",

"nature": "nr",

"offset": 0

},

{

"word": "创作",

"nature": "v",

"offset": 0

},

{

"word": "了",

"nature": "ule",

"offset": 0

},

{

"word": "很多",

"nature": "m",

"offset": 0

},

{

"word": "流行歌曲",

"nature": "n",

"offset": 0

}

]

}

·Other APIs

l tokenizer 分词

l keyword 关键词

l summary 摘要

l phrase 短语提取

l query 关键词、摘要

l conversion 简、繁、拼音转换

 

源码

node module

·Install

npm install node-hanlp

·Config

² 配置文件路径 node_modules/node-hanlp/lib/src-java/hanLP.proerties

² 请修改root为您的目录路径

² 词典文件目录 ./data

² 请下载词典  pan.baidu.com/s/1pKUVNYF 放入 ./data (约800MB文件) 目录下

·Usage

const Hanlp = require("node-hanlp");

//分词库初始化及配置

const HanLP = new Hanlp({

CustomDict : true, //使用自定义词典

NameRecognize : true, //中国人名识别

TranslatedNameRecognize : true , //音译人名识别

JapaneseNameRecognize : true, //日本人名识别

PlaceRecognize : true , //地名识别

OrgRecognize : true //机构名识别

});

let words = HanLP.Tokenizer("商品和服务");

 

标准分词 HanLP.Tokenizer( text )

@param String text [文本]

@ruten Object

let words = HanLP.Tokenizer("商品和服务");

[

{ word: '商品', nature: 'n', offset: 0 },

{ word: '和', nature: 'cc', offset: 0 },

{ word: '服务', nature: 'vn', offset: 0 }

]

NLP分词 HanLP.NLPTokenizer( text )

@param String text [文本]

@ruten Object

let words = HanLP.NLPTokenizer("中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程");

[

{ word: '中国科学院计算技术研究所', nature: 'nt', offset: 0 },

{ word: '的', nature: 'ude1', offset: 0 },

{ word: '宗成庆', nature: 'nr', offset: 0 },

{ word: '教授', nature: 'nnt', offset: 0 },

...

]

索引分词 HanLP.IndexTokenizer( text )

@param String text [文本]

@ruten Object

let words = HanLP.IndexTokenizer("主副食品");

[

{ word: '主副食品', nature: 'n', offset: 0 },

{ word: '主副食', nature: 'j', offset: 0 },

{ word: '副食', nature: 'n', offset: 1 },

{ word: '副食品', nature: 'n', offset: 1 },

{ word: '食品', nature: 'n', offset: 2 }

]

CRF分词 HanLP.CRFTokenizer( text )

@param String text [文本]

@ruten Object

let words = HanLP.CRFTokenizer("你好,欢迎使用HanLP汉语处理包!");

[

{ word: '你好', nature: 'vl', offset: 0 },

{ word: ',', nature: 'w', offset: 0 },

{ word: '欢迎', nature: 'v', offset: 0 },

{ word: '使用', nature: 'v', offset: 0 },

{ word: 'HanLP', nature: 'nz', offset: 0 },

{ word: '汉语', nature: 'gi', offset: 0 },

...

]

去除停用词分词 HanLP.NoStopWord( text )

@param String text [文本]

@ruten Object

let words = HanLP.NoStopWord("你好,欢迎使用HanLP汉语处理包!");

[

{ word: '你好', nature: 'vl', offset: 0 },

{ word: '欢迎', nature: 'v', offset: 0 },

{ word: '使用', nature: 'v', offset: 0 },

{ word: 'HanLP', nature: 'nz', offset: 0 },

{ word: '汉语', nature: 'gi', offset: 0 },

...

]

最短路分词 HanLP.ShortSegment( text )

@param String text [文本]

@ruten Object

let words = HanLP.ShortSegment("今天,liuzhijun案的关键人物,山西女商人dingshumiao在市二中院出庭受审。");

[

{ word: '今天', nature: 't', offset: 0 },

{ word: ',', nature: 'w', offset: 0 },

{ word: 'liushijun', nature: 'nr', offset: 0 },

{ word: '案', nature: 'ng', offset: 0 },

{ word: '的', nature: 'ude1', offset: 0 },

{ word: '关键', nature: 'n', offset: 0 },

...

]

N-最短分词 HanLP.NShortSegment( text )

@param String text [文本]

@ruten Object

let words = HanLP.NShortSegment("刘喜杰石国祥会见吴亚琴先进事迹报告团成员");

[

{ word: '刘喜杰', nature: 'nr', offset: 0 },

{ word: '石国祥', nature: 'nr', offset: 0 },

{ word: '会见', nature: 'v', offset: 0 },

{ word: '吴亚琴', nature: 'nr', offset: 0 },

{ word: '先进', nature: 'a', offset: 0 },

...

]

极速词典分词 HanLP.SpeedTokenizer( text )

@param String text [文本]

@ruten Object

let words = HanLP.SpeedTokenizer("江西鄱阳湖干枯,中国最大淡水湖变成大草原");

[

{ word: '江西', offset: 0 },

{ word: '鄱阳湖', offset: 2 },

{ word: '干枯', offset: 5 },

{ word: ',', offset: 7 },

{ word: '中国', offset: 8 },

]

关键词提取 HanLP.Keyword( text , nTop )

@param String text [文本]

@param Number nTop [关键词个数,默认5个]

@ruten Object

let words = HanLP.Keyword("江西鄱阳湖干枯,中国最大淡水湖变成大草原" , 3);

[ '中国', '最大', '淡水湖' ]

短语提取 HanLP.Phrase( text , nTop )

@param String text [文本]

@param Number nTop [短语个数,默认3个]

@ruten Object

let words = HanLP.Phrase("江西鄱阳湖干枯,中国最大淡水湖变成大草原" , 2 );

[ '中国最大', '变成草原' ]

提取文章摘要 HanLP.Summary( text , nTop )

@param String text [文本]

@param Number nTop [文章摘要条数,默认3条]

@ruten Object

let text = "据美国福克斯新闻报道,俄罗斯黑海舰队一艘护卫舰格里戈罗维奇海军上将号,正在驶向美国军舰发射导弹攻击叙利亚的区域。该护卫舰是俄罗斯最先进的护卫舰,2016年才刚服役,除防空、反舰导弹外,也可以发射巡航导弹。格里戈罗维奇海军上将号原定于本周访问叙利亚的塔尔图斯港。"

let words = HanLP.Summary( text , 3);

[

'俄罗斯黑海舰队一艘护卫舰格里戈罗维奇海军上将号',

'格里戈罗维奇海军上将号原定于本周访问叙利亚的塔尔图斯港',

'正在驶向美国军舰发射导弹攻击叙利亚的区域'

]

文本推荐 HanLP.Suggester( list, words, Ntop )

@param Array list 句子列表

@param Array words 词语

@param Number nTop 相似句子推荐个数,默认1个

@ruten Object

句子级别,从一系列句子中挑出与输入句子最相似的那一个

语义距离 HanLP.WordDistance( words )

@param Array words 词

@ruten Object

简繁转换 HanLP.ConversionFont( text , type )

@param String text 文本

@ruten String type 类型 jt简体|ft繁体,默认jt

@ruten String

拼音转换 HanLP.Pinyin( text , type )

@param String text 文本

@ruten String type 类型 类型 num数字音调|tone符号音调|outtone无音调|shengmu声母|yunmu韵母|head输入法头,默认outtone

@ruten Object

HanLP 自然语言处理 for nodejs的更多相关文章

  1. GitHub10岁之际HanLP自然语言处理包用户量跃居榜首

    在本周,GitHub终于度过了属于它自己的十周岁生日.这个在2008年由3个来自旧金山的年轻人创建的基于Git的代码托管网站,先后超越了元老级的SourceForge和背景强大的Google Code ...

  2. HanLP自然语言处理包介绍

    支持中文分词(N-最短路分词.CRF分词.索引分词.用户自定义词典.词性标注),命名实体识别(中国人名.音译人名.日本人名.地名.实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换, ...

  3. 配置Hanlp自然语言处理进阶

    中文分词 中文分词中有众多分词工具,如结巴.hanlp.盘古分词器.庖丁解牛分词等:其中庖丁解牛分词仅仅支持java,分词是HanLP最基础的功能,HanLP实现了许多种分词算法,每个分词器都支持特定 ...

  4. hanlp自然语言处理包的基本使用--python

    hanlp拥有:中文分词.命名实体识别.摘要关键字.依存句法分析.简繁拼音转换.智能推荐. 这里主要介绍一下hanlp的中文分词.命名实体识别.依存句法分析,这里就不介绍具体的hanlp的安装了,百度 ...

  5. Hanlp自然语言处理工具的使用演练

    Hanlp是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用.Hanlp具备功能完善.性能高效.架构清洗.语料时新.可自定义的特点:提供词法分析(中文分词.磁性标注.命名实体识 ...

  6. HanLP自然语言处理包开源(包含源码)

    支持中文分词(N-最短路分词.CRF分词.索引分词.用户自定义词典.词性标注),命名实体识别(中国人名.音译人名.日本人名.地名.实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换, ...

  7. Hanlp自然语言处理工具之词法分析器

    本章是接前两篇<分词工具Hanlp基于感知机的中文分词框架>和<基于结构化感知机的词性标注与命名实体识别框架>的.本系统将同时进行中文分词.词性标注与命名实体识别3个任务的子系 ...

  8. 如何编译运行HanLP自然语言处理包

    master分支 对于master分支,编译方法如下: git clone  https://github.com/hankcs/HanLP.git mvn install -DskipTests · ...

  9. hanlp自然语言处理包的人名识别代码解析

    HanLP发射矩阵词典nr.txt中收录单字姓氏393个.袁义达在<中国的三大姓氏是如何统计出来的>文献中指出:当代中国100个常见姓氏中,集中了全国人口的87%,根据这一数据我们只保留n ...

随机推荐

  1. C# 连蒙带骗不知所以然的搞定USB下位机读写

    公司用了一台发卡机,usb接口,半双工,给了个dll,不支持线程操作,使得UI线程老卡. 懊恼了,想自己直接通过usb读写,各种百度,然后是无数的坑,最终搞定. 现将各种坑和我自己的某些猜想记录一下, ...

  2. 2018-2019-2 《网络对抗技术》Exp1 PC平台逆向破解 20165326

    实验一 目录 直接修改程序机器指令,改变程序执行流程 通过构造输入参数,造成BOF攻击,改变程序执行流 注入Shellcode并执行 问题及解决 思想感悟 一.修改机器指令 首先你需要一个pwn1文件 ...

  3. python网络之web框架

    逐步引入: 1. 最简单的web server #!/usr/bin/env python # coding:utf-8 import socket sk = socket.socket() sk.b ...

  4. MySQL 把两个结果集拼接到一起(两个结果集的列一模一样)

    select * from a UNION all ( select * from b)

  5. vue 控制视图

    <!--第一种:点击改变容器的值--> <li> <a href="javascript:void(0)" @click="state.bo ...

  6. gulp的使用(三)之把gulp运用到项目实战中

    在了解了上面的gulp(一)(二)以后,我们就可以开始在项目中具体使用了,具体使用流程如下: 1. 创建一个project文件夹,然后里面首先创建一个src文件夹,里面放置开发要用到的文件夹: 2. ...

  7. Date对象方法

    创建Date               new  Date() Date对象方法: get系列: getDate()            返回一个月中的某一天(1-31) getDay()    ...

  8. 安装Feflow遇取的问题

    http://www.feflowjs.org/zh-cn/docs/ 在安装 npm install -g feflow-cli 是遇到这要一个问题 i C:\Program Files (x86) ...

  9. firefox support.mozilla.org 的管理员没有正确配置好此网站。为避免您的信息失窃,Firefox 并未与此网站建立连接。

    1.在地址栏输入:"about:config"-我了解此风险: 2.右键-新建-布尔: 3.在框内输入:security.enterprise_roots.enabled-确定-搜 ...

  10. 安装python的第三方Pillow库

    方法/步骤 找到easy_install.exe工具.在windows下安装Python后,在其安装路径下的scripts文件中默认安装好了easy_install工具.完整路径如下例:D:\Pyth ...