优质中文NLP资源集合,做项目一定用得到!
今天要给大家在推荐 Github 上一个优质的中文 NLP 工具和资源集合项目——funNLP,已经获得了 5.3k Stars,1k+ Forks。
项目作者 杨洋,一枚水博&互联网民工,目前主要从事文本分类,信息抽取等自然语言处理研发工作;兴趣包括:语言资源构建、信息抽取与知识图谱、舆情分析等。喜欢分享一些小知识,设有知乎专栏《机器学习小知识》
作者把自己使用的一些资源或工具包整理成这个集合项目,并且会不断更新。项目已经里面不乏很多有用和有趣的内容,包含 50 多个资源或工具,比如很多有用的词库:中英文敏感词、暴恐词表、文人名库、中文缩写库、停用词、公司名字大全、成语词库、地名词库百度中文问答数据集......非常值得学习研究 NLP 项目的同学们收藏!
除了几十个的优质资源汇总外,作者的另一个中文 NLP 工具包——coco NLP,也很实用,目前应用在寻找失踪人口项目中。通过这个工具包,大家可以直接从文本信息中抽取一些基本信息,比如手机号、邮箱、手机归属地、时间点、地址和一些词组信息。
0.先给大家 coco NLP 工具的地址:
https://github.com/fighting41love/cocoNLP
因为这个工具里也包含了第一个项目中提到的一些资源,下面我们所列的其他资源,就不再列出重复资源的地址了,比如:phone 中国手机归属地查询、抽取email的正则表达式、抽取phone_number的正则表达式、人名语料库、时间抽取等。
营长列出了其他一些主要资源的地址,大家还可以从文章最后给出的项目地址中访问更多。也感谢开源这些资源的作者,如果下面有提到你的项目,欢迎给我们留言,让营长发现可爱的你们~
1. textfilter: 中英文敏感词过滤
https://github.com/observerss/textfilter
2. langid:97种语言检测
https://github.com/saffsd/langid.py
3. langdetect:检测另一种语言
https://code.google.com/archive/p/language-detection/
4. phone国际手机、电话归属地查询:
https://github.com/AfterShip/phone
6. ngender:根据名字判断性别,基于朴素贝叶斯计算的概率
https://github.com/observerss/ngender
7.抽取身份证号的正则表达式
IDCards_pattern = r'^([1-9]d{5}[12]d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])d{3}[0-9xX])$'IDs = re.findall(IDCards_pattern, text, flags=0)
8.中文缩写库
https://github.com/zhangyics/Chinese-abbreviation-dataset/blob/master/dev_set.txt
9.汉语拆字词典
https://github.com/kfcd/chaizi
10.词汇情感值
https://github.com/rainarch/SentiBridge/blob/master/Entity_Emotion_Express/CCF_data/pair_mine_result
11.中文词库、停用词、敏感词,此 package 的敏感词库分类更细,包含反动词库, 敏感词库表统计, 暴恐词库, 民生词库, 色情词库
https://github.com/fighting41love/Chinese_from_dongxiexidian
12.汉字转拼音
https://github.com/mozillazg/python-pinyin
13.同义词库、反义词库、否定词库
https://github.com/guotong1988/chinese_dictionary
14.无空格英文串分割、抽取单词
https://github.com/keredson/wordninja
15.THU整理的词库,包含 IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库
http://thuocl.thunlp.org/sendMessage
16.百度中文问答数据集
链接:https://pan.baidu.com/s/1QUsKcFWZ7Tg1dk_AbldZ1A提取码: 2dva
17.Bert 资源
(1)文本分类实践
https://github.com/NLPScott/bert-Chinese-classification-task
(2)Bert Tutorial 文本分类教程
https://github.com/Socialbird-AILab/BERT-Classification-Tutorial
(3)Bert pytorch实现
https://github.com/huggingface/pytorch-pretrained-BERT
(4)Bert用于中文命名实体识别,tensorflow版本
https://github.com/macanv/BERT-BiLSTM-CRF-NER
(5)Bert 基于 Keras 的封装分类标注框架 Kashgari,几分钟即可搭建一个分类或者序列标注模型
https://github.com/BrikerMan/Kashgari
(6)Bert、ELMO的图解
https://jalammar.github.io/illustrated-bert/
(7)BERT: Pre-trained models and downstream applications
https://github.com/asyml/texar/tree/master/examples/bert
更多优质资源可访问:
https://github.com/fighting41love/funNLP
优质中文NLP资源集合,做项目一定用得到!的更多相关文章
- 让现有vue前端项目快速支持多语言 - 用.net core程序快速替换中文为资源Key,咱不干体力活
前言 最近应公司上层要求,需要将现有项目尽快支持多语言,而中文内容可以找专业人员翻译.那么咱们说干就干,首先我们项目的前端是用vue写的spa程序且组件方面用的element ui,那么自然而然想到用 ...
- PostgreSQL相关的软件,库,工具和资源集合
PostgreSQL相关的软件,库,工具和资源集合. 备份 wal-e - Simple Continuous Archiving for Postgres to S3, Azure, or Swif ...
- 最全的中文NLP资源库,你确定不来看一下吗?
最全的中文NLP资源库,你确定不来看一下吗? 22/100 发布文章 qq_39248703 hello,小伙伴们大家好,今天给大家分享NLP资源库,可以说是最全的资源库了,很多包非常有趣,值得收藏, ...
- Julia中文教程资源.txt
Julia中文教程资源.txt 2016年3月28日 05:18:32 codegay 本文更新在这里: https://github.com/FGFW/julia-science-and-techn ...
- C/C++ 框架,类库,资源集合
很棒的 C/C++ 框架,类库,资源集合. Awesome C/C++ Standard Libraries Frameworks Artificial Intelligence Asynchrono ...
- 【转】做产品VS做项目
相关定义 根据GB/T19000—2008<质量管理体系基础和术语>,有以下定义 过程process 一组将输入转化为输出的相互关联或相互作用的活动 注:一个过程的输入通常是其他过程的输出 ...
- SEO分享:我为什么会有这么多的优质外链资源?
前面小浪发了一篇文章" [完整版]我是怎样3个月把800指数的词做上首页的.",非常多人看了之后都表示非常佩服.顽强的运行力.确实SEO就是要顽强的运行力,也有人说吹牛吧,一天50 ...
- 产品相关 做产品VS做项目
做产品VS做项目 by:授客 QQ:1033553122 相关定义 根据GB/T19000—2008<质量管理体系基础和术语>,有以下定义 过程process 一组将输入转化为输出的相互关 ...
- 最强中文NLP预训练模型艾尼ERNIE官方揭秘【附视频】
“最近刚好在用ERNIE写毕业论文” “感觉还挺厉害的” “为什么叫ERNIE啊,这名字有什么深意吗?” “我想让艾尼帮我写作业” 看了上面火热的讨论,你一定很好奇“艾尼”.“ERNIE”到底是个啥? ...
随机推荐
- TensorFlow-Bitcoin-Robot:一个基于 TensorFlow LSTM 模型的 Bitcoin 价格预测机器人。
简介 TensorFlow-Bitcoin-Robot:一个基于 TensorFlow LSTM 模型的 Bitcoin 价格预测机器人. 文章包括一下几个部分: 1.为什么要尝试做这个项目? 2.为 ...
- 对于一个由0..n的所有数按升序组成的序列,我们要进行一些筛选,每次我们取当前所有数字中从小到大的第奇数位个的数,并将其丢弃。重复这一过程直到最后剩下一个数。请求出最后剩下的数字。
输入描述: 每组数据一行一个数字,为题目中的n(n小于等于1000). 输出描述: 一行输出最后剩下的数字.我的思路是用两个链表,一个用于存储原数据,一个用于存储要丢掉的数据,再循环从元数据中剔除掉即 ...
- Soldier and Number Game CodeForces - 546D 素因子数打表(素数筛的改造)
题意: 输入 a 和 b(a>b),求a! / b!的结果最多能被第二个士兵给的数字除多少次. 思路: a! / b!肯定能把b!约分掉,只留下b+1~a的数字相乘,所以我们求b+1 ~ a的所 ...
- return console.log()结果为undefined现象的解答
console.log总是出现undefined--麻烦的console //本文为作者自己思考后总结出的一些理论知识,若有错误,欢迎指出 bug出现 需求如下:新建一个car对象,调用其中的de ...
- LVS的部署、案例、以及常见问题
LVS的部署.案例.以及常见问题 原创chenhuyang 最后发布于2018-06-03 16:18:25 阅读数 1560 收藏 展开 一.LVS的部署 LVS现在已经集成在linux内核模块中, ...
- VMware pro 15.5安装教程
一,安装 1.VMware pro 15.5 下载地址:https://www.vmware.com/cn/products/workstation-pro/workstation-pro-evalu ...
- PTA数据结构与算法题目集(中文) 7-31
PTA数据结构与算法题目集(中文) 7-31 7-31 笛卡尔树 (25 分) 笛卡尔树是一种特殊的二叉树,其结点包含两个关键字K1和K2.首先笛卡尔树是关于K1的二叉搜索树,即结点左子树的所有 ...
- 自动下载bing当日墙纸,并改变为gnome桌面壁纸
写了一个手动白嫖当时bing的当日壁纸,并将其改变为gnome的壁纸,还是学到蛮多东东的 下一步的问题是加入到开机自启动项,使得开机后可以自动更新,目前已看到几篇博客 当然,也写了一个脚本使得可以恢复 ...
- php __DIR__ 解释下
__DIR__, php5.3 才增加的这个魔术常量,表示当前文件所在的目录地址. php5.3之前用dirname(__FILE__);表示__DIR__; __FILE__这个表示当前文件的路径.
- MyBatis(六):SqlSession执行源码分析
SqlSession执行源码分析 针对以下代码 public class MybatisUtils { private static SqlSessionFactory sqlSessionFacto ...