【NLP】HanLP环境】的更多相关文章

1.参考:https://github.com/hankcs/pyhanlp 2.问题: C:\Users\ADMINI~1\AppData\Local\Temp\pip-install-u617cfx3\jpype1\setup.py:173: FeatureNotice: Turned ON Numpy support for fast Java array access FeatureNotice) building '_jpype' extension error: Microsoft…
本篇分享的依然是关于hanlp的分词使用,文章内容分享自 gladosAI 的博客,本篇文章中提出了一个问题,hanlp分词影响了实验判断结果.为何会如此,不妨一起学习一下 gladosAI 的这篇文章. 学习内容 在之前的实验中得到了不在词向量里的词与分词结果,结果有500多个词不在词向量里,解决方案就是重新分词,或再追加训练这些词到词向量里.但后者相对麻烦且目前样本量不大.我跟据词向量的作者[6]所使用的分词工具来分词,会比不同工具(jieba)的效果要好,因为都是同一模式的分词,分出来的词…
本文是对xing_NLP中的用N-gram语言模型做完型填空这样一个NLP项目环境搭建的一个说明,本来想写在README.md中.第一次用github中的wiki,想想尝试一下也不错,然而格式非常的混乱,自己都满意,所以先在博客园记录一下,等github博客搭建成功了再说. 1. 操作系统: 作为programer,linux自然是首先选择,ubuntu,centos等等都可以.我用的是CentOS7.3,之前用Centos6.5各种报错,建议装最新版的linux系统,何为最新版?2016年以后…
一.Numpy NumPy系统是Python的一种开源的数值计算包. 包括: 1.一个强大的N维数组对象Array: 2.比较成熟的(广播)函数 库: 3.用于整合C/C++和Fortran代码的工具包: 4.实用的线性代数.傅里叶变换和随机数生成函数. numpy和稀疏矩阵运算包scipy配合使用更加方便. 安装: pip install numpy 二.NLTK Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库. pip in…
由于采集省市区镇数据需要对地名进行拼音转换,由于第三方高准确度接口对IP进行了限制,处理大量数据变得异常缓慢. 使用了一个折中的办法,省市区 3级(3千+)用高准确度接口(几乎没有拼错的地名),镇级(4万+)用本地HanLP提供的接口(大部分多音字还算是能拼正确). Github源码:https://github.com/xiangyuecn/AreaCity-JsSpider-StatsGov/tree/master/.pinyin-python-server 另外我提供了一个临时测试服务器,…
配置使用教程:https://github.com/hankcs/HanLP Hanlp官方文档:http://www.hankcs.com/nlp/hanlp.html 参考API:http://hanlp.linrunsoft.com/doc/_build/html/index.html…
pytorch的安装方法及出现问题的解决方案: 安装pytorch,使用pip 安装,在运行代码的时候会报错,但是导包的时候不会报错,因此要采用conda的方式安装   1.找到miniconda的网址安装miniconda,https://docs.conda.io/en/latest/miniconda.html,选择版本64-bit (bash installer),目前我选择的版本是这个版本,下载 2.下载完成后,不能直接点击开,需要在终端找到下载的包所在的位置,执行: >>>c…
直接pip install pyhanlp的时候会提示缺少Microsoft Visual c++环境, 其实没有Microsoft Visual c++环境也是可以的, 可以先安装jpype1,然后在pip install pyhanlp就行了. 步骤: ①在python非官方库网站上下载库jpyre1的whl文件, 文件链接https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype 下载后在命令提示符里切换到下载的路径下,执行pip install J…
QQ:231469242 欢迎喜欢nltk朋友交流 https://en.wikipedia.org/wiki/Part-of-speech_tagging In corpus linguistics, part-of-speech tagging (POS tagging or POST), also called grammatical tagging or word-category disambiguation, is the process of marking up a word i…
这是文本离散表示的第二篇实战文章,要做的是运用TF-IDF算法结合n-gram,求几篇文档的TF-IDF矩阵,然后提取出各篇文档的关键词,并计算各篇文档之间的余弦距离,分析其相似度. TF-IDF与n-gram的结合可看我的这篇文章:https://www.cnblogs.com/Luv-GEM/p/10543612.html 用TF-IDF来分析文本的相似度可看阮一峰大佬的文章:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.h…