今天看到一篇博文,是讲通过python爬一个页面,并统计页面词频的脚本,感觉蛮有意思的 Python NLP入门教程:http://python.jobbole.com/88874/ 本文简要介绍Python自然语言处理(NLP),使用Python的NLTK库.NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库. 什么是NLP? 简单来说,自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务. 这里讨论一些自然语言处理(NLP)的实际应用例子,如语…
自然语言处理是计算语言学和人工智能之中与人机交互相关的领域之一. 推荐学习自然语言处理的一本综合学习指南<精通Python自然语言处理>,介绍了如何用Python实现各种NLP任务,以帮助读者创建基于真实生活应用的项目.全书共10章,分别涉及字符串操作.统计语言建模.形态学.词性标注.语法解析.语义分析.情感分析.信息检索.语篇分析和NLP系统评估等主题. 学习参考: <精通Python自然语言处理>中文PDF,225页,带目录和书签,彩色配图,文字能够复制:英文PDF,238页,…
中文分词技术 中文自动分词可主要归纳为“规则分词”“统计分词”和“混合分词”,规则分词主要是通过人工设立词库,按照一定方式进行匹配切分,实现简单高效,但对新词很难进行处理,统计分词能够较好应对新词发现能特殊场景,但太过于依赖语料的质量,因此实践中多是采用两者的结合,即混合分词. 1.1 规则分词 基于规则的分词是一种机械分词方法,主要是通过维护词典,在切分语句时,将语句的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分. 按照匹配切分的方式,主要有正向最大匹配法.逆向最大匹配法以及双…
由于我们从美国回来就是想把医学数据和医学人工智能的事认真做起来,所以我们选择了比较扎实的解决方法,想快速出成果的请绕道.我们的一些解决方法是:1.整合公开的所有医学词典,尽可能包含更多的标准医学词汇:2.收集各科室真实病例数据,寻找医学专业人士人工分词和标注病历3.使用机器学习算法,基于人工标注结果训练NLP模型:4.构建知识库,并完全对应UMLS或SNOMED CT等国际标准知识库.现在根据上述积累,我们的病历标注精确度已经大概达到85%-90%,后期还会进一步提高.如果有任何类似问题,可以搜…
jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目. 要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的安装方法: 1.全自动安装:easy_install jieba 或者 pip install jieba / pip3 install jieba 2.半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py insta…
之前在其他博客文章有提到如何对英文进行分词,也说后续会增加解释我们中文是如何分词的,我们都知道英文或者其他国家或者地区一些语言文字是词与词之间有空格(分隔符),这样子分词处理起来其实是要相对容易很多,但是像中文处理起来就没有那么容易,因为中文字与字之间,词与词之间都是紧密连接在一起的,所以第一件事需要处理的就是如何确认词.中文文章的最小组成单位是字,但是独立的字并不能很好地传达想要表达整体的意思或者说欠缺表达能力,所以一篇成文的文章依旧是以词为基本单位来形成有意义的篇章,所以词是最小并且能独立活…
Python自然语言处理工具小结 作者:白宁超 2016年11月21日21:45:26 目录 [Python NLP]干货!详述Python NLTK下如何使用stanford NLP工具包(1) [Python NLP]Python 自然语言处理工具小结(2) [Python NLP]Python NLTK 走进大秦帝国(3) [Python NLP]Python NLTK获取文本语料和词汇资源(4) [Python NLP]Python NLTK处理原始文本(5) 1 Python 的几个自…
hanlp拥有:中文分词.命名实体识别.摘要关键字.依存句法分析.简繁拼音转换.智能推荐. 这里主要介绍一下hanlp的中文分词.命名实体识别.依存句法分析,这里就不介绍具体的hanlp的安装了,百度教程很多,可以看这里:http://www.hankcs.com/nlp/python-calls-hanlp.html,里面也有相关的一些介绍. 我以前还使用过jieba分词和LTP,综合来说,LTP是做的相对要好一点,特别是中文处理这一块,但是它的最大缺点是不开源,而hanlp功能更齐全而且开源…
  Python自然语言处理入门 原文链接:http://python.jobbole.com/85094/ 分享到:20 本文由 伯乐在线 - Ree Ray 翻译,renlytime 校稿.未经许可,禁止转载!英文出处:Nitin Madnani.欢迎加入翻译组. 本文从概念和实际操作量方面,从零开始,介绍在Python中进行自然语言处理.文章较长,且是PDF格式. (作者案:本文是我最初发表在<ACM Crossroads>Volume 13,Issue 4 上的完整修订版.之所以修订是…
 国内外自然语言处理(NLP)研究组 *博客地址 http://blog.csdn.net/wangxinginnlp/article/details/44890553 *排名不分先后.收集不全,欢迎留言完善. 中国大陆地区: 微软亚洲研究院自然语言计算组 Natural Language Computing (NLC) Group https://www.microsoft.com/en-us/research/group/natural-language-computing/ 清华大学自然语…