jieba、NLTK学习笔记】的更多相关文章

中文分词 - jiebaimport re import jieba news_CN = ''' 央视315晚会曝光湖北省知名的神丹牌.莲田牌“土鸡蛋”实为普通鸡蛋冒充,同时在商标上玩猫腻, 分别注册“鲜土”.注册“好土”商标,让消费者误以为是“土鸡蛋”.3月15日晚间,新京报记者就此 事致电湖北神丹健康食品有限公司方面,其工作人员表示不知情,需要了解清楚情况,截至发稿暂未 取得最新回应.新京报记者还查询发现,湖北神丹健康食品有限公司为农业产业化国家重点龙头企 业.高新技术企业,此前曾因涉嫌虚假…
主要总结一下简单的工具:条件频率分布.正则表达式.词干提取器和归并器. 条件分布频率 <自然语言学习>很多地方都用到了条件分布频率,nltk提供了两种常用的接口:FreqDist 和 ConditionalFreqDist .后面很多都会用到这两种方法,特别是第二个.因为第二个更符合定义,会智能的找到条件. 然后根据绘图的库,可以做出来很漂亮的图形. 简单的FreqDist 函数接收list类型的参数后,会自动创建字典,生成对应的值为键值,而value就是元素的次数. from nltk im…
目录 一.监督式分类:建立在训练语料基础上的分类 特征提取器和朴素贝叶斯分类器 过拟合:当特征过多 错误分析 二.实例:文本分类和词性标注 文本分类 词性标注:"决策树"分类器 三.更近一步的连续分类或贪婪序列分类:在朴素贝叶斯和"决策树"之后 四.评估 五.三种分类器的总结 六.后记 关于分类文本,有三个问题 怎么识别出文本中用于明显分类的特征 怎么构建自动分类文本的模型 相关的语言知识 按照这个思路,博主进行了艰苦学习(手动捂脸..) 一.监督式分类:建立在训练…
目录 [TOC] nltk资料下载 import nltk nltk.download() 其中,download() 参数默认是all,可以在脚本里面加上nltk.download(需要的资料库) 来进行下载 文本和词汇 首先,通过from nltk.book import * 引入需要的内置9本书 搜索文本 上下文:Text.concordance('monstrous') ,concordance是一致性的意思.即在Text对象中monstrous出现的上下文 相同上下文单词:Text.s…
自然语言处理中算法设计有两大部分:分而治之 和 转化 思想.一个是将大问题简化为小问题,另一个是将问题抽象化,向向已知转化.前者的例子:归并排序:后者的例子:判断相邻元素是否相同(与排序). 这次总结的自然语言中常用的一些基本算法,算是入个门了. 递归 使用递归速度上会受影响,但是便于理解算法深层嵌套对象.而一些函数式编程语言会将尾递归优化为迭代. 如果要计算n个词有多少种组合方式?按照阶乘定义:n! = n*(n-1)*...*1 def func(wordlist): length = le…
[TOC] 对于一门语言来说,一句话有无限可能.问题是我们只能通过有限的程序来分析结构和含义.尝试将"语言"理解为:仅仅是所有合乎文法的句子的大集合.在这个思路的基础上,类似于 word -> word and/or/... word 就成立,这种式子叫做递归产生式.理论上,句子可以无限扩充. 文法 自定义文法 写法上与上一篇博文的分类规则思路基本一致,并且更简单.更直观,可以和之前的对比着看. import nltk from nltk import CFG grammar =…
目录 实体识别:分块技术 分块语法的构建 树状图 IOB标记 开发和评估分块器 命名实体识别和信息提取 如何构建一个系统,用于从非结构化的文本中提取结构化的信息和数据?哪些方法使用这类行为?哪些语料库适合这项工作?是否可以训练和评估模型? 信息提取,特别是结构化信息提取,可以类比数据库的记录.对应的关系绑定了对应的数据信息.针对自然语言这类非结构化的数据,为了获取对应关系,应该搜索实体对应的特殊关系,并且用字符串.元素等一些数据结构记录. 实体识别:分块技术 比如:We saw the yell…
目录 词性标注器 标注语料库 表示已经标注的标识符:nltk.tag.str2tuple('word/类型') 读取已经标注的语料库 名词.动词.形容词等 尝试找出每个名词类型中最频繁的名词 探索已经标注的语料库 自动标注 默认标注器 正则表达式标注器 查询标注器 N-gram标注 基础的一元标注器 一般的N-gram标注器 组合标注器 跨句子边界标注 基于转换的标注:Brill标注器 词性标注器 之后的很多工作都需要标注完的词汇.nltk自带英文标注器pos_tag import nltk t…
目录 语料库基本函数表 文本语料库分类 常见语料库及其用法 载入自定义语料库 词典资源 停用词语料库 WordNet面向语义的英语字典 语义相似度 语料库基本函数表 示例 描述 fileids() 语料库中的文件 fileids([categories]) 对应分类中的语料库文件 categories() 语料库的分类 categories([fileids]) 文件对应的语料库分类 raw(fileids=[f1,f2..],categories=[c1,c2...]) 对应文件和分类中原始内…
Data science - Wikipedia https://en.wikipedia.org/wiki/Data_science Data science, also known as data-driven science, is an interdisciplinary field of scientific methods, processes, algorithms and systems to extract knowledge or insights from data in…