python 自然语言处理（三）___

　　条件频率分布就是频率分布的集合，每个频率分布有一个不同的“条件”，这个条件通常是文本的类别。当语料文本分为几类（文体，主题，作者等）时，可以计算每个类别独立的频率分布，这样，就可以通过条件频率分布研究类别之间的系统性差异。通常，我们用nltk的ConditionalFreqDist数据类型来实现的。

1. 条件和事件

频率分布计算观察到的事件，如本文中出现的词汇。条件频率分布需要给每个事件关联一个条件，所以不是处理一个词序列，而是要处理一系列配对序列。

>>> text=['The', 'Fulton', 'County', 'Grand', 'Jury', 'said']

>>> pairs = [('news', 'The'), ('news', 'Fulton'), ('news', 'County')]

>>>

每对的形式是：（条件，事件）。

2. 按文体统计词汇

1）输入

FreqDist()以一个简单的链表作为输入，ConditionalFreqDist()以一个配对链表作为输入。

2）遍历文体，产生配对

对于每个文体，遍历文体中的每个词以产生文体与词的配对。这里以“新闻”和“言情”两种文体为例。

>>> from nltk.corpus import brown

>>> genre_word = [(genre, word)

... for genre in ['news', 'romance']

... for word in brown.words(categories=genre)]

>>> len(genre_word)

170576

>>> genre_word[:4]

[('news', 'The'), ('news', 'Fulton'), ('news', 'County'), ('news', 'Grand')]

>>>

3）使用此配对链表创建一个ConditionalFreqDist,并保存。

>>> cfd = nltk.ConditionalFreqDist(genre_word)

>>> cfd

<ConditionalFreqDist with 2 conditions>

>>> cfd.conditions()

['romance', 'news']

>>> cfd['news']

FreqDist({'the': 5580, ',': 5188, '.': 4030, 'of': 2849, 'and': 2146, 'to': 2116

, 'a': 1993, 'in': 1893, 'for': 943, 'The': 806, ...})

>>> cfd['romance']

FreqDist({',': 3899, '.': 3736, 'the': 2758, 'and': 1776, 'to': 1502, 'a': 1335,

 'of': 1186, '``': 1045, "''": 1044, 'was': 993, ...})

>>> cfd['romance']['could']

193

>>>

3.绘制分布图和分布表

除了组合两个或两个以上的频率分布及更容易初始化之外，ConditionalFreqDist还为制表和绘图提供了一些有用的方法。

>>> import nltk

>>> from nltk.corpus import udhr

>>> languages = ['Chickasaw', 'English', 'German_Deutsch', 'Greenlandic_Inuktiku

t', 'Hungarian_Magyar', 'Ibibio_Efik']

>>> cfd = nltk.ConditionalFreqDist(

... (lang, len(word))

... for lang in languages

... for word in udhr.words(lang+'-Latin1'))

>>> cfd.plot(cumulative=True)

>>> cfd.tabulate(conditions=['English', 'German_Deutsch'], samples=range(10), cu

mulative=True)

                  0    1    2    3    4    5    6    7    8    9

       English    0  185  525  883  997 1166 1283 1440 1558 1638

German_Deutsch    0  171  263  614  717  894 1013 1110 1213 1275

>>>

该图是基于上面代码绘制出来的一个条件频率分布图。条件是语言的名称，图中的计数来源于单词长度。它利用了这样一个特点：即每一种语言的文件名是语言名称及后面紧跟着‘-Latin1’(字符编码)。

在plot()和tabulate()方法中，可以使用conditions=参数来指定显示哪些条件。如果我们忽略它，所有条件都会显示出来。同样，可以使用samples=参数来限制要显示的样本，这能将大量数据载入到一个条件频率分布，然后通过选定条件和样品，对完成的绘图或制表进行探索。这也使我们能全面控制条件和样本的显示顺序。如上面，为两种语言和长度少于10个字符的词汇绘制累计频率数据表，如上面代码输出显示。

4.使用双连词生成随机文本

1）产生双连词

>>> sent=['In', 'the', 'begining']

>>> nltk.bigrams(sent)

<generator object bigrams at 0x03C3E4E0>

>>> mt = nltk.bigrams(sent)

>>> mt

<generator object bigrams at 0x0455A058>

2）创建随机本文

>>> sent=['In', 'the', 'begining']

>>> nltk.bigrams(sent)

<generator object bigrams at 0x03C3E4E0>

>>> mt = nltk.bigrams(sent)

>>> mt

<generator object bigrams at 0x0455A058>

>>> cfd=nltk.ConditionalFreqDist(mt)

>>> cfd.tabulate()

    begining      the

 In        0        1

the        1        0

>>> cfd.plot()

>>>

python 自然语言处理（三）____条件频率分布的更多相关文章

转-Python自然语言处理入门
Python自然语言处理入门原文链接:http://python.jobbole.com/85094/ 分享到:20 本文由伯乐在线 - Ree Ray 翻译,renlytime 校稿.未经许 ...
Python自然语言处理-系列一
一:python基础,自然语言概念 from nltk.book import * 1,text1.concordance("monstrous") 用语索引 2,tex ...
Python自然语言工具包(NLTK)入门
在本期文章中,小生向您介绍了自然语言工具包(Natural Language Toolkit),它是一个将学术语言技术应用于文本数据集的 Python 库.称为“文本处理”的程序设计是其基本功能:更深 ...
《Python自然语言处理》第二章学习笔记
import nltk from nltk.book import * nltk.corpus.gutenberg.fileids() emma = nltk.corpus.gutenberg.wor ...
《Python自然语言处理》
<Python自然语言处理> 基本信息作者: (美)Steven Bird Ewan Klein Edward Loper 出版社:人民邮电出版社 ISBN:97871153 ...
Python自然语言处理工具小结
Python自然语言处理工具小结作者:白宁超 2016年11月21日21:45:26 目录 [Python NLP]干货!详述Python NLTK下如何使用stanford NLP工具包(1) [ ...
Python自然语言处理（1）：初识NLP
由于我们从美国回来就是想把医学数据和医学人工智能的事认真做起来,所以我们选择了比较扎实的解决方法,想快速出成果的请绕道.我们的一些解决方法是:1.整合公开的所有医学词典,尽可能包含更多的标准医学词汇: ...
python高级（三）—— 字典和集合（泛映射类型）
本文主要内容可散列类型泛映射类型字典 (1)字典推导式 (2)处理不存在的键 (3)字典的变种集合映射的再讨论 python高级——目录文中代码均放在github上:https://git ...
Python 学习第三天课后总结：
PYTHON学习第三天课后总结: 1,注释:就是对代码起到说明注解的作用. 注释分为单行注释与多行注释. 单行注释:只注释一行代码在需要注释的所在行的行首使用#号来注释此行,注意#与代码之间需要 ...

随机推荐

力扣（LeetCode）976. 三角形的最大周长
给定由一些正数(代表长度)组成的数组 A,返回由其中三个长度组成的.面积不为零的三角形的最大周长. 如果不能形成任何面积不为零的三角形,返回 0. 示例 1: 输入:[2,1,2] 输出:5 示例 2 ...
leecode第四题（寻找两个有序数组的中位数）
题解: class Solution { public: double findMedianSortedArrays(vector<int>& nums1, vector<i ...
学习笔记3—matlab中load特殊用法
1.在matlab中 ,infro.mat中存有很多子矩阵(比如:mean_FA.mat, mean_e1.mat和 mean_e2.mat),调出某一个矩阵时,命令行为:load([path,'\' ...
配置java环境jdk
最近尝试改公司的项目中的一个后台管理系统,前后台都让我一个做,所以要配置一下java环境: 1. 按装jdk 1.6//2. 安装eclipse3. 安装maven4. 安装eclispe的maven ...
编写脚本，出现 TypeError: exceptions must be old-style classes or derived from BaseException, not unicode怎样解决？
小编使用robot framework,在编写安卓自动化脚本时,出现这样的情况: 在网上搜了好久,发现都是python的解决方法,到底怎样解决robot里面的问题呢?最终发现: (1)代码中我是这样写 ...
Java使用Spring初识
1.首先是引用了,然后pom.xml如下: <dependency> <groupId>org.springframework</groupId> <arti ...
php递归方法
<?phpheader("Content-type:text/html;charset=utf-8");$city=array( array('id'=>1,'name ...
oracle 查看被锁表及解除锁定
查看哪些表被锁了 SELECT object_name, machine, s.sid, s.serial# FROM gv$locked_object l, dba_objects o, gv$ ...
Confluence 6 空间标识
每一个 Confluence 空间都有一个空间标识(space key),这个空间标识是简短并且是唯一的,这个标识被用来构建到空间的 URL 中. 当你创建一个站点空间,Confluence 将会为 ...
vue组件，axios ,路由
组件(Component)自定义封装的功能. 把一个功能相关的[HTML.css和javascript]代码封装在一起组成一个整体的代码块封装模式,我们称之为“组件”. 组件就是一个html网页中的功 ...

python 自然语言处理（三）____条件频率分布

python 自然语言处理（三）____条件频率分布的更多相关文章

随机推荐

热门专题