NLTK中文语料库sinica

http://www.hankcs.com/program/python/nltk-chinese-corpus-sinica_treebank.html

NLTK包含Sinica （中央研究院）提供的繁体中文语料库，其在Python环境下的显示有些讲究。

NLTK sinica_treebank 显示中文

在IDLE中如果直接查看的话会显示十六进制码：

>>> from nltk.corpus import sinica_treebank
>>> sinica_treebank.words()
['\xe4\xb8\x80', '\xe5\x8f\x8b\xe6\x83\x85', ...]

如果想在IDLE中查看这些进制码对应的中文的话，可以：

>>> print '\xe4\xb8\x80'
一

NLTK中文词性标注

一个一个手动print太蠢了，一段代码自动让它好看起来：

# -*- coding:utf-8 -*-
# Filename: sinica_treebank.py
# Author：hankcs
# Date: 2014-04-08 上午11:44
import nltk
from nltk.corpus import sinica_treebank
sinica_text = nltk.Text(sinica_treebank.words())
print sinica_text
for (key, var) in sinica_treebank.tagged_words()[:8]:
print '%s/%s' % (key, var),

输出：

<Text: 一友情嘉珍和我住在同一條巷子...>
一/Neu 友情/Nad 嘉珍/Nba 和/Caa 我/Nhaa 住在/VC1 同一條/DM 巷子/Nab

NLTK中文句法树

>>> sinica_treebank.parsed_sents()[15].draw()

真是神奇的Python！

搜索中文文本

在IDLE中不方便调编码，还是写进py文件吧：

# -*- coding:utf-8 -*-
# Filename: sinica_treebank.py
# Author：hankcs
# Date: 2014-04-08 上午11:44
import nltk
from nltk.corpus import sinica_treebank
sinica_text = nltk.Text(sinica_treebank.words())
print sinica_text.concordance('我')

输出：

Building index...
Displaying 25 of 724 matches:
我住在同一條巷子我們是 �
�� 一起回家有一天上學時我到她家等候按了門鈴卻
��鈴卻沒有任何動靜正當我想離開時門內突然傳來
�� 了門大聲的叫著快點我媽媽暈倒了嘉珍抓起我 �
� 我媽媽暈倒了嘉珍抓起我的手急忙往屋裡跑進入
得像紙一樣這種情景把我嚇壞了怎麼辦嘉珍不停 �
��停的哭泣聲音有些顫抖我的腦海中頓時一片空白 �
� 怎麼辦才好過了一會兒我才問她你爸爸呢他出差
他出差了嘉珍擦著眼淚我握住她的雙手她的手又
�� 這時有個念頭突然閃過我的眼前我幫她撥了一一
� 念頭突然閃過我的眼前我幫她撥了一一九請救護�
她的背安慰她不要著急我會陪你的不久救護車停
��上救護車嘉珍上車前對我說謝謝你的幫忙我握著
前對我說謝謝你的幫忙我握著她的手說不用謝 �
�� 握著她的手說不用謝我因為我們是好朋友二無�
員外來找他並且對他說我看你悶悶不樂是不是進京
�� 著他的手說你不用還我了我只是盡一份心力而�
�� 的手說你不用還我了我只是盡一份心力而已以�
銀子含著眼淚說謝謝您我不知道要怎麼來報答您
答您江巡撫說你不必謝我也不必回報我四快樂的
你不必謝我也不必回報我四快樂的閱讀課上國語�
�� 這一組做讀書心得報告我第一個站起來發言我們閱
�過兩人成為知心的朋友我說完之後組長站起來補充
清理火山灰而且欣賞落日我喜歡這種自由自在的生活
的人也不喜歡虛偽的人我覺得小王子很正直最後 �
None

这里面的�大概是字体的原因吧，毕竟不是繁体中文系统。本文的原作者指出：

concordance 會出現 � 的原因是因為這個字的被切一半 , 因為 UTF-8 編碼中文要有三個byte ‘xe4xb8x80′ , 出現�� 表示被切成這樣 ‘xe4xb8′, 少一個 byte

茅塞顿开。

控制台乱码的话可能需要decode成unicode然后在encode成gb编码：

s = "中文"
if isinstance(s, unicode):
# s=u"中文"
print s.encode('gb2312')
else:
# s="中文"
print s.decode('utf-8').encode('gb2312')

NLTK计算中文高频词

>>> sinica_fd=nltk.FreqDist(sinica_treebank.words())
>>> top100=sinica_fd.items()[0:100]
>>> for (x,y) in top100:
print x,y
的 6776
、 1482
在 1331
是 1317
了 1190
有 759
我 724
他 688
就 627
上 612
和 580
也 542
不 526
人 467
都 417
與 404
著 389
我們 384

初步的NLTK中文玩法就这些了，还是挺不错的。

NLTK中文语料库sinica_treebank的更多相关文章

自然语言7_NLTK中文语料库sinica_treebank
http://www.hankcs.com/program/python/nltk-chinese-corpus-sinica_treebank.html NLTK包含Sinica (中央研究院)提供 ...
自然语言处理——NLTK中文语料库语料库
Python NLTK库中包含着大量的语料库,但是大部分都是英文,不过有一个Sinica(中央研究院)提供的繁体中文语料库,值得我们注意. 在使用这个语料库之前,我们首先要检查一下是否已经安装了这个语 ...
python 基础及资料汇总
Python 包.模块.类以及代码文件和目录的一种管理方案 Numpy 小结用 Python 3 的 async / await 做异步编程 K-means 在 Python 中的实现 ...
学习笔记CB002:词干提取、词性标注、中文切词、文档分类
英文词干提取器,import nltk,porter = nltk.PorterStemmer(),porter.stem('lying') . 词性标注器,pos_tag处理词序列,根据句子动态判断 ...
自然语言9_NLTK计算中文高频词
以下代码仅限于python2 NLTK计算中文高频词 >>> sinica_fd=nltk.FreqDist(sinica_treebank.words()) >>> ...
python之自然语言处理入门(一)
前言 NTLK是著名的Python自然语言处理工具包,记录一下学习NTLK的总结. 安装nltk pip install nltk # 测试 import nltk 安装相关的包 import nlt ...
nltk.download()出错解决
http://blog.csdn.net/joey_su/article/details/17289621 官方下载地址 http://www.nltk.org/nltk_data/ 把python自 ...
【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理
干货!详述Python NLTK下如何使用stanford NLP工具包作者:白宁超 2016年11月6日19:28:43 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的 ...
【NLP】Python NLTK处理原始文本
Python NLTK 处理原始文本作者:白宁超 2016年11月8日22:45:44 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开 ...

随机推荐

oracle 在分区内查询数据
查看当前分区 select t.partition_name,t.num_rows from all_tab_partitions t where table_name='table_name' 单个 ...
stringBuffer拼接有规律字符串
1. 拼接结果如下的字符串 1,2,3,4,5,6,7,8,9,10,11,12,12,12,12,34,234,2134,1234,1324,1234,123 2. 以前是这样想的,但是从效率,速度 ...
Android Material Design 控件常用的属性
android:fitsSystemWindows="true" 是一个boolean值的内部属性,让view可以根据系统窗口(如status bar)来调整自己的布局,如果值为t ...
【BZOJ 2809】【APIO 2012】dispatching
昨天晚上zyf神犇问我的题,虽然我太弱参加不了APIO但也做一做吧. 用小数据拍了无数次总是查不出错来,交上去就WA,后来用国内数据测发现是主席树上区间相减的值没有用long long存,小数据真是没 ...
理解 Java 的三大特性之多态
面向对象编程有三大特性:封装.继承.多态. 封装隐藏了类的内部实现机制,可以在不影响使用的情况下改变类的内部结构,同时也保护了数据.对外界而已它的内部细节是隐藏的,暴露给外界的只是它的访问方法. 继承 ...
C# 时间比较大小
1.时间比较大小 DateTime t1 = new DateTime(100); DateTime t2 = new DateTime(20); ...
寻找数组中第K频繁的元素
问题是:给你一个数组,求解出现次数第K多的元素.当然leetcode上的要求是算法复杂度不能大于O(N*logN). 首先这个问题我先是在leetcode上看到,当时想了两种做法,做到一半都觉得不是很 ...
OO（Object Oriented）思想和PO（Ｐrocedure-Ｏriented）思想
对象将需求用类一个个隔开,就象用储物箱把东西一个个封装起来一样,需求变了,分几种情况,最严重的是大变,那么每个储物箱都要打开改,这种方法就不见得有好处:但是这种情况发生概率比较小,大部分需求变化都是局 ...
K-means之matlab实现
引入作为练手,不妨用matlab实现K-means 要解决的问题:n个D维数据进行聚类(无监督),找到合适的簇心. 这里仅考虑最简单的情况,数据维度D=2,预先知道簇心数目K(K=4) 理论步骤关 ...
java的 clone方法
1.java语言中没有明确提供指针的概念与用法,而实质上每个new语句返回的都是一个指针的引用,只不过在大部分情况下开发人员不需要关心如果取操作这个指针而已. 2.在java中处理基本数据类型时,都是 ...

NLTK中文语料库sinica_treebank