http://www.hankcs.com/program/python/nltk-chinese-corpus-sinica_treebank.html

NLTK包含Sinica (中央研究院)提供的繁体中文语料库,其在Python环境下的显示有些讲究。

NLTK sinica_treebank 显示中文

在IDLE中如果直接查看的话会显示十六进制码:

  1. >>> from nltk.corpus import sinica_treebank
  2. >>> sinica_treebank.words()
  3. ['\xe4\xb8\x80', '\xe5\x8f\x8b\xe6\x83\x85', ...]

如果想在IDLE中查看这些进制码对应的中文的话,可以:

  1. >>> print '\xe4\xb8\x80'

NLTK中文词性标注

一个一个手动print太蠢了,一段代码自动让它好看起来:

  1. # -*- coding:utf-8 -*-
  2. # Filename: sinica_treebank.py
  3. # Author:hankcs
  4. # Date: 2014-04-08 上午11:44
  5. import nltk
  6. from nltk.corpus import sinica_treebank
  7. sinica_text = nltk.Text(sinica_treebank.words())
  8. print sinica_text
  9. for (key, var) in sinica_treebank.tagged_words()[:8]:
  10. print '%s/%s' % (key, var),

输出:

  1. <Text: 一 友情 嘉珍 和 我 住在 同一條 巷子...>
  2. 一/Neu 友情/Nad 嘉珍/Nba 和/Caa 我/Nhaa 住在/VC1 同一條/DM 巷子/Nab

NLTK中文句法树

  1. >>> sinica_treebank.parsed_sents()[15].draw()

真是神奇的Python!

搜索中文文本

在IDLE中不方便调编码,还是写进py文件吧:

  1. # -*- coding:utf-8 -*-
  2. # Filename: sinica_treebank.py
  3. # Author:hankcs
  4. # Date: 2014-04-08 上午11:44
  5. import nltk
  6. from nltk.corpus import sinica_treebank
  7. sinica_text = nltk.Text(sinica_treebank.words())
  8. print sinica_text.concordance('我')

输出:

  1. Building index...
  2. Displaying 25 of 724 matches:
  3. 我 住在 同一條 巷子 我們 是 �
  4. �� 一起 回家 有一天 上學 時 我 到 她 家 等候 按 了 門鈴 卻
  5. ��鈴 卻 沒有 任何 動靜 正當 我 想 離開 時 門 內 突然 傳來
  6. �� 了 門 大聲 的 叫 著 快 點 我 媽媽 暈倒 了 嘉珍 抓起 我 �
  7. � 我 媽媽 暈倒 了 嘉珍 抓起 我 的 手 急忙 往 屋 裡 跑 進入
  8. 得 像 紙 一樣 這種 情景 把 我 嚇壞 了 怎麼辦 嘉珍 不停 �
  9. ��停 的 哭泣 聲音 有些 顫抖 我 的 腦海 中 頓時 一片 空白 �
  10. � 怎麼辦 才 好 過 了 一會兒 我 才 問 她 你 爸爸 呢 他 出差
  11. 他 出差 了 嘉珍 擦 著 眼淚 我 握住 她 的 雙手 她 的 手 又
  12. �� 這時 有個 念頭 突然 閃過 我 的 眼前 我 幫 她 撥 了 一一
  13. � 念頭 突然 閃過 我 的 眼前 我 幫 她 撥 了 一一九 請 救護�
  14. 她 的 背 安慰 她 不要 著急 我 會 陪 你 的 不久 救護車 停
  15. ��上 救護車 嘉珍 上車 前 對 我 說 謝謝 你 的 幫忙 我 握 著
  16. 前 對 我 說 謝謝 你 的 幫忙 我 握 著 她 的 手 說 不用 謝 �
  17. �� 握 著 她 的 手 說 不用 謝 我 因為 我們 是 好朋友 二 無�
  18. 員外 來 找 他 並且 對 他 說 我 看 你 悶悶不樂 是不是 進京
  19. �� 著 他 的 手 說 你 不用 還 我 了 我 只是 盡 一份 心力 而�
  20. �� 的 手 說 你 不用 還 我 了 我 只是 盡 一份 心力 而已 以�
  21. 銀子 含 著 眼淚 說 謝謝 您 我 不 知道 要 怎麼 來 報答 您
  22. 答 您 江 巡撫 說 你 不必 謝 我 也 不必 回報 我 四 快樂 的
  23. 你 不必 謝 我 也 不必 回報 我 四 快樂 的 閱讀課 上 國語�
  24. �� 這一組 做 讀書 心得 報告 我 第一個 站起來 發言 我們 閱
  25. �過 兩 人 成為 知心 的 朋友 我 說完 之後 組長 站起來 補充
  26. 清理 火山灰 而且 欣賞 落日 我 喜歡 這種 自由自在 的 生活
  27. 的 人 也 不 喜歡 虛偽 的 人 我 覺得 小 王子 很 正直 最後 �
  28. None

这里面的�大概是字体的原因吧,毕竟不是繁体中文系统。本文的原作者指出:

concordance 會出現 � 的原因是因為這個字的被切一半 , 因為 UTF-8 編碼中文要有三個byte ‘xe4xb8x80′ , 出現�� 表示被切成這樣 ‘xe4xb8′, 少一個 byte

茅塞顿开。

控制台乱码的话可能需要decode成unicode然后在encode成gb编码:

  1. s = "中文"
  2. if isinstance(s, unicode):
  3. # s=u"中文"
  4. print s.encode('gb2312')
  5. else:
  6. # s="中文"
  7. print s.decode('utf-8').encode('gb2312')

NLTK计算中文高频词

  1. >>> sinica_fd=nltk.FreqDist(sinica_treebank.words())
  2. >>> top100=sinica_fd.items()[0:100]
  3. >>> for (x,y) in top100:
  4. print x,y
  5. 的 6776
  6. 、 1482
  7. 在 1331
  8. 是 1317
  9. 了 1190
  10. 有 759
  11. 我 724
  12. 他 688
  13. 就 627
  14. 上 612
  15. 和 580
  16. 也 542
  17. 不 526
  18. 人 467
  19. 都 417
  20. 與 404
  21. 著 389
  22. 我們 384

初步的NLTK中文玩法就这些了,还是挺不错的。

自然语言7_NLTK中文语料库sinica_treebank的更多相关文章

  1. NLTK中文语料库sinica_treebank

    http://www.hankcs.com/program/python/nltk-chinese-corpus-sinica_treebank.html NLTK包含Sinica (中央研究院)提供 ...

  2. python 基础及资料汇总

    Python 包.模块.类以及代码文件和目录的一种管理方案     Numpy 小结   用 Python 3 的 async / await 做异步编程  K-means 在 Python 中的实现 ...

  3. 自然语言处理——NLTK中文语料库语料库

    Python NLTK库中包含着大量的语料库,但是大部分都是英文,不过有一个Sinica(中央研究院)提供的繁体中文语料库,值得我们注意. 在使用这个语料库之前,我们首先要检查一下是否已经安装了这个语 ...

  4. python之自然语言处理入门(一)

    前言 NTLK是著名的Python自然语言处理工具包,记录一下学习NTLK的总结. 安装nltk pip install nltk # 测试 import nltk 安装相关的包 import nlt ...

  5. NLP 自然语言处理实战

    前言 自然语言处理 ( Natural Language Processing, NLP) 是计算机科学领域与人工智能领域中的一个重要方向.它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和 ...

  6. 【HanLP】HanLP中文自然语言处理工具实例演练

    HanLP中文自然语言处理工具实例演练 作者:白宁超 2016年11月25日13:45:13 摘要:HanLP是hankcs个人完成一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环 ...

  7. Python自然语言处理工具小结

    Python自然语言处理工具小结 作者:白宁超 2016年11月21日21:45:26 目录 [Python NLP]干货!详述Python NLTK下如何使用stanford NLP工具包(1) [ ...

  8. 【NLP】基于自然语言处理角度谈谈CRF(二)

    基于自然语言处理角度谈谈CRF 作者:白宁超 2016年8月2日21:25:35 [摘要]:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果.在中文分词.中文人名识别和歧义消解等任务 ...

  9. Atitit 自然语言处理原理与实现 attilax总结

    Atitit 自然语言处理原理与实现 attilax总结 1.1. 中文分词原理与实现 111 1.2. 英文分析 1941 1.3. 第6章 信息提取 2711 1.4. 第7章 自动摘要 3041 ...

随机推荐

  1. sublime package control 被墙的解决方法

    在host里面配置 50.116.34.243 sublime.wbond.net 好用的插件地址 http://www.thinkphp.cn/topic/37057.html

  2. HV和VM 内存性能测试对比结果

    安装工具: apt-get install mbw 使用 mbw 1024 测试 VM ubuntu12.04 : ldd --versionldd (Ubuntu EGLIBC 2.15-0ubun ...

  3. Mybatis 异常: The content of elements must consist of well-formed character data or markup

    原因很简单:在ibatis的配置文件中不能出现小于号(>)     <delete id="deleteByPrimaryKey" parameterType=&quo ...

  4. [转]hibernate在eclipse的逆向工程生成hbm.xml和bean类

    原文地址:http://www.xuebuyuan.com/210489.html 以前一直用myelipse,在myeclipse做hibernate逆向工程倒是很顺手了. 可是最近改用eclips ...

  5. 区间DP HDU 4283

    t个数据 n个权值 1->n 可以入栈调整顺序 花费 第k个出来 w[i]*(k-1); 求花费最少 #include<stdio.h> #include<string.h&g ...

  6. 使用CXF 来发布一个 service

    参考官网文档:http://cxf.apache.org/docs/writing-a-service-with-spring.html 从官网上下载 cxf 的包,包里会有 samples 文件夹, ...

  7. 绑定: DataContextChanged, UpdateSourceTrigger, 对绑定的数据做自定义转换

    介绍背水一战 Windows 10 之 绑定 DataContextChanged - FrameworkElement 的 DataContext 发生变化时触发的事件 UpdateSourceTr ...

  8. bzoj 1588 splay模板题

    用晚自习学了一下splay模板,没想象中那么难,主要是左旋和右旋可以简化到一个函数里边,减少代码长度... #include<iostream> #include<cstdio> ...

  9. 【BZOJ-1497】最大获利 最大流

    1497: [NOI2006]最大获利 Time Limit: 5 Sec  Memory Limit: 64 MBSubmit: 3800  Solved: 1848[Submit][Status] ...

  10. MapReduce多重MR如何实现

    一.每次输出文件存在很烦人 // 判断output文件夹是否存在,如果存在则删除 Path path = new Path(otherArgs[1]);// 取第1个表示输出目录参数(第0个参数是输入 ...