jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下: Ag 形语素 形容词性语素.形容词代码为 a,语素代码g前面置以A. a 形容词 取英语形容词 adjective的第1个字母. ad 副形词 直接作状语的形容词.形容词代码 a和副词代码d并在一起. an 名形词 具有名词功能的形容词.形容词代码 a和名词代码n并在一起. b 区别词 取汉字“别”的声母. c 连词 取英语连词 conjunction的第1个字母. dg 副语素 副词性语素.副词代码…
我们首先来加载我们自己的文本文件,并统计出排名前20的字符频率 if __name__=="__main__": corpus_root='/home/zhf/word' wordlists=PlaintextCorpusReader(corpus_root,'.*') for w in wordlists.words(): print(w) fdist=FreqDist(wordlists.words()) fdist.plot(20,cumulative=True) 文本内容如下:…