Python_ jiba、snownlp中文分词、pypinyin中文转拼音

 import jieba    #导入jieba模块

 x = '分词的准确度直接影响了后续文本处理和挖掘算法的最终效果。'

 jieba.cut(x)    #使用默认词库进行分词

 print(list(jieba.cut(x)))

 # ['分词', '的', '准确度', '直接', '影响', '了', '后续', '文本处理', '和', '挖掘', '算法', '的', '最终', '效果', '。']

 print(list(jieba.cut('纸杯')))

 # ['纸杯']

 print(list(jieba.cut('花纸杯')))

 # ['花', '纸杯']

 jieba.add_word('花纸杯')

 print(list(jieba.cut('花纸杯')))

 import snownlp  #导入snownlp

 print(snownlp.SnowNLP('学而时习之，不亦说乎').words)

 # ['学而', '时习', '之', '，', '不亦', '说乎']

 print(snownlp.SnowNLP(x).words)

 # ['分词', '的', '准确度', '直接', '影响', '了', '后续', '文本', '处理', '和', '挖掘', '算法', '的', '最终', '效果', '。']

 from pypinyin import lazy_pinyin,pinyin

 print(lazy_pinyin('江西赣州')) #返回拼音

 # ['jiang', 'xi', 'gan', 'zhou']

 print(lazy_pinyin('江西赣州',1))    #带声调的拼音

 # ['jiāng', 'xī', 'gàn', 'zhōu']

 print(lazy_pinyin('江西赣州',2))    #另一种拼音风格

 # ['jia1ng', 'xi1', 'ga4n', 'zho1u']

 print(lazy_pinyin('江西赣州',3))    #只返回拼音首字母

 # ['j', 'x', 'g', 'zh']

 print(lazy_pinyin('重要',1))    #能够根据词组智能识别多音字

 # ['zhòng', 'yào']

 print(lazy_pinyin('重阳',1))

 # ['chóng', 'yáng']

 print(pinyin('江西')) #返回拼音

 # [['jiāng'], ['xī']]

 print(pinyin('重阳节',heteronym=True)) #返回多音字的所有读音

 # [['zhòng', 'chóng', 'tóng'], ['yáng'], ['jié', 'jiē']]

 import jieba

 x='中英文混合test123456'

 print(lazy_pinyin(x))  #自动调用已安装的pypinyin扩展分词功能

 # ['zhong', 'ying', 'wen', 'hun', 'he', 'test123456']

 print(list(jieba.cut(x))) #自动调用jieba扩展分词功能

 # ['中英文', '混合', 'test123456']

 x='江西的桃子真好吃'

 print(sorted(x,key=lambda ch:lazy_pinyin(ch))) #按拼音对汉字进行排序

 # ['吃', '的', '好', '江', '桃', '西', '真', '子']

Python_ jiba、snownlp中文分词、pypinyin中文转拼音的更多相关文章

如何在Elasticsearch中安装中文分词器(IK)和拼音分词器？
声明:我使用的Elasticsearch的版本是5.4.0,安装分词器前请先安装maven 一:安装maven https://github.com/apache/maven 说明: 安装maven需 ...
solr 中文分词器IKAnalyzer和拼音分词器pinyin
solr分词过程: Solr Admin中,选择Analysis,在FieldType中,选择text_en 左边框输入 “冬天到了天气冷了小明不想上学去了”,点击右边的按钮,发现对每个字都进行分词. ...
基于规则的中文分词 - NLP中文篇
之前在其他博客文章有提到如何对英文进行分词,也说后续会增加解释我们中文是如何分词的,我们都知道英文或者其他国家或者地区一些语言文字是词与词之间有空格(分隔符),这样子分词处理起来其实是要相对容易很多, ...
python中文分词：结巴分词
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词.其基本实现原理有三点: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规 ...
Python 自然语言处理（1）中文分词技术
中文分词技术中文自动分词可主要归纳为“规则分词”“统计分词”和“混合分词”,规则分词主要是通过人工设立词库,按照一定方式进行匹配切分,实现简单高效,但对新词很难进行处理,统计分词能够较好应对新词发现 ...
自然语言处理之中文分词器－jieba分词器详解及python实战
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...
NLP系列-中文分词（基于词典）
中文分词概述词是最小的能够独立活动的有意义的语言成分,一般分词是自然语言处理的第一项核心技术.英文中每个句子都将词用空格或标点符号分隔开来,而在中文中很难对词的边界进行界定,难以将词划分出来.在汉语 ...
python 中文分词：结巴分词
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词.其基本实现原理有三点: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规 ...
【Lucene】Apache Lucene全文检索引擎架构之中文分词和高亮显示4
前面总结的都是使用Lucene的标准分词器,这是针对英文的,但是中文的话就不顶用了,因为中文的语汇与英文是不同的,所以一般我们开发的时候,有中文的话肯定要使用中文分词了,这一篇博文主要介绍一下如何使用 ...
ES-自然语言处理之中文分词器
前言中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块.不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性.句法树 ...

随机推荐

(NO.00002)iOS游戏精灵战争雏形(三)
在Sprite中新建Sprites文件夹,在其中添加Player.cc文件,确保其类型为Sprite. 将其Root节点的CCSprite的精灵帧设置为Image/sprite-2.png,然后打开物 ...
11_Android中HttpClient的应用，读取网络xml及xml解析流，Handler的应用，LayoutInflater的使用，SmartImageView的使用
1 所需的web项目结构如下: 2 new.xml的文件内容如下: <?xml version="1.0" encoding="UTF-8" ?&g ...
unity描边效果
这里总结了几种在unity实现描边效果的方法,首先准备一个模型导入在unity中,使用默认shader,上传一张原始图,以便后面实现功能效果的对比一.边缘光,这里参照官方的一个SurfaceShad ...
2、Libgdx配置你的开发环境（Eclipse，Intellij IDEA，NetBeans）
Libgdx 项目使用 Gradle管理依赖,构建过程和IDE整合.这使得你可以使用你喜欢的开发环境开发你的应用.不要提交跟IDE的特定文件到你的源码控制系统中. 配置Eclipse 要想通过Ecli ...
Locally Weighted Linear Regression 局部加权线性回归-R实现
局部加权线性回归 [转载时请注明来源]:http://www.cnblogs.com/runner-ljt/ Ljt 作为一个初学者,水平有限,欢迎交流指正. 线性回归容易出现过拟合或欠拟合的问 ...
Linux C系统编程:信号与定时器的使用
#include <stdio.h> #include <signal.h> void do_alarm(int num); int main(void) { //注册一个定时 ...
vector的简易实现
vector的简易实现整理自<数据结构与算法分析–C++描述(第3版)>3.4节“向量的实现”.详细可参考<STL源码分析>4.2节. 具体实现代码如下: #ifndef VE ...
【一天一道LeetCode】#11Container With Most Water
一天一道LeetCode系列 (一)题目 Given n non-negative integers a1, a2, -, an, where each represents a point at c ...
gtk+修改控件文本字体一例
因为家里电脑是Mac系统,所以就拿Mac系统来示范. 要注意的是gtk+2.0和3.0对字体的处理是有一些区别的: 1.后者使用的是pango的机制,我们这里以gtk+3.0为基础. 2.两者调用Fo ...
mahout系列----minhash聚类
Map: Vector featureVector = features.get(); if (featureVector.size() < minVectorSize) { ret ...

Python_ jiba、snownlp中文分词、pypinyin中文转拼音

Python_ jiba、snownlp中文分词、pypinyin中文转拼音的更多相关文章

随机推荐

热门专题