python之NLP词性标注

1、知识点

包括中文和英文的词性标注
主要使用的库是nltk和jiaba

2、代码

# coding = utf-8

import nltk

from nltk.corpus import stopwords

from nltk.corpus import brown

import numpy as np

"""

标注步骤:

    1、清洗，分词

    2、标注

FAQ:

    1、 Resource punkt not found.

        请安装punkt模块

    2、安装average_perceptron tagger

    3、Resource sinica_treebank not found

        请安装sinica_treebank模块

"""

def english_label():

    """

    英文词性标注

    :return:

    """

    # 分词

    text = "Sentiment analysis is a challenging subject in machine learning.\

     People express their emotions in language that is often obscured by sarcasm,\

      ambiguity, and plays on words, all of which could be very misleading for \

      both humans and computers.".lower()

    text_list = nltk.word_tokenize(text)

    # 去掉标点符号

    english_punctuations = [',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%']

    text_list = [word for word in text_list if word not in english_punctuations]

    # 去掉停用词

    stops = set(stopwords.words("english"))

    text_list = [word for word in text_list if word not in stops]

    list = nltk.pos_tag(text_list) #打标签

    print(list)

def chineses_label():

    import jieba.posseg as pseg

    import re

    """

    fool也可以针对中文词性标注

    HanLP词性标注集

    案例使用jieba进行词性标注

    :return:

    """

    str = "我爱你，是粉色，舒服 ，舒服，士大夫"

    posseg_list = re.sub(r'[，]', " ", str)

    posseg_list =pseg.cut(posseg_list)

    print(posseg_list)

    print(' '.join('%s/%s' % (word, tag) for (word, tag) in posseg_list))

python之NLP词性标注的更多相关文章

nlp词性标注
nlp词性标注与分词函数不同,jieba库和pyltp库词性标注函数上形式相差极大. jieba的词性标注函数与分词函数相近,jieba.posseg.cut(sentence,HMM=True)函 ...
Viterbi 算法 Python实现 [NLP学习一]
最近思考了一下未来,结合老师的意见,还是决定挑一个方向开始研究了,虽然个人更喜欢鼓捣.深思熟虑后,结合自己的兴趣点,选择了NLP方向,感觉比纯粹的人工智能.大数据之类的方向有趣多了,个人还是不适合纯粹 ...
python之NLP数据清洗
1.知识点 """ 安装模块:bs4 nltk gensim nltk:处理英文 1.安装 2.nltk.download() 下载相应的模块英文数据处理: 1.去掉h ...
Python 基于 NLP 的文本分类
这是前一段时间在做的事情,有些python库需要python3.5以上,所以mac请先升级 brew安装以下就好,然后Preference(comm+',')->Project: Text-Cl ...
NLP入门（二）探究TF-IDF的原理
TF-IDF介绍 TF-IDF是NLP中一种常用的统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,通常用于提取文本的特征,即关键词.字词的重要性随着它在文件中出现的 ...
NLP入门（十）使用LSTM进行文本情感分析
情感分析简介文本情感分析(Sentiment Analysis)是自然语言处理(NLP)方法中常见的应用,也是一个有趣的基本任务,尤其是以提炼文本情绪内容为目的的分类.它是对带有情感色彩的主观性 ...
【448】NLP, NER, PoS
目录: 停用词 —— stopwords 介词 —— prepositions —— part of speech Named Entity Recognition (NER) 3.1 Stanfor ...
Mac os Pycharm 中使用Stanza进行实体识别（自然语言处理nlp）
stanza 是斯坦福开源Python版nlp库,对自然语言处理有好大的提升,具体好在哪里,官网里面都有介绍,这里就不翻译了.下面放上对应的官网和仓库地址. stanza 官网地址:点击我进入 sta ...
【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理
干货!详述Python NLTK下如何使用stanford NLP工具包作者:白宁超 2016年11月6日19:28:43 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的 ...

随机推荐

Ajax返回数据却一直进入error（已经解决）
做asp.net项目使用ajax $.ajax({ url: '../Music/Default2.aspx?Types=' + type + '&texts=' + text + '', ...
python错误大全
1.NameError:name 'Ture' is not defined 这个是名字没有定义,也可能写错了 while True: 2.IndentationError: unindent doe ...
R的数据结构--矩阵
矩阵:存放相同类型元素的二维向量参数解释 matrix(data=NA, nrow = 1, ncol = 1, byrow = FALSE, dimnames = NULL) 参数含义如下: da ...
[SDOI2010]代码拍卖会——DP
原题戳这里绝对是一道好题需要注意到两个东西 1.符合条件的数可以拆成一堆$11...11$相加的形式,比如$1145=1111+11+11+11+1$ 2.\(1,11,111,1111, ...
USC-- compute shader ps vs
http://cdn.imgtec.com/sdk-documentation/PowerVR%20Compute%20Development%20Recommendations.pdf powerV ...
[MySQL优化] -- 如何了解SQL的执行频率
MySQL 客户端连接成功后,通过 show [session|global]status 命令可以提供服务器状态信息,也可以在操作系统上使用 mysqladmin extended-status ...
SQL Server查询表结构语句
--1:获取当前数据库中的所有用户表 www.2cto.com select Name from sysobjects where xtype='u' and status>=0 -- ...
策略模式（Strategy）---行为型
1 基础知识定义:定义了算法家族,分别封装起来,让他们可以相互替换,此模式让算法的变化不会影响到使用算法的用户(应用层).特征:可以替换掉大量的if else语句本质:分离算法,选择实现. 使用场 ...
BOOTING ELOQUENT MODEL TRAITS
BOOTING ELOQUENT MODEL TRAITS So I've learnt a little Laravel/Eloquent trick today that is very much ...
Transformer模型总结
Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行. 它是由编码组件.解码组件和它们之间的连接组成. 编码组件部分由一堆编码器(6个 enco ...

python之NLP词性标注

python之NLP词性标注的更多相关文章

随机推荐

热门专题