jieba user guide
import sys
import jieba
import jieba.analyse
import jieba.posseg as posg
sentence=u'''深圳新闻网讯 10月30日,世界城市日——全球城市竞争力论坛在广州举行。会上,中国社科院财经战略研究院和联合国人类住区规划署发布了《全球城市竞争力报告2017-2018》(以下简称《报告》)。
《报告》称,通过对全球1007个城市的“经济竞争力”进行测度后,深圳在“经济竞争力”这项评选中位于第六名。上海、广州、北京分列全球第14、15、20名。
北上广深,不仅有最繁华的建筑群,最多元的包容性,同时也是很多人改变命运的圆梦场。“经济竞争力”是对现有存量的排名,但对青年们来说,增量的部分(即未来)显得更为重要。《报告》也提供了一个可供参考的指标——“可持续竞争力”,即在未来保持全球竞争力的可持续性。
在未来“可持续竞争力”排名上,除了北京高于“经济竞争力”指标,其他几座城市的可持续竞争力指标都低于其经济竞争力排名,深圳全球排名第35位。
科技与金融正在主导全球经济,占据全球价值链的主要部分,尤其是信息科技企业的影响力正变得越来越大。科技中心城市在全球城市体系中的地位不断上升。
综合2017年各城市所拥有最具价值品牌数量和近十年变化情况等因素,《报告》还提出了未来“新型全球城市”排名,在排名前50的城市当中,北京、深圳、上海、广州皆在其列,而“新一线城市”中仅有杭州入围。“未来的竞争将持续转向以城市经济为单元的竞争”,美国独立经济智库米尔肯研究所亚洲中心研究部董事、总经理黄华跃说。(记者李佳佳'''
#kw=jieba.analyse.extract_tags(sentence,topK=20,withWeight=True,allowPOS=('n','nr','ns'))
# kw=jieba.analyse.textrank(sentence,topK=20,withWeight=True,allowPOS=('ns','n','vn','v'))
# for item in kw:
# print(item[0],item[1])
#seg_lig=jieba.cut('担当党的崇高使命 矢志永远奋斗',cut_all=True)
#print("full_name"+ "/ ".join(seg_lig))
# seg_lig2=jieba.cut('担当党的崇高使命 矢志永远奋斗',cut_all=False)
# for item in seg_lig2:
# print(item)
# print("default_name"+ "/ ".join(seg_lig2))
# seg_lig3=jieba.cut_for_search('担当党的崇高使命 矢志永远奋斗')
# print("search_name"+ ", ".join(seg_lig3))
word=posg.cut(sentence)
for work,flag in word:
print(work,flag)
jieba user guide的更多相关文章
- 中文分词工具探析(二):Jieba
1. 前言 Jieba是由fxsjy大神开源的一款中文分词工具,一款属于工业界的分词工具--模型易用简单.代码清晰可读,推荐有志学习NLP或Python的读一下源码.与采用分词模型Bigram + H ...
- Beennan的内嵌汇编指导(译)Brennan's Guide to Inline Assembly
注:写在前面,这是一篇翻译文章,本人的英文水平很有限,但内嵌汇编是学习操作系统不可少的知识,本人也常去查看这方面的内容,本文是在做mit的jos实验中的一篇关于内嵌汇编的介绍.关于常用的内嵌汇编(AT ...
- The Practical Guide to Empathy Maps: 10-Minute User Personas
That’s where the empathy map comes in. When created correctly, empathy maps serve as the perfect lea ...
- Scrum Guide - Scrum指南中文版
现在公司在使用敏捷开发模式进行日常的开发和管理工作,所以我看了下Ken Schwaber的<Scrum Guide>这本小册子,原本是英文的,这里提供中文的,以供日后复习和参考. Scru ...
- The Hacker's Guide To Python 单元测试
The Hacker's Guide To Python 单元测试 基本方式 python中提供了非常简单的单元测试方式,利用nose包中的nosetests命令可以实现简单的批量测试. 安装nose ...
- A Beginner's Guide to Paxos
Google Drive: A Beginner's Guide to Paxos The code ideas of Paxos protocol: 1) Optimistic concurrenc ...
- jieba.NET与Lucene.Net的集成
首先声明:我对Lucene.Net并不熟悉,但搜索确实是分词的一个重要应用,所以这里还是尝试将两者集成起来,也许对你有一参考. 看到了两个中文分词与Lucene.Net的集成项目:Lucene.Net ...
- jieba中文分词的.NET版本:jieba.NET
简介 平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...
- pipedata3d User Guide
pipedata3d User Guide 1. Introduction 在管道设计过程中,会使用到大量的标准,如ASME,DIN,GB,CB,HG,SH等等.管道设计人员在设计过程中,需要翻阅相关 ...
随机推荐
- 【java】JVM的内存区域划分
学过C语言的朋友都知道C编译器在划分内存区域的时候经常将管理的区域划分为数据段和代码段,数据段包括堆.栈以及静态数据区.那么在Java语言当中,内存又是如何划分的呢? 由于Java程序是交由JVM执行 ...
- Flume与Logstash比较
Flume与Logstash相比,个人的体会如下: Logstash比较偏重于字段的预处理:而Flume偏重数据的传输: Logstash有几十个插件,配置灵活:FLume则是强调用户的自定义开发(s ...
- Eclipse SQLExplorer插件的安装和使用
from: http://blog.csdn.net/flashlm/archive/2007/06/30/1672836.aspx 插件名称: SQLExplorer 插件分类: SQL Edito ...
- 使用 Cookie 而无需 ASP.NET 核心标识的身份验证
https://docs.microsoft.com/zh-cn/aspnet/core/security/authentication/cookie?tabs=aspnetcore2x#tabpan ...
- LIGHT OJ 1199 - Partitioning Game
传送门 1199 - Partitioning Game PDF (English) problem=1199" style="color:rgb(79,107,114)&q ...
- 源码安装mysql 5.7.19数据库
1.系统要求yum install -y cmake make gcc gcc-c++ bison ncurses ncurses-devel 2.创建用户和组groupadd mysql & ...
- 《TCP/IP详解卷1:协议》读书笔记
<TCP/IP详解卷1:协议>读书笔记 - QingLiXueShi - 博客园https://www.cnblogs.com/mengwang024/p/4425834.html < ...
- 用SQL语句将远程SQL Server数据库中表数据导入到本地数据库相应的表中
一.方法一 访问不同电脑上的数据库(远程访问,只好联好网就一样),如果经常访问或数据量较大,建议用链接服务器方法. 1.创建链接服务器 exec sp_addlinkedserver ‘srv_lnk ...
- Python 爬虫编码格式问题 gb2312转换utf8
遇到的问题是:爬取网页得到的结果如下(部分) 里面的中文出现乱码. <!DOCTYPE html> <html lang='zh-CN'> <head> < ...
- 从代码上解决Jenkins 发送邮件中文乱码问题
在实践中,使用Jenkins发送测试报告,收到邮件,邮件内容中的中文为乱码,邮件发送的方式是在Jenkins发邮件设置中设置邮件内容为:${FILE,path="report_ug.html ...