import jieba jieba.add_word("福军") jieba.add_word("少安") excludes={"一个","他们","自己","现在","已经","什么","这个","没有","这样","知道","两个"} txt…
接上一章,动态页面抓取——抓取京东评论区内容. url=‘https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv399&productId=4560435&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1’ 重点是productId——产品id.page——页码.pag…
经过了一些学习与一些十分有意义的锻(zhe)炼(mo),我决定尝试一手新接触的python第三方库 ——jieba库! 这是一个极其优秀且强大的第三方库,可以对一个文本文件的所有内容进行识别,分词,甚至是根据猜测的词义形成字典! 这么好用的库不去了解实在是可惜啊!!! 那么第一步,我们当然是先安装它了! 步骤很简单! 就是我们以往的cmd命令行安装即可: 接下来让我们了解一下它的基本语法吧! jieba库有三个基本的模式:精确模式.全模式.搜索引擎模式 精确模式:试图将语句最精确的切分,不存在冗…
一.准备 在制作词云之前我们需要自行安装三个库,它们分别是:jieba, wordcloud, matplotlib 安装方法基本一致,下面我以安装wordcloud的过程为例. 第一步,按下Win+R打开命令输入框,并输入cmd,点击确定 第二步,找到IDLE文件(即平时打代码的程序),右击,点击属性,得到如下界面,再点击打开文件所在的位置 打开Scripts文件,可以看到pip文件 将pip文件直接拖至刚才输入cmd打开的界面 在pip.exe后方输入install wordcloud(注意…
首先,通过pip3 install jieba安装jieba库,随后在网上下载<斗破>. 代码如下: import jieba.analyse path = '小说路径' fp = open(path,'r',encoding='utf-8') content = fp.read() try: jieba.analyse.set_stop_words('停用词表路径') tags = jieba.analyse.extract_tags(content, topK=100, withWeigh…
一.基本数据类型 什么是数据类型 变量:描述世间万物的事物的属性状态 为了描述世间万物的状态,所以有了数据类型,对数据分类 为什么要对数据分类 针对不同的状态需要不同的数据类型标识 数据类型的分类 二.数字类型 整型(int) 作用 表示人的年龄 / 身份证号 定义 age = 21 pringt(age, type(age)) # 打印结果:21 <class 'int'> # 或者: age = int(21) print(age, type(age)) # 打印结果:21 <cla…
使用jieba库分词 一.什么是jieba库 1.jieba库概述 jieba是优秀的中文分词第三方库,中文文本需要通过分词获得单个词语. 2.jieba库的使用:(jieba库支持3种分词模式) 通过中文词库的方式识别 精确模式:把文本精确的切分开,不存在冗余单词 全模式:把文本所有可能的词语都描述出来,有冗余 搜索引擎模式:在精确模式的基础上,对长词进行切分 3.jieba库是属于python中优秀的中文分词第三方库,需要额外安装 二.安装jieba库 途径1:百度jieba库下载(百度上很…
wordclou:根据文本生成词云 一.词云设置 wc=WordCloud(width=400, height=200, #画布长.宽,默认(400,200)像素 margin=1, #字与字之间的距离 background_color='white',#背景颜色 min_font_size=3,max_font_size=None,#显示的最小,最大的字体大小 max_words=200,#显示的词的最大个数 ranks_only=None,#是否只是排名 prefer_horizontal=…
1.jieba 库安装 方法1:全自动安装(容易失败):easy_install jieba 或者 pip install jieba / pip3 install jieba 方法2:半自动安装(推荐):先下载 https://github.com/fxsjy/jieba ——>解压文件——>运行CMD——>定位到解压文件的路径(注意:路径前有个磁盘字符cd/d)——>输入 python setup.py install 回车安装(如果回车后,出现错误:“python不是内部或者…
第一步:先安装jieba库 输入命令:pip install jieba jieba库常用函数: jieba库分词的三种模式: 1.精准模式:把文本精准地分开,不存在冗余 2.全模式:把文中所有可能的词语都扫描出来,存在冗余 3.搜索引擎模式:在精准模式的基础上,再次对长词进行切分 精准模式: >>> import jieba >>> jieba.lcut("中国是一个伟大的国家") Building prefix dict from the def…