一、上节课回顾

(一)数据类型

对世间万物的状态分类

(1)数字类型

1. 整形int

2. 浮点型float

(2)字符串类型str

索引取值/索引切片

startswith()以开始

endswith()以结尾

join()以字符串的内容拼接列表内的元素

(3)列表类型list

索引取值/索引修改/索引切片

append()往后加值

del 按索引删除值

(4)字典类型dict

{}内逗号隔开多个键(一般为字符串)值(任意数据类型)对(对应)

按key取值/按key修改值/按key增加值

del 按key删除值

(二)jieba模块

作用:切割一段内容

(三)wordcloud模块

作用:生成词云图

二、文本处理

(一)什么是文本

:.txt .docx .md  .py .xml  .ini存储的是文字

对应的由视频/音频文件(多媒体文件)

(二)如何处理

#打开文件的三种模式:r(只读不写),w(只写不读,清空文件),a(只写不读,追加)
file_path = r'F:\预科班\day05\anhao.txt'
f = open(file_path,'a',encoding = 'gbk')
print(f.readable())#是否可读,如果是为ture

(三)文本高级

t和b模式(text和bytes)

音频/视频文件通过rb模式打开(读取二进制)

f = open(r'F:\预科班\day05\anhao.txt','rb',encoding= 'utf8')
data = f.read()
print(data)
f.close()

使用with open () as可以自动关闭文件

with open (r'F:\预科班\day05\anhao.txt','r+',enconding = 'utf8') as f:
    data = f.read()
    print(data)

(四)文本处理+词云分析

import jieba
import imageio
import wordcloud

# 1. 读取文件内容
with open(r'F:\预科班\day05\anhao.txt','r') as fr:
    # for i in range(1000):
    #     fr.write('回家的诱惑,')
    #     fr.flush()  # 相当于保存

    data = fr.read()

# 2. 使用结巴模块对文件内容切割
# jieba.add_word('回家的诱惑')  # 让"回家的诱惑"成为一个单词
# jieba.del_word('女士')
# jieba.del_word('先生')
data_list = jieba.lcut(data)
data = ' '.join(data_list)

# 3. 找到一张的图片
img = imageio.imread(r'F:\预科班\day05\nini.jpg')

# 4. 使用词云模块生成词云
w = wordcloud.WordCloud(background_color='white',mask=img,font_path=r'C:\Windows\Fonts\simsun.ttc',max_words=150)
w.generate(data)
w.to_file('weixiao.png')

day05整理的更多相关文章

  1. Java 复习整理day05

    1 package com.it.demo01_oop; 2 3 import java.util.Arrays; 4 5 /* 6 案例: 演示面向过程和面向对象代码的区别 7 8 面向过程编程思想 ...

  2. dotNET跨平台相关文档整理

    一直在从事C#开发的相关技术工作,从C# 1.0一路用到现在的C# 6.0, 通常情况下被局限于Windows平台,Mono项目把我们C#程序带到了Windows之外的平台,在工作之余花了很多时间在M ...

  3. UWP学习目录整理

    UWP学习目录整理 0x00 可以忽略的废话 10月6号靠着半听半猜和文字直播的补充看完了微软的秋季新品发布会,信仰充值成功,对UWP的开发十分感兴趣,打算后面找时间学习一下.谁想到学习的欲望越来越强 ...

  4. SQL Server 常用内置函数(built-in)持续整理

    本文用于收集在运维中经常使用的系统内置函数,持续整理中 一,常用Metadata函数 1,查看数据库的ID和Name db_id(‘DB Name’),db_name('DB ID') 2,查看对象的 ...

  5. kafka学习笔记:知识点整理

    一.为什么需要消息系统 1.解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2.冗余: 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险. ...

  6. JAVA程序员常用软件整理下载

    ********为了大家学习方便,特意整理软件下载如下:*************Java类软件:-------------------------------JDK7.0:http://pan.ba ...

  7. js数组学习整理

    原文地址:js数组学习整理 常用的js数组操作方法及原理 1.声明数组的方式 var colors = new Array();//空的数组 var colors = new Array(3); // ...

  8. GJM : C#设计模式汇总整理——导航 【原创】

    感谢您的阅读.喜欢的.有用的就请大哥大嫂们高抬贵手"推荐一下"吧!你的精神支持是博主强大的写作动力以及转载收藏动力.欢迎转载! 版权声明:本文原创发表于 [请点击连接前往] ,未经 ...

  9. 整理下.net分布式系统架构的思路

    最近看到有部分招聘信息,要求应聘者说一下分布式系统架构的思路.今天早晨正好有些时间,我也把我们实际在.net方面网站架构的演化路线整理一下,只是我自己的一些想法,欢迎大家批评指正. 首先说明的是.ne ...

随机推荐

  1. Servlet防止盗链

    在开发过程中有时存在用户直接复制链接,而绕过首页的情况.如果需要用户访问首页,而不是直接访问我们的网页,我们就称为盗链. 在Servlet中通过Request的getHeader()方法获取链接来源, ...

  2. Redis数据库之数据基本管理操作

    了解并掌握各种数据类型的命令操作方式,以及各种数据类型值的操作方式.同时,熟练记忆列表.哈希.集合和有序集合等数据类型的常用操作命令.能根据指令格式完成相应的指令操作. ①string数据类型的练习 ...

  3. springboot系列之04-提高开发效率必备工具lombok

    未经允许,不得转载 原作者:字母哥博客 本文完整系列出自:springboot深入浅出系列 一.前置说明 本节大纲 使用lombok插件的好处 如何安装lombok插件 使用lombok提高开发效率 ...

  4. 自学React 入门

    刚开始学习React, 读了官网和别人的一些博客,总结了一部分内容,记录一下.有错误欢迎指正... 一.自定义组件需要了解知识 1. 组件分类 React中有两种类型的组件,一种是"方法组件 ...

  5. 面试题解析|ACL权限控制机制

    ACL(Access Control List)访问控制列表 包括三个方面: 一.权限模式(Scheme) 1.IP:从 IP 地址粒度进行权限控制 2.Digest:最常用,用类似于 usernam ...

  6. 快学Scala 第二课 (apply, if表达式,循环,函数的带名参数,可变长参数,异常)

    apply方法是Scala中十分常见的方法,你可以把这种用法当做是()操作符的重载形式. 像以上这样伴生对象的apply方法是Scala中构建对象的常用手法,不再需要使用new. if 条件表达式的值 ...

  7. docker服务在Mac上的启动与使用

    在mac上打开安装的docker软件就可以启动docker服务了 点击顶部状态栏中鲸鱼图标会弹出操作菜单,显示着服务的状态,如下图所示: 只有在docker服务启动了之后,才可以在终端使用docker ...

  8. 常用注解@Controller、@Service、@Autowired

    @Controller.@Service在spring-context-5.1.10.RELEASE.jar包下,所在包如下 @Autowired在spring-beans-5.1.10.RELEAS ...

  9. 如何编译和调试Python内核源码?

    目录 写在前面 获取源代码 源代码的组织 windows下编译CPython 调试CPython 小结 参考 博客:blog.shinelee.me | 博客园 | CSDN 写在前面 如果对Pyth ...

  10. Flex 布局——语法属性详解

    前言 Flexbox 是 flexible box 的简称(注:意思是“灵活的盒子容器”),是 CSS3 引入的新的布局模式.它决定了元素如何在页面上排列,使它们能在不同的屏幕尺寸和设备下可预测地展现 ...