什么是文件
什么是文本
如何通过文本编辑器控制.txt文件
- 打开文件的三种模式
t和b模式
高级应用
文本处理 + 词云分析
- 效果如下
爬虫原理
requests模块
re模块
爬取图片
爬取视频
爬取文本

什么是文件

文件是操作系统提供的一个虚拟概念, 用来存储信息

什么是文本

.txt/.word/.md/.py/.xml/.ini 存储的是文字

如何通过文本编辑器控制.txt文件

找到文件路径
打开文件
读取/修改文件
保持
关闭

file_path = r'C:\Users\Black\Documents\Python learning\day 05\github.txt'

f = open(file_path) # 把该路径的文件读入内存,只是没有可视化的界面而已

data = f.read() # 读取文件(内容)

打开文件的三种模式

r ---> read (只读不可写)

w ---> write (只写不可读, 清空文本内容)

a ---> append (只写不可读, 追加)

file_path = r'C:\Users\Black\Documents\Python learning\day 05\github.txt'

f = open(file_path, 'a', encoding = 'gbk') # encoding 告诉计算机用什么编码格式翻译硬盘中的0和1

print('f.readable:', f.readale())

print('f.writable:', f.writable())

f.write('追加写入')

date = f.read()

print(data)

t和b模式

gbk/utf8只针对文本,所以音频通过rb模式打开-->读取二进制,b模式下没有encoding这个参数,b不单独使用,一般与r/w/a一起配合使用

f = open(r'D:\上海python12期视频\python12期预科班视频\day 05\01 文本处理.mp4','rb')  # 读入内存

data = f.read()

t 模式针对文本文件,t模式不单独使用,必读得和r/w/a一起使用

f = open(r'C:\Users\Black\Documents\Python learning\day 05\github.txt', 'rt', encoding = 'gbk')

data = f.read()

print(data)

高级应用

r+ 可写可读

a+ 可写可读

w+ 可写可读(清空文件)

使用with open在缩进结束后会自动关闭文件

with open(r'C:\Users\Black\Documents\Python learning\day 05\github.txt', 'r+', encoding = 'gbk') as f:

    # 这个缩进内部的代码都是文件打开的状态

    data = f.read

    print(data)

文本处理 + 词云分析

import jieba

import wordcloud

import imageio

# 读取文件内容

with open(r'C:\Users\Black\Documents\Python learning\day 05\github.txt', 'r+', encoding = 'gbk') as f:

    data = f.read()

# 使用结巴对文件内容进行切割

data_list = jieba.lcut(data)

data = ' '.join(data_list)

# 将github logo图片读入内存

img = imageio.imread(r'C:\Users\Black\Pictures\githublogo.jpg')

# 使用词运模块生成词云图

w = wordcloud.WordCloud(background_color= 'white', mask= img, font_path = r'C:\Windows\Fonts\simsun.ttc')

w.generate(data)

w.to_file('github.jpg')

效果如下

爬虫原理

发送请求 (填入一个url)
获取数据
解析数据
保存数据

requests模块

import requests

res = requests.get(url= '目标网址')

# 文本

res.text

# 二进制流 凡是二进制流数据,不需要指定字符编码

res.content

re模块

# re.S 全局搜索

data_list = re.findall(正则匹配规则, 解析内容, re.S)

# 贪婪匹配 .*?  过滤任何内容

# 非贪婪匹配 (.*?) 提取内容

爬取图片

# 爬取视觉中国图片

import requests

# 使用requests.get()发送请求

response = requests.get(url = 'http://goss.cfp.cn/creative/vcg/nowarter800/new/VCG211235767437.jpg' )

# print(response) 对象

# 接受二进制流

# print(response.content)

# 保存数据

with open('VCG_GET.jpg', 'wb') as f:

    f.write(response.content)

    print('图片下载成功')

爬取视频

# 爬取二更视频

# 往视频地址发送请求, 获取二进制流

import requests

response = requests.get(url= 'http://v1.ergengtech.com/transcode/9c55722e379a9523b51e36f7cd3945cb/2fcc5d2709dd5aa1d03982f040410d6a.mp4')

# 把二进制 流数据保存到本地

# wb: write + bytes  写二进制流模式

# 凡是二进制流数据,不需要指定字符编码

with open('ergen_video.mp4', 'wb') as f:

    f.write(response.content)

    print('视频下载成功')

爬取文本

# 爬取豆瓣top25电影

# 电影名称/电影详情链接/低电影评分

# 1.发送请求

import requests

import re

response = requests.get(url='https://movie.douban.com/top250')

# print(response.text)

# 2.析提取数据

# 查找所有

# re.S 全局查找

# re.findall('正则匹配规则', '解析文本', re.S)

movie_list = re.findall('<div class="item">.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?<span class="rating_num" property="v:average">(.*?)</span>.*?<span>(.*?)人评价</span>', response.text, re.S)

# print(movie_list)

# 循环写入

with open('douban.txt', 'a', encoding='utf-8') as f:

    for line in movie_list:

        movie_name = line[1]

        movie_score = line[2]

        movie_num_of_comm = line[3]

        movie_website = line[0]

        f.write(movie_name + '---' + movie_score + '---' + movie_num_of_comm + '---' + movie_website + '\n')

    print('文本爬取成功')

Day 05 文本处理和爬虫基础1的更多相关文章

Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...
python 3.x 爬虫基础---常用第三方库（requests，BeautifulSoup4，selenium，lxml ）
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---常用第三方库 ...
python从爬虫基础到爬取网络小说实例
一.爬虫基础 1.1 requests类 1.1.1 request的7个方法 requests.request() 实例化一个对象,拥有以下方法 requests.get(url, *args) r ...
爬虫基础以及 re,BeatifulSoup,requests模块使用
爬虫基础以及BeatifulSoup模块使用爬虫的定义:向网站发起请求,获取资源后分析并提取有用数据的程序爬虫的流程发送请求 ---> request 获取响应内容 ---> res ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
python基础整理6——爬虫基础知识点
爬虫基础什么是爬虫: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁. ...
python 3.x 爬虫基础---Requersts,BeautifulSoup4（bs4）
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---Requer ...
python_爬虫基础学习
——王宇阳—根据mooc课程总结记录笔记(Code_boy) Requests库:自动爬去HTML页面.自动网络请求提交 robots.txt:网络爬虫排除标准 Beautiful Soup库:解析H ...
【学习笔记】第二章 python安全编程基础---python爬虫基础（urllib）
一.爬虫基础 1.爬虫概念网络爬虫(又称为网页蜘蛛),是一种按照一定的规则,自动地抓取万维网信息的程序或脚本.用爬虫最大的好出是批量且自动化得获取和处理信息.对于宏观或微观的情况都可以多一个侧面去了 ...

随机推荐

基于Docker的Mysql主从复制
基于Docker的Mysql主从复制搭建为什么基于Docker搭建? 资源有限虚拟机搭建对机器配置有要求,并且安装mysql步骤繁琐一台机器上可以运行多个Docker容器 Docker容器之间相 ...
Salesforce学习之路（十）Org的命名空间
1. 命名空间的适用场景每个组件都是命名空间的一部分,如果Org中设置了命名空间前缀,那么需使用该命名空间访问组件.否则,使用默认命名空间访问组件,系统默认的命名空间为“c”. 如果Org没有创建命 ...
QQ是怎样创造出来的？——解密好友系统的设计
本篇介绍笔者接触的第一个后台系统,从自身见闻出发,因此涉及的内容相对比较基础,后台大牛请自觉略过. 什么是好友系统? 简单的说,好友系统是维护用户好友关系的系统.我们最熟悉的好友系统案例当属QQ,实际 ...
HTML5之worker开启JS多线程模式及window.postMessage跨域
worker概述 worker基本使用 window下的postMessage worker多线程的应用一.worker概述 web worker实际上是开启js异步执行的一种方式.在html5之前 ...
spring security进阶使用数据库中的账户和密码认证
目录 spring security 使用数据库中的账户和密码认证一.原理分析二.代码实现 1.新建一个javaWeb工程 2.用户认证的实现 3.测试三.总结 spring security ...
three.js使用gpu选取物体并计算交点位置
光线投射法使用three.js自带的光线投射器(Raycaster)选取物体非常简单,代码如下所示: var raycaster = new THREE.Raycaster(); var mouse ...
百度杯十二月 what_the_fuck
对于这道题,我还真的想说 what_the_fuck !! 这道题拿到就只发觉一个格式化字符串漏洞,其他的就找不到了 . unsigned __int64 sub_4008C5() { char s; ...
.NET Core 3.0 使用Nswag生成Api文档和客户端代码
摘要在前后端分离.Restful API盛行的年代,完美的接口文档,成了交流的纽带.在项目中引入Swagger (也称为OpenAPI),是种不错的选择,它可以让接口数据可视化.下文将会演示利用N ...
2019-9-9：渗透测试，基础学习，pydictor使用，sql盲注，docker使用，笔记
pydictor,强大的密码生成工具,可以合并密码字典,词频统计,去重,枚举数字字典生成字典python3 pydictor.py -base d --len 4 4 生成纯数字4位密码python3 ...
使用laravel快速构建vuepress管理器
使用laravel快速构建vuepress管理器介绍刚刚学了下laravel感觉很方便,最近也在用vuepress做个人博客,但是感觉每次写文章管理文章不是特别方便,就使用laravel写了这个v ...

Day 05 文本处理和爬虫基础1