网络爬虫Python(一)
1、爬取页面,打印页面信息
1 import requests
2
3 # get请求
4 response_get=requests.get("https://www.baidu.com") # 生成一个response对象
5 response_get.encoding=response_get.apparent_encoding # 设置编码格式
6
7 # post请求
8 response_post = requests.post("http://httpbin.org/post")
9 response_post.encoding=response_post.apparent_encoding
10
11 print("抓取百度网页html内容如下(get请求):")
12 print(response_get.text)
13 print("抓取百度网页html内容如下(post请求):")
14 print(response_post.text)
2、关于反爬机制页面的处理
1 # 关于绕过反爬机制
2 response_get=requests.get("http://www.zhihu.com") # 生成一个response对象
3 response_get.encoding=response_get.apparent_encoding # 设置编码格式
4 print("不设置头信息,状态码:",str(response_get.status_code))
5 print("抓取网页html内容如下(get请求):")
6 print(response_get.text)
7
8 # 设置User-Agent,添加头部信息,伪装浏览器
9 headers={
10 "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36"
11 }
12 response_get=requests.get("https://www.zhihu.com",headers=headers)
13 response_get.encoding=response_get.apparent_encoding
14 print("设置头信息,状态码:",str(response_get.status_code))
15 print("抓取网页html内容如下(get请求):")
16 print(response_get.text)
3、爬取信息并保存到本地方法
1 import requests
2
3 # get请求
4 response_get = requests.get("http://www.baidu.com") # 生成一个response对象
5 response_get.encoding = response_get.apparent_encoding # 设置编码格式
6 print("抓取网页html内容如下(get请求):")
7 print(response_get.text)
8 # 爬取信息并保存到本地方法1:
9 with open("./file/zhongyan.html", "w", encoding="utf-8") as f:
10 f.write(response_get.text)
11 f.close()
12 # 爬取信息并保存到本地方法2:
13 file = open("./file/zhongyan1.html", "w", encoding="utf-8")
14 file.write(response_get.text)
15 file.close()
4、美化爬出html信息
1 import requests
2 from bs4 import BeautifulSoup
3
4 # get请求
5 response_get = requests.get("http://www.baidu.com") # 生成一个response对象
6 response_get.encoding = response_get.apparent_encoding # 设置编码格式
7 print("抓取网页html内容如下(get请求):")
8 soup=BeautifulSoup(response_get.text,"html.parser")
9 print(soup.prettify())
5、整体代码如下:
1 import requests
2 from bs4 import BeautifulSoup
3
4 # get请求
5 headers = {
6 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36"
7 }
8 response_get = requests.get("http://www.baidu.com", headers=headers) # 生成一个response对象
9 response_get.encoding = response_get.apparent_encoding # 设置编码格式
10 print("抓取网页html内容如下(get请求):")
11 # 美化爬出数据展示
12 soup = BeautifulSoup(response_get.text, "html.parser")
13 # prettify()每逢标签,自动换行
14 print(soup.prettify())
15 # 爬取信息并保存到本地方法1:
16 with open("./file/baidu.html", "w", encoding="utf-8") as f:
17 f.write(soup.prettify())
18 f.close()
19 # 爬取信息并保存到本地方法2:
20 file = open("./file/baidu1.html", "w", encoding="utf-8")
21 file.write(soup.prettify())
22 file.close()
网络爬虫Python(一)的更多相关文章
- python网络爬虫-python基础(三)
python安装 Anaconda的python科学计算环境,只需要想普通软件一样安装就可以把python的环境变量.解释器.开发环境都安装到计算机中 除此之外anaconda还提供众多的科学计算的包 ...
- Python网络爬虫与如何爬取段子的项目实例
一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...
- Python网络爬虫与信息提取笔记
直接复制粘贴笔记发现有问题 文档下载地址//download.csdn.net/download/hide_on_rush/12266493 掌握定向网络数据爬取和网页解析的基本能力常用的 Pytho ...
- Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址 本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
- [Python] 网络爬虫和正则表达式学习总结
以前在学校做科研都是直接利用网上共享的一些数据,就像我们经常说的dataset.beachmark等等.但是,对于实际的工业需求来说,爬取网络的数据是必须的并且是首要的.最近在国内一家互联网公司实习, ...
- 智普教育Python培训之Python开发视频教程网络爬虫实战项目
网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 01.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 02.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Pytho ...
- python之网络爬虫
一.演绎自已的北爱 踏上北漂的航班,开始演奏了我自已的北京爱情故事 二.爬虫1 1.网络爬虫的思路 首先:指定一个url,然后打开这个url地址,读其中的内容. 其次:从读取的内容中过滤关键字:这一步 ...
- 读书笔记汇总 --- 用Python写网络爬虫
本系列记录并分享:学习利用Python写网络爬虫的过程. 书目信息 Link 书名: 用Python写网络爬虫 作者: [澳]理查德 劳森(Richard Lawson) 原版名称: web scra ...
- Python即时网络爬虫项目启动说明
作为酷爱编程的老程序员,实在按耐不下这个冲动,Python真的是太火了,不断撩拨我的心. 我是对Python存有戒备之心的,想当年我基于Drupal做的系统,使用php语言,当语言升级了,推翻了老版本 ...
- python Cmd实例之网络爬虫应用
python Cmd实例之网络爬虫应用 标签(空格分隔): python Cmd 爬虫 废话少说,直接上代码 # encoding=utf-8 import os import multiproces ...
随机推荐
- dapr本地托管的服务调用体验与Java SDK的Spring Boot整合
1 简介 之前在文章<dapr入门与本地托管模式尝试>中介绍了dapr和本地托管,本文我们来介绍如果在代码中使用dapr的服务调用功能,并把它整合到Spring Boot中. Dapr服务 ...
- vuex 的使用详解
一.vuex 概述 (一)组件之间共享数据的方式 但是这三种方案,只适合小范围的数据共享,如果我们需要频繁的大范围的进行组件之间的数据共享,那么我们就适合使用 vuex (二)vuex 是什么 主要实 ...
- 网络编程前戏和OSI七层协议
目录 一.软件开发架构 1.什么是软件开发架构 2.软件开发架构 架构方式一:c/s架构 架构方式二:b/s架构 架构优劣势 二.架构总结 三.网络编程前戏 1.什么是网络编程 2.学习网络编程的目的 ...
- chatGPT vscode 体验
体验秘钥 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 多人用可能有点卡,重在体验. 自己(中国)想注册账号如下 步骤一:找到入口 搜索Ope ...
- Vue.config.js配置 最新可用版本
最近 在学前端,然后,学了这个vue-cli脚手架,虽然,我这个vue-cli还不算入门,后我会把这个笔记补上 下面是我的Vue.config.js的配置,我感觉这个复用的程度高,所以记下 了这个随笔 ...
- 多变量两两相互关系联合分布图的Python绘制
本文介绍基于Python中seaborn模块,实现联合分布图绘制的方法. 联合分布(Joint Distribution)图是一种查看两个或两个以上变量之间两两相互关系的可视化图,在数据分析操 ...
- 通过pdf模板,填充内容,生成pdf文件---JAVA
1 概述 我们通常会遇到需要生成某些固定格式,但是内容不同的文件,那么我们就可以使用⽤Adobe Acrobat DC来创建pdf模块,然后通过代码对模板进行填充,生成pdf文件 2 创建一个pdf模 ...
- ROS入门:服务
服务端实现一个加法,将结果反馈给客户端 客户端将要计算的和的两个数发给服务的. 1.自定义服务数据 创建一个srv文件:AddTwoInts.srv int64 a int64 b --- int64 ...
- JAVA 进阶第一阶段 59-69
10/10号笔记 私有与公共 用private在类中定义的成员变量 只有在这个类的内部才支持访问和编写 public 公共的 用这个定义的在任何地方都可以访问 比如public calss clock ...
- wordpress配置指南
1.创建资源 在页面左侧,单击 云产品资源 下拉列表,查看本次实验所需资源. 单击屏幕右侧 创建资源 ,免费创建当前实验所需云产品资源. 资源创建过程需要1~3分钟.完成实验资源的创建后,您可以在 云 ...