网络爬虫Python（一）

1、爬取页面，打印页面信息

 1 import requests

 2

 3 # get请求

 4 response_get=requests.get("https://www.baidu.com") # 生成一个response对象

 5 response_get.encoding=response_get.apparent_encoding # 设置编码格式

 6

 7 # post请求

 8 response_post = requests.post("http://httpbin.org/post")

 9 response_post.encoding=response_post.apparent_encoding

10

11 print("抓取百度网页html内容如下(get请求)：")

12 print(response_get.text)

13 print("抓取百度网页html内容如下(post请求)：")

14 print(response_post.text)

2、关于反爬机制页面的处理

 1 # 关于绕过反爬机制

 2 response_get=requests.get("http://www.zhihu.com") # 生成一个response对象

 3 response_get.encoding=response_get.apparent_encoding # 设置编码格式

 4 print("不设置头信息，状态码：",str(response_get.status_code))

 5 print("抓取网页html内容如下(get请求)：")

 6 print(response_get.text)

 7

 8 # 设置User-Agent，添加头部信息,伪装浏览器

 9 headers={

10     "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36"

11 }

12 response_get=requests.get("https://www.zhihu.com",headers=headers)

13 response_get.encoding=response_get.apparent_encoding

14 print("设置头信息，状态码：",str(response_get.status_code))

15 print("抓取网页html内容如下(get请求)：")

16 print(response_get.text)

3、爬取信息并保存到本地方法

 1 import requests

 2

 3 # get请求

 4 response_get = requests.get("http://www.baidu.com")  # 生成一个response对象

 5 response_get.encoding = response_get.apparent_encoding  # 设置编码格式

 6 print("抓取网页html内容如下(get请求)：")

 7 print(response_get.text)

 8 # 爬取信息并保存到本地方法1：

 9 with open("./file/zhongyan.html", "w", encoding="utf-8") as f:

10     f.write(response_get.text)

11     f.close()

12 # 爬取信息并保存到本地方法2：

13 file = open("./file/zhongyan1.html", "w", encoding="utf-8")

14 file.write(response_get.text)

15 file.close()

4、美化爬出html信息

1 import requests

2 from bs4 import BeautifulSoup

3

4 # get请求

5 response_get = requests.get("http://www.baidu.com")  # 生成一个response对象

6 response_get.encoding = response_get.apparent_encoding  # 设置编码格式

7 print("抓取网页html内容如下(get请求)：")

8 soup=BeautifulSoup(response_get.text,"html.parser")

9 print(soup.prettify())

5、整体代码如下：

 1 import requests

 2 from bs4 import BeautifulSoup

 3

 4 # get请求

 5 headers = {

 6     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36"

 7 }

 8 response_get = requests.get("http://www.baidu.com", headers=headers)  # 生成一个response对象

 9 response_get.encoding = response_get.apparent_encoding  # 设置编码格式

10 print("抓取网页html内容如下(get请求)：")

11 # 美化爬出数据展示

12 soup = BeautifulSoup(response_get.text, "html.parser")

13 # prettify()每逢标签，自动换行

14 print(soup.prettify())

15 # 爬取信息并保存到本地方法1：

16 with open("./file/baidu.html", "w", encoding="utf-8") as f:

17     f.write(soup.prettify())

18     f.close()

19 # 爬取信息并保存到本地方法2：

20 file = open("./file/baidu1.html", "w", encoding="utf-8")

21 file.write(soup.prettify())

22 file.close()

网络爬虫Python（一）的更多相关文章

python网络爬虫-python基础（三）
python安装 Anaconda的python科学计算环境,只需要想普通软件一样安装就可以把python的环境变量.解释器.开发环境都安装到计算机中除此之外anaconda还提供众多的科学计算的包 ...
Python网络爬虫与如何爬取段子的项目实例
一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...
Python网络爬虫与信息提取笔记
直接复制粘贴笔记发现有问题文档下载地址//download.csdn.net/download/hide_on_rush/12266493 掌握定向网络数据爬取和网页解析的基本能力常用的 Pytho ...
Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
[Python] 网络爬虫和正则表达式学习总结
以前在学校做科研都是直接利用网上共享的一些数据,就像我们经常说的dataset.beachmark等等.但是,对于实际的工业需求来说,爬取网络的数据是必须的并且是首要的.最近在国内一家互联网公司实习, ...
智普教育Python培训之Python开发视频教程网络爬虫实战项目
网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 01.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 02.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Pytho ...
python之网络爬虫
一.演绎自已的北爱踏上北漂的航班,开始演奏了我自已的北京爱情故事二.爬虫1 1.网络爬虫的思路首先:指定一个url,然后打开这个url地址,读其中的内容. 其次:从读取的内容中过滤关键字:这一步 ...
读书笔记汇总 --- 用Python写网络爬虫
本系列记录并分享:学习利用Python写网络爬虫的过程. 书目信息 Link 书名: 用Python写网络爬虫作者: [澳]理查德劳森(Richard Lawson) 原版名称: web scra ...
Python即时网络爬虫项目启动说明
作为酷爱编程的老程序员,实在按耐不下这个冲动,Python真的是太火了,不断撩拨我的心. 我是对Python存有戒备之心的,想当年我基于Drupal做的系统,使用php语言,当语言升级了,推翻了老版本 ...
python Cmd实例之网络爬虫应用
python Cmd实例之网络爬虫应用标签(空格分隔): python Cmd 爬虫废话少说,直接上代码 # encoding=utf-8 import os import multiproces ...

随机推荐

SQL基本概念-SQL通用语法
SQL基本概念 1. 什么是SQL ? Structured Query Language : 结构化查询语言,其实就是定义了操作所有关系型数据库的规则.每一种数据库操作的方式存在不一样的地方,称为 ...
【OpenWRT】增加第三方开源库 - 二维码开源库 zbar
序言第一次开始写博客,在日常学习和工作当中 CSDN 给我帮助很大,因此我也在 CSDN 奉献自己的经验,借此回馈 CSDN 对我的帮助,希望自己的经验可以帮助需要的人,也方便自己后续复习之用,同时 ...
TypeScript 学习笔记 — 函数中的类型（四）
目录函数的两种声明方式可选参数默认参数剩余参数函数的重载 this 的类型对于函数主要关心的是:函数的入参类型和函数的返回值类型函数的两种声明方式通过 function 关键字来进 ...
Mybatis数据库批量操作
1:新增首先,Mysql插入一条记录返回主键对Mybatis版本要求低,而批量插入返回带主键的,需要升级到3.3.1 以及以上的版本. 1.1:Mysql 上图需要注意加入useGenerate ...
Seal 0.4 发布：软件供应链安全洞察更上一层楼！
今天,我们很高兴宣布 Seal 0.4 已正式发布!在上一个版本中,Seal 完成了从单一产品到全链路平台的转变,通过全局视图帮助用户掌握软件开发生命周期各个环节的安全状况. 在 Seal 0.4 中 ...
mybatis学习日记
1.什么是框架框架是软件开发中的一套解决方案,不同的框架解决不同的问题 2.三层架构表现层:展示数据业务层:处理业务需求持久层:与数据库交互 3.持久层解决技术 JDBC技术(JDBC是一种规 ...
P31_全局配置 - window - 设置上拉触底的距离
window 设置上拉触底的距离概念:上拉触底是移动端的专有名词,通过手指在屏幕上的上拉滑动操作,从而加载更多数据的行为. 设置步骤: app.json -> window -> 为 o ...
解决VS2019 DevExpress工具不显示问题
一.序言环境:NetFramework4.5,vs2019社区板 ,DevExpress 14.2.3 项目类型:winfrom 二.解决找到DevExpress安装路径下的Bin\Framewo ...
交叉熵损失CrossEntropyLoss
在各种深度学习框架中,我们最常用的损失函数就是交叉熵,熵是用来描述一个系统的混乱程度,通过交叉熵我们就能够确定预测数据与真实数据的相近程度.交叉熵越小,表示数据越接近真实样本. 1 分类任务的损失计算 ...
【TS】函数和函数类型
在使用函数的时候,通常会给函数传值,或者给函数一个返回值调用,这个时候就会涉及到函数类型. 函数类型分为两个方面: 1.函数参数 2.函数返回值语法: function 函数名( 参数 : 参数类型 ...

网络爬虫Python（一）

网络爬虫Python（一）的更多相关文章

随机推荐

热门专题