（二）requests模块

一 requests模块

概念:
- python中原生的基于网络请求的模块,模拟浏览器进行请求发送,获取页面数据
安装: pip install requests

二 requests使用的步骤

1 指定url
2 基于requests模块请求发送
3 获取响应对象中的数据值(text)
4 持久化储存

三反反爬

1 设置ip
2 设置UA

import requests

word = input('请你输入你要查的词')

url = 'https://www.sogou.com/web?'

params = {

    'query': word

}

heards = {

'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

}

response = requests.get(url=url, params=params,heards=heards,proxies={'https': '62.103.68.8:8080'}) ######UA  和   IP

page_tail = response.text

filename = word + '.html'

with open(filename, 'w', encoding='utf-8') as f:

    f.write(page_tail)

四示例

No.1基于requests模块的get请求

需求1：爬取搜狗首页的页面数据

import requests

# 1 指定url

url = 'https://www.sogou.com/'

# 2 基于ruquests模块发送请求

response = requests.get(url=url)

# 3 获取响应对象的数据值

page_text = response.text

# 4 持久化存储

with open('./sogou.html','w',encoding='utf-8') as f:

    f.write(page_text)

注意: 对于上面的代码

response.content             返回二进制的页面数据

response.headers             返回响应头信息

response.status_code         返回响应200

response.url                 返回是地址

response.encoding            返回的是响应对象中存储数据的原始编码程序

需求2:爬取搜狗指定词搜索后的页面数据

import requests

word = input('请你输入你要查的词')

url = 'https://www.sogou.com/web'

param = {

    'query': word

}

response = requests.get(url=url, params=param)

page_text = response.text

filename = word+'.html'

with open(filename, 'w', encoding='utf-8') as f:

    f.write(page_text)

No.2基于requests模块的post请求

需求3:登录豆瓣电影，爬取登录成功后的页面数据

# 依照我们上面所说的步骤
import requests

url = 'https://www.douban.com/accounts/login'

data = {                             # 在浏览器中找

    "source": "index_nav",

    "form_email": "xxxxxxxxx",

    "form_password": "xxxxxxxxx"

}

response = requests.post(url=url,data=data)

page_text = response.text

with open('douban.html', 'w', encoding='utf-8') as f:

    f.write(page_text)

需求4：

基于requests模块ajax的get请求-------爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据

import requests

url = 'https://movie.douban.com/j/chart/top_list?'

param = {                               #携带的数据

    'type': '',

    'interval_id': '100:90',

    'action': '',

    'start': '',

    'limit': '',

}

response = requests.get(url=url, params=param})

print(response.text)

需求5:基于requests模块ajax的post请求-------------------------爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅数据

import requests

url = ' http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'

city = input('请输入你要查的城市')

data = {

    'cname': '',

    'pid': '',

    'keyword': city,

    'pageIndex': '',

    'pageSize': '',

}

response = requests.post(url=url, data=data)

print(response.text)

需求6:简单的爬取博客园前几页

import requests

import os

url = 'https://www.cnblogs.com/#p'

if not os.path.exists('boke'):

    os.mkdir('boke')

start_page = int(input('enter a start page:'))

end_page = int(input('enter a end page:'))

for page in range(start_page, end_page + 1):

    url = url + str(page)

    response = requests.get(url=url, proxies={'https': '62.103.68.8:8080'})

    page_text = response.text

    fileName = str(page) + '.html'

    filePath = './boke/' + fileName

    with open(filePath, 'w', encoding='utf-8') as f:

        f.write(page_text)

        print('第%s页打印' % page)

# 根据实际情况   本段代码所保存的html,是同一个(第一页的内容),
# 我们从页面抓包可以知道,它在第二页的时候发送了一个post请求

import requests

import os

url = "http://www.cnblogs.com/mvc/AggSite/PostList.aspx"      # url

if not os.path.exists('boke'):

    os.mkdir('boke')

start_page = int(input('enter a start page:'))

end_page = int(input('enter a end page:'))

for page in range(start_page, end_page+1):

    data = {

        "CategoryType": "SiteHome",

        "ParentCategoryId": 0,

        "CategoryId": 808,

        "PageIndex": page,

        "TotalPostCount": 4000,

        "ItemListActionName": "PostList"

    }

    res = requests.post(url=url, data=data, verify=False)

    page_text = res.text

    fileName = str(page) + '.html'

    filePath = './boke/' + fileName

    with open(filePath, 'w', encoding='gbk') as f:

        f.write(page_text)

        print('第%s页打印' % page)

（二）requests模块的更多相关文章

Python 爬虫二 requests模块
requests模块 Requests模块 get方法请求整体演示一下: import requests response = requests.get("https://www.baid ...
爬虫二 requests模块的使用
一.requests模块的介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:reques ...
python网络爬虫之二requests模块
requests http请求库 requests是基于python内置的urllib3来编写的,它比urllib更加方便,特别是在添加headers, post请求,以及cookies的设置上,处理 ...
爬虫——requests模块
一爬虫简介 #1.什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样. #2.互联网建立的目的? 互联网的核心价值在于数据的共享/传递:数据是 ...
爬虫学习（二）requests模块的使用
一.requests的概述 requests模块是用于发送网络请求,返回响应数据.底层实现是urllib,而且简单易用,在python2.python3中通用,能够自动帮助我们解压(gzip压缩的等) ...
requests模块--python发送http请求
requests模块在Python内置模块(urllib.urllib2.httplib)的基础上进行了高度的封装,从而使得Pythoner更好的进行http请求,使用Requests可以轻而易举的 ...
python爬虫之requests模块介绍
介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页内容下 ...
爬虫 requests模块的其他用法抽屉网线程池回调爬取+保存实例,gihub登陆实例
requests模块的其他用法 #通常我们在发送请求时都需要带上请求头,请求头是将自身伪装成浏览器的关键,常见的有用的请求头如下 Host Referer #大型网站通常都会根据该参数判断请求的来源 ...
爬虫 requests 模块
requests 模块介绍使用requests可以模拟浏览器的请求, 比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) ps: requests库发 ...

随机推荐

LeetCode 1025. Divisor Game
题目链接:https://leetcode.com/problems/divisor-game/ 题意:Alice和Bob玩一个游戏,Alice先开始.最初,黑板上有一个数字N.每一轮,选手首先需要选 ...
java并发：初探消费者和生产者模式
消费者和生产者模式用继承Thread方式,用wait和notifyAll方法实现. 消费者和生产者模式的特点 1. 什么时候生产:仓库没有满的时候,生产者这可以生产,消费者也可以消费,仓库满的时候停 ...
JS echarts统计
柱状图 function drawbarFunc(xs, ys) { //var xs1 = []; //var ys1 = []; require.config({ paths: { echarts ...
webpack配置自动打包重新运行npm run dev出现报错
webpack配置自动打包重新运行npm run dev出现报错运行npm run dev出现如下报错 Listening at http://localhost:8080(node:2328) U ...
[题解 LuoguP4491 [HAOI2018]染色
传送门神仙计数题 Orz 先令$F[k]$表示出现次数恰好为$S$次的颜色恰好有$k$中的方案数,那么 \[Ans=\sum\limits_{i=0}^mW_iF[i]\] 怎么求\(F ...
十五 JSP开发模式&MVC设计模式
JSP开发模式: JavaBean + JSP : 缺点:页面代码过多,不利于维护,JSP页面代码变得臃肿 Servlet + JavaBean + JSP :MVC设计模式 M:model 模 ...
性能测试中TPS上不去的几种原因
性能测试中TPS上不去的几种原因什么叫TPS: TPS(Transaction Per Second):每秒事务数,指服务器在单位时间内(秒)可以处理的事务数量,一般以request/second为 ...
Network Policy【转】
Network Policy 是 Kubernetes 的一种资源.Network Policy 通过 Label 选择 Pod,并指定其他 Pod 或外界如何与这些 Pod 通信. 默认情况下,所有 ...
SQLSERVER|CDC 日志变更捕获机制
先说一下什么是cdc ,cdc 变更数据捕获(Change Data Capture ,简称 CDC)记录 SQL Server 表的插入.更新和删除活动.SQLServer的操作会写日志,这也是CD ...
MySQL 批量更新、删除数据shell脚本
#!/bin/bash. ~/.bash_profilelog=/tmp/update_log_1_$(date +%F).logvstart=1step=100vstop=$((${vstart}+ ...

（二）requests模块

一 requests模块

二 requests使用的步骤

三 反反爬

四 示例

（二）requests模块的更多相关文章

随机推荐

热门专题

三反反爬

四示例