requests应用

　　　　　　一、简介

什么是requests模块:

requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起请求。功能强大，用法简洁高效。在爬虫领域中占据着半壁江山的地位。

为什么要使用requests模块

因为在使用urllib模块的时候，会有诸多不便之处，总结如下：
- 手动处理url编码
- 手动处理post请求参数
- 处理cookie和代理操作繁琐
- ......
使用requests模块：
- 自动处理url编码
- 自动处理post请求参数
- 简化cookie和代理操作
- ......

　　　　　　二、使用

安装：

pip install requests

requests模块的使用流程

- 指定url
- 发起请求
- 获得响应数据
- 持久化存储

　　　　　　　　　　　　案例：

　　　　　　　　1、爬取搜狗搜索后的响应页面

import requests

url = 'https://www.sogou.com/web'

# 处理参数

wd = input("enter a word: ")

param = {

    'query':wd

}

# UA伪装

# User-Agent 请求头信息。请求载体的身份标识

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.12 Safari/537.36'

}

# 发起请求

response = requests.get(url,params=param,headers=headers)

# 获取响应数据

page_text = response.content

# 持久化存储

fileName = wd + ".html"

with open(fileName, 'wb') as f:

    f.write(page_text) 

print(f"{wd}下载成功")

　　在爬取并存储图片时urllib模块比较方便

# 使用urllib模块爬取图片

from urllib import request

url = "https://gss2.bdstatic.com/9fo3dSag_xI4khGkpoWK1HF6hhy/baike/w%3D268%3Bg%3D0/sign=081aba3563224f4a5799741531ccf76f/c83d70cf3bc79f3d423d2823b4a1cd11738b29c1.jpg"

request.urlretrieve(url=url, filename='ycy.jpg')

2、用requests模块发起post请求获取百度翻译后的结果

import requests

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.12 Safari/537.36'

}

url = 'https://fanyi.baidu.com/sug'  # ajax请求

wd = input("enter a english word: ")

# 参数的处理

data = {

    "kw": wd

}

# 发送post请求

response = requests.post(url=url,data=data,headers=headers)

# 如果确定返回的是json格式的数据，就可以直接.json拿到json对象

json_data = response.json()

print(json_data)

print(type(response.text))

3、肯德基门店查询

import requests

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.12 Safari/537.36'

}

url = "http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword"

wd = input('请输入查询地点：')

data = {

    'cname': '',

    'pid': '',

    'keyword': wd,

    'pageIndex': '1',

    'pageSize': '100',

}

json_data = requests.post(url=url, data=data, headers=headers).json()

print(json_data)

4、爬取化妆品生产许可信息管理系统服务平台http://125.35.6.84:81/xk/，每个公司详情页的数据。

需求分析：指定页面的公司，该公司的详情页数据

# 域名：http://125.35.6.84:81/xk/

import requests

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.12 Safari/537.36'

}

# 首页url

url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList'

id_list = []

start_page= int(input('起始页：'))

end_page= int(input('结束页：'))

for i in range(start_page,end_page+1):

    data = {

        'on': 'true',

        'page': str(i),

        'pageSize': '15',

        'productName':'' ,

        'conditionType': '1',

        'applyname': '',

        'applysn': '',

    }

    json_data = requests.post(url=url,data=data,headers=headers).json()

    # print(json_data)

    for item in json_data['list']:

        id_list.append(item["ID"])

# 详情页url

url2 = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById'

for id_item in id_list:

    data_id = {

        'id': id_item

    }

    json_data2 = requests.post(url=url2,data=data_id,headers=headers).json()

    print(json_data2)

requests应用的更多相关文章

requests的content与text导致lxml的解析问题
title: requests的content与text导致lxml的解析问题 date: 2015-04-29 22:49:31 categories: 经验 tags: [Python,lxml, ...
requests源码阅读学习笔记
0:此文并不想拆requests的功能,目的仅仅只是让自己以后写的代码更pythonic.可能会涉及到一部分requests的功能模块,但全看心情. 1.另一种类的初始化方式 class Reques ...
Python爬虫小白入门（二）requests库
一.前言为什么要先说Requests库呢,因为这是个功能很强大的网络请求库,可以实现跟浏览器一样发送各种HTTP请求来获取网站的数据.网络上的模块.库.包指的都是同一种东西,所以后文中可能会在不同地 ...
使用beautifulsoup与requests爬取数据
1.安装需要的库 bs4 beautifulSoup requests lxml如果使用mongodb存取数据,安装一下pymongo插件 2.常见问题 1> lxml安装问题如果遇到lxm ...
python爬虫学习(6) —— 神器 Requests
Requests 是使用 Apache2 Licensed 许可证的 HTTP 库.用 Python 编写,真正的为人类着想. Python 标准库中的 urllib2 模块提供了你所需要的大多数 H ...
ImportError: No module named 'requests'
补充说明: 当前环境是在windows环境下 python版本是:python 3.4. 刚开始学习python,一边看书一边论坛里阅读感兴趣的代码, http://www.oschina.net/c ...
Python-第三方库requests详解
Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库.它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTT ...
Requests 乱码
当使用Requests请求网页时,出现下面图片中的一些乱码,我就一脸蒙逼. 程序是这样的. def getLinks(articleUrl): headers = { "Uset-Agent ...
爬虫requests模块 2
会话对象¶ 会话对象让你能够跨请求保持某些参数.它也会在同一个 Session 实例发出的所有请求之间保持 cookie, 期间使用 urllib3 的 connection pooling 功能.所 ...
爬虫requests模块 1
让我们从一些简单的示例开始吧. 发送请求¶ 使用 Requests 发送网络请求非常简单. 一开始要导入 Requests 模块: >>> import requests 然后,尝试 ...

随机推荐

leetcode234
/** * Definition for singly-linked list. * public class ListNode { * public int val; * public ListNo ...
第三篇、Python函数
1.函数和过程的定义: 1) 函数定义:函数是逻辑结构化和过程化的一种编程方法. 2) 过程定义:过程就是简单特殊没有返回值的函数. 当一个函数/过程没有使用return显示的定义返回值时,pytho ...
通过adb启动app应用
由于某些原因,我需要自动启动雷电模拟器里面的一个应用.(利用Windows任务计划) 怎么自启动雷电模拟器就不用说了,很简单. 自启动app我倒是不熟悉,我没用安卓方面的知识.再官网论坛上面查到了相关 ...
Linux命令:mapfile
mapfile [-n 计数] [-O 起始序号] [-s 计数] [-t] [-u fd] [-C 回调] [-c 量子] [数组] 两个作用: 一是给index数组读取标准输入来赋值:二是文件描述 ...
java.util.Stack类中的peek()方法
java.util.stack类中常用的几个方法:isEmpty(),add(),remove(),contains()等各种方法都不难,但需要注意的是peek()这个方法. peek()查看栈顶的对 ...
body标签
标签(空格分隔): body标签 body标签: 想要在网页上展示出来的内容一定要放在body标签中. 把我们之前那一段HTML代码贴过来,保存到一个HTML格式的文件中. <!DOCTYPE ...
java虚拟机--->>程序计数器
程序计数器是一块较小的内存空间,他可以看做是当前线程所执行的行号指示器.在虚拟机的概念模型(仅是概念模型,各种虚拟机可能会通过一些更高效率的方式去实现)里,字节码解释器工作室就是通过改变这个计数器的值 ...
C# dns.gethostentry()获取失败，提示不存在主机
传入参数domain有误. 如果是域名,可以解析.如果是局域ip可以解析. 如果是外网,解析不成功. 解决方法: 判断传入参数是域名还是ip,如果是域名,则使用dns.gethostentry(dom ...
求树的重心 poj 1655
题目链接:https://vjudge.net/problem/POJ-1655 这个就是找树的重心,树的重心就是树里面找一个点,使得以这个点为树根的所有的子树中最大的子树节点数最小.题目应该讲的比较 ...
音频音乐播放 Service
界面效果: 界面就一个播放的Button和一个进度条SeekBar,也可以自己加上两个显示时间的TextView: 点击播放时,有音乐声音,进度条也会自动更新,Button文字变成暂停 ...

requests应用

一、简介

二、使用

案例：

1、爬取搜狗搜索后的响应页面

2、用requests模块发起post请求获取百度翻译后的结果

3、肯德基门店查询

4、爬取化妆品生产许可信息管理系统服务平台http://125.35.6.84:81/xk/，每个公司详情页的数据。

requests应用的更多相关文章

随机推荐

热门专题

　　　　　　一、简介

　　　　　　二、使用

　　　　　　　　　　　　案例：

　　　　　　　　1、爬取搜狗搜索后的响应页面