requests模块学习

- 基于如下5点展开requests模块的学习

什么是requests模块
- requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起请求。功能强大，用法简洁高效。在爬虫领域中占据着半壁江山的地位。
为什么要使用requests模块
- 因为在使用urllib模块的时候，会有诸多不便之处，总结如下：
  - 手动处理url编码
  - 手动处理post请求参数
  - 处理cookie和代理操作繁琐
  - ......
- 使用requests模块：
  - 自动处理url编码
  - 自动处理post请求参数
  - 简化cookie和代理操作
  - ......
如何使用requests模块
- 安装：
  - pip install requests
- 使用流程
  - 指定url
  - 基于requests模块发起请求
  - 获取响应对象中的数据值
  - 持久化存储
通过5个基于requests模块的爬虫项目对该模块进行学习和巩固
- 基于requests模块的get请求
  - 需求：爬取搜狗指定词条搜索后的页面数据
- 基于requests模块的post请求
  - 需求：登录豆瓣电影，爬取登录成功后的页面数据
- 基于requests模块ajax的get请求
  - 需求：爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据
- 基于requests模块ajax的post请求
  - 需求：爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅数据
  - http://www.kfc.com.cn/kfccda/storelist/index.aspx
- 综合练习
  - 需求：爬取搜狗知乎指定词条指定页码下的页面数据

requests返回值常用属性

import requests

url='https://www.sogou.com/'

response = requests.get(url=url)

page_data = response.text

# content获取的是response对象中的二进制（byte）类型的页面数据

print(response.content)

# 返回一个响应状态码

print(response.status_code)

# 返回响应头信息

print(response.headers)

# 获取请求的url

print(response.url)

- 代码展示

需求：爬取搜狗指定词条搜索后的页面数据

import requests

url = 'https://www.sogou.com/web?query=周杰伦&ie=utf-8'

response = requests.get(url=url)

page_text = response.text

with open('./sougou.html','w',encoding='utf-8') as fp:

    fp.write(page_text)

import requests

import os

#指定搜索关键字

word = input('enter a word you want to search:')

#自定义请求头信息

headers={

    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',

    }

#指定url

url = 'https://www.sogou.com/web'

#封装get请求参数

prams = {

    'query':word,

    'ie':'utf-8'

}

#发起请求

response = requests.get(url=url,params=param)

#获取响应数据

page_text = response.text

with open('./sougou.html','w',encoding='utf-8') as fp:

    fp.write(page_text)

需求：登录豆瓣电影，爬取登录成功后的页面数据

import requests

import os

url = 'https://accounts.douban.com/login'

#封装请求参数

data = {

    "source": "movie",

    "redir": "https://movie.douban.com/",

    "form_email": "15027900535",

    "form_password": "bobo@15027900535",

    "login": "登录",

}

#自定义请求头信息

headers={

    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',

    }

response = requests.post(url=url,data=data)

page_text = response.text

with open('./douban111.html','w',encoding='utf-8') as fp:

    fp.write(page_text)

需求：爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import requests

import urllib.request

if __name__ == "__main__":

    #指定ajax-get请求的url（通过抓包进行获取）

    url = 'https://movie.douban.com/j/chart/top_list?'

    #定制请求头信息，相关的头信息必须封装在字典结构中

    headers = {

        #定制请求头中的User-Agent参数，当然也可以定制请求头中其他的参数

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',

    }

    #定制get请求携带的参数(从抓包工具中获取)

    param = {

        'type':'5',

        'interval_id':'100:90',

        'action':'',

        'start':'0',

        'limit':'20'

    }

    #发起get请求，获取响应对象

    response = requests.get(url=url,headers=headers,params=param)

    #获取响应内容：响应内容为json串

    print(response.text)

需求：爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅数据

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import requests

import urllib.request

if __name__ == "__main__":

    #指定ajax-post请求的url（通过抓包进行获取）

    url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'

    #定制请求头信息，相关的头信息必须封装在字典结构中

    headers = {

        #定制请求头中的User-Agent参数，当然也可以定制请求头中其他的参数

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',

    }

    #定制post请求携带的参数(从抓包工具中获取)

    data = {

        'cname':'',

        'pid':'',

        'keyword':'北京',

        'pageIndex': '1',

        'pageSize': '10'

    }

    #发起post请求，获取响应对象

    response = requests.get(url=url,headers=headers,data=data)

    #获取响应内容：响应内容为json串

    print(response.text)

需求：爬取搜狗知乎指定词条指定页码下的页面数据

import requests

import os

#指定搜索关键字

word = input('enter a word you want to search:')

#指定起始页码

start_page = int(input('enter start page num:'))

end_page = int(input('enter end page num:'))

#自定义请求头信息

headers={

    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',

    }

#指定url

url = 'https://zhihu.sogou.com/zhihu'

#创建文件夹

if not os.path.exists('./sougou'):

    os.mkdir('./sougou')

for page in range(start_page,end_page+1):

    #封装get请求参数

    params = {

        'query':word,

        'ie':'utf-8',

        'page':str(page)

    }

    #发起post请求，获取响应对象

    response = requests.get(url=url,params=params)

    #获取页面数据

    page_text = response.text

    fileName = word+'_'+str(page)+'.html'

    filePath = './sougou/'+fileName

    with open(filePath,'w',encoding='utf-8') as fp:

        fp.write(page_text)

        print('爬取'+str(page)+'页结束')

需求：微博登录

# 这种登陆方式是参考别的网友的，虽然效率很高，但我觉得普适性不强

import time

import base64

import rsa

import math

import random

import binascii

import requests

import re

from urllib.parse import quote_plus

from code_verification import code_verificate

# 构造 Request headers

agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'

cookie = 'SINAGLOBAL=4474016812274.648.1551834025909; Ugrow-G0=e66b2e50a7e7f417f6cc12eec600f517; login_sid_t=4155ebc7ff7585d4cb8b72f5606940c9; cross_origin_proto=SSL; YF-V5-G0=da1eb9ea7ccc47f9e865137ccb4cf9f3; _s_tentry=passport.weibo.com; Apache=2362810556711.141.1552442918345; ULV=1552442918361:2:2:1:2362810556711.141.1552442918345:1551834025935; WBtopGlobal_register_version=ae9a9ec008078a68; un=18301386736; YF-Page-G0=140ad66ad7317901fc818d7fd7743564; UOR=vjudge.net,widget.weibo.com,login.sina.com.cn; TC-V5-G0=b993e9b6e353749ed3459e1837a0ae89; TC-Page-G0=45685168db6903150ce64a1b7437dbbb; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W5_Eisgje0ZlIg_NsklAL7I5JpX5K2hUgL.FoM7e054So.Ee0q2dJLoIp7LxKML1KBLBKnLxKqL1hnLBoMESheReKzfehqc; SCF=Aqjpvvx8Bbc0McLP1gE6KUoWNHFOzdA7-lIGd4nYy09L5SNxg2aaU8WG1oV1A6QNZB4DWWnkJABYucqfe0hhomQ.; SUB=_2A25xjM37DeRhGeFO6FIY9ifOyDqIHXVS-7gzrDV8PUNbmtAKLRjWkW9NQWM3Io3wOsFpIJ1BUaHJtRVTa3YkPDam; SUHB=0YhRTIYRErWBOm; wvr=6; wb_view_log_7030969236=1366*7681; webim_unReadCount=%7B%22time%22%3A1552521886375%2C%22dm_pub_total%22%3A0%2C%22chat_group_pc%22%3A0%2C%22allcountNum%22%3A9%2C%22msgbox%22%3A0%7D'

headers = {

    'User-Agent': agent,

    'Cookie': cookie,

}

session = requests.session()

# 访问 初始页面带上 cookie

index_url = "http://weibo.com/login.php"

yundama_username = ''

yundama_password = ''

verify_code_path = './pincode.png'

def get_pincode_url(pcid):

    size = 0

    url = "http://login.sina.com.cn/cgi/pin.php"

    pincode_url = '{}?r={}&s={}&p={}'.format(url, math.floor(random.random() * 100000000), size, pcid)

    return pincode_url

def get_img(url):

    resp = requests.get(url, headers=headers, stream=True)

    with open(verify_code_path, 'wb') as f:

        for chunk in resp.iter_content(1000):

            f.write(chunk)

def get_su(username):

    """

    对 email 地址和手机号码 先 javascript 中 encodeURIComponent

    对应 Python 3 中的是 urllib.parse.quote_plus

    然后在 base64 加密后decode

    """

    username_quote = quote_plus(username)

    username_base64 = base64.b64encode(username_quote.encode("utf-8"))

    return username_base64.decode("utf-8")

# 预登陆获得 servertime, nonce, pubkey, rsakv

def get_server_data(su):

    pre_url = "http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su="

    pre_url = pre_url + su + "&rsakt=mod&checkpin=1&client=ssologin.js(v1.4.18)&_="

    prelogin_url = pre_url + str(int(time.time() * 1000))

    pre_data_res = session.get(prelogin_url, headers=headers)

    sever_data = eval(pre_data_res.content.decode("utf-8").replace("sinaSSOController.preloginCallBack", ''))

    return sever_data

# 这一段用户加密密码，需要参考加密文件

def get_password(password, servertime, nonce, pubkey):

    rsaPublickey = int(pubkey, 16)

    key = rsa.PublicKey(rsaPublickey, 65537)  # 创建公钥,

    message = str(servertime) + '\t' + str(nonce) + '\n' + str(password)  # 拼接明文js加密文件中得到

    message = message.encode("utf-8")

    passwd = rsa.encrypt(message, key)  # 加密

    passwd = binascii.b2a_hex(passwd)  # 将加密信息转换为16进制。

    return passwd

def login(username, password):

    # su 是加密后的用户名

    su = get_su(username)

    sever_data = get_server_data(su)

    servertime = sever_data["servertime"]

    nonce = sever_data['nonce']

    rsakv = sever_data["rsakv"]

    pubkey = sever_data["pubkey"]

    password_secret = get_password(password, servertime, nonce, pubkey)

    postdata = {

        'entry': 'weibo',

        'gateway': '1',

        'from': '',

        'savestate': '7',

        'useticket': '1',

        'pagerefer': "http://login.sina.com.cn/sso/logout.php?entry=miniblog&r=http%3A%2F%2Fweibo.com%2Flogout.php%3Fbackurl",

        'vsnf': '1',

        'su': su,

        'service': 'miniblog',

        'servertime': servertime,

        'nonce': nonce,

        'pwencode': 'rsa2',

        'rsakv': rsakv,

        'sp': password_secret,

        'sr': '1366*768',

        'encoding': 'UTF-8',

        'prelt': '115',

        'url': 'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack',

        'returntype': 'META'

        }

    need_pin = sever_data['showpin']

    if need_pin == 1:

        # 你也可以改为手动填写验证码

        if not yundama_username:

            raise Exception('由于本次登录需要验证码，请配置顶部位置云打码的用户名{}和及相关密码'.format(yundama_username))

        pcid = sever_data['pcid']

        postdata['pcid'] = pcid

        img_url = get_pincode_url(pcid)

        get_img(img_url)

        verify_code = code_verificate(yundama_username, yundama_password, verify_code_path)

        postdata['door'] = verify_code

    login_url = 'http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.18)'

    login_page = session.post(login_url, data=postdata, headers=headers)

    login_loop = (login_page.content.decode("GBK"))

    pa = r'location\.replace\([\'"](.*?)[\'"]\)'

    loop_url = re.findall(pa, login_loop)[0]

    login_index = session.get(loop_url, headers=headers)

    uuid = login_index.text

    uuid_pa = r'"uniqueid":"(.*?)"'

    uuid_res = re.findall(uuid_pa, uuid, re.S)[0]

    web_weibo_url = "http://weibo.com/%s/profile?topnav=1&wvr=6&is_all=1" % uuid_res

    weibo_page = session.get(web_weibo_url, headers=headers)

    weibo_pa = r'<title>(.*?)</title>'

    user_name = re.findall(weibo_pa, weibo_page.content.decode("utf-8", 'ignore'), re.S)[0]

    print('登陆成功，你的用户名为：'+user_name)

    print(uuid_res)

    print(uuid)

#     #   保存首页的数据

#     web_weibo_url22= r'"redirect":"(.*?)"'

#     uuid_res22 = re.findall(web_weibo_url22, uuid, re.S)[0]

#     uuid_res22 = uuid_res22.replace("\\",'')

#     print(uuid_res22)

#     print(loop_url)

#     response = requests.get(url='https://weibo.com/u/7030969236/home',headers=headers)

#     print(time.ctime())

#     time.sleep(2)

#     print(time.ctime())

#     print(response.content)

#     print('---------------------------------------------------------------------------------------------------------------------')

#     print(response.text)

#     page_content = response.content

#     page_text = response.text

#     page_text1= r'"html":"(.*?)"'

#     page_text1 = re.findall(page_text1, page_text, re.S)

#     for i in page_text1:

#         print(i)

#     with open('./douban111.html','wb') as fp:

#         fp.write( page_content)

#     with open('./weibo.html','w',encoding='utf-8') as fp:

#         fp.write( page_text)

if __name__ == "__main__":

    username = input('微博用户名：')

    password = input('微博密码：')

    login(username, password)

需求：肯德基数据爬取并存入csv中（表格形式）

import requests

import json

import csv

url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'

agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'

headers = {

    'User-Agent': agent,

}

city = input('城市名：')

size = input('结束页：')

data={

    'cname':'' ,

    'pid': '',

    'keyword': city,

    'pageIndex': '1',

    'pageSize': size,

}

response = requests.post(url,data=data,headers=headers)

print(response.text)

dict_text = json.loads(response.text)

# print(type(dict_text))

dict_list = dict_text.get('Table1')

fileName = './kdj.csv'

# # 把数据键值对n列写入csv

# with open(fileName, "w", newline="") as csvFile:

#     csvWriter = csv.writer(csvFile)

#     for data_di in dict_list:

#         for k,v in data_di.items():

#             csvWriter.writerow([k,v])

#     csvFile.close()

# 把数据写入csv，表格形式

with open(fileName ,'w',newline='') as csvf:

    fieldnames=['rownum','storeName','addressDetail','pro','provinceName','cityName']

    writer=csv.DictWriter(csvf,fieldnames=fieldnames)

    writer.writeheader()

#     writer.writerow({'id':1,'name':'lisii','age':22,'date':20180627})

    writer.writerows(dict_list)

requests模块学习的更多相关文章

爬虫--requests模块学习
requests模块 - 基于如下5点展开requests模块的学习什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求.功能 ...
Python requests模块学习笔记
目录 Requests模块说明 Requests模块安装 Requests模块简单入门 Requests示例参考文档 1.Requests模块说明 Requests 是使用 Apache2 Li ...
爬虫入门之Requests模块学习(四)
1 Requests模块解析 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用 Requests 继承了urllib2的所有特性.Requests支持HTTP连接保 ...
python爬虫:爬虫的简单介绍及requests模块的简单使用
python爬虫:爬虫的简单介绍及requests模块的简单使用一点点的建议: (学习爬虫前建议先去了解一下前端的知识,不要求很熟悉,差不多入门即可学习爬虫,如果有不了解的,我也会补充个一些小知识. ...
Python学习---爬虫学习[requests模块]180411
模块安装安装requests模块 pip3 install requests 安装beautifulsoup4模块 [更多参考]https://blog.csdn.net/sunhuaqiang1/ ...
python学习笔记（十八）网络编程之requests模块
上篇博客中我们使用python自带的urllib模块去请求一个网站,或者接口,但是urllib模块太麻烦了,传参数的话,都得是bytes类型,返回数据也是bytes类型,还得解码,想直接把返回结果拿出 ...
爬虫学习笔记（三）requests模块使用
前面在说爬虫原理的时候说了,就写代码自动化的获取数据,保存下来数据,那怎么写代码来请求一个网址,获取结果呢,就得用requests模块了. 这篇博客说一下requests模块的使用,requests模 ...
python学习笔记：网络请求——requests模块
上面讲过的urllib模块太麻烦了,还有一个比较方便的模块,就是requests模块,好用到你怀疑人生·^_^,一定要会哦需要安装,pip install requests即可,下面是request ...
爬虫学习（二）requests模块的使用
一.requests的概述 requests模块是用于发送网络请求,返回响应数据.底层实现是urllib,而且简单易用,在python2.python3中通用,能够自动帮助我们解压(gzip压缩的等) ...

随机推荐

IDEA基本設置
2.界面字体大小设置 File菜单->Settings->Appearance->Override default fonts by(not recommended):Name:宋体 ...
learnopengl“入门”的全部代码
projection 里的角度,角度越大,物体离摄像机越远:角度越小,物体离摄像机越近,这个角度表示视野(fov),视野越大,看到的物体就越小头文件 #ifndef SHADER_H_INCLUDE ...
[C++]String::find
一.定义 string (1) size_t find (const string& str, size_t pos = 0) const; c-string (2) size_t find ...
PyCharm 链接MySQL 数据库
1.View -> Tool Windows-Database; 2.添加数据源: 3.配置数据库的驱动信息: 4.设置驱动文件,勾选“Use Provided driver MySQL Con ...
深入理解ASP.NET MVC（7）
系列目录 Action的定位再次回到Controller的ExecuteCore方法,回到action调用的入口: 1 if (!ActionInvoker.InvokeAction(Control ...
单机RedHat6.5+JDK1.8+Hadoop2.7.3+Spark2.1.1+zookeeper3.4.6+kafka2.11+flume1.6环境搭建步骤
1.RHEL 6.5系统安装配置图解教程(rhel-server-6.5) 2.在Linux下安装JDK图文解析 3.RedHat6.5上安装Hadoop单机 4.RedHat6.5安装Spark单机 ...
浅析Hyperledger Fabric共识算法摘自http://www.cocoachina.com/blockchain/20180829/24728.html
Hyperledger Fabric共识算法区块链系统是一个分布式架构,交易账本信息由各个节点管理,组成一个庞大的分布式账本.在分布式系统中,各个节点收到的交易信息的顺序可能存在差异(例如,网络延迟 ...
Linux/Centos下安装部署phantomjs 及使用
PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API.它全面支持web而不需浏览器支持,其快速,原生支持各种Web标准: DOM 处理, CSS 选择器, JSON, ...
Azure 认知服务 (3) 计算机视觉API - 分析图像，使用C#代码
<Windows Azure Platform 系列文章目录> 在上一节中Azure 认知服务 (2) 计算机视觉API - 分析图像,笔者介绍了如何使用API测试控制台进行调试. 本章将 ...
<亲测>CentOS7 安装mysql8.0（YUM方式）
CentOS7 安装mysql(YUM方式) 1.下载mysql源安装包 shell> wget http://dev.mysql.com/get/mysql80-community-rel ...

requests模块学习

- 基于如下5点展开requests模块的学习

什么是requests模块

为什么要使用requests模块

如何使用requests模块

通过5个基于requests模块的爬虫项目对该模块进行学习和巩固

- 代码展示

需求：爬取搜狗指定词条搜索后的页面数据

需求：登录豆瓣电影，爬取登录成功后的页面数据

需求：爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据

需求：爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅数据

需求：爬取搜狗知乎指定词条指定页码下的页面数据

需求：微博登录

需求： 肯德基数据爬取并存入csv中（表格形式）

requests模块学习的更多相关文章

随机推荐

热门专题

需求：肯德基数据爬取并存入csv中（表格形式）