04 Python网络爬虫 <<爬取get/post请求的页面数据>>之requests模块

一. urllib库

　　urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse，在Python2中就是urllib和urllib2。

二.requests库

　　- 安装: pip install requests

　　- 作用: 就是用来模拟浏览器上网的

　　- 特点: 简单高效

　　- 使用流程:

　　　　　* 指定url

　　　　　* 发起请求

　　　　　* 获取响应数据

　　　　　* 持久化存储

三.爬取简单的网页

　　普通get请求

 1 # 爬取搜狗首页的页面数据

 2 import requests

 3 # 第一步指定url

 4 url = 'https://www.sogou.com/'

 5 # 第二步发送请求

 6 response = request.get(url=url)

 7 # 第三步获取响应数据

 8 page_text = response.text #text返回的是字符串类型的数据(由响应体中的content-type,也可以是json)

 9 # 第四步持久化存储

10 with open('./souhu.html','w',encoding='utf-8') as fp:

11     fp.write(page_text)

12

13 print('搜狗首页爬取完毕!!!')

　普通post请求

　　请求载体身份标识的伪装：

- User-Agent：请求载体身份标识，通过浏览器发起的请求，请求载体为浏览器，则该请求的User-Agent为浏览器的身份标识，使用爬虫程序发起的请求，则该请求的载体为爬虫程序，则该请求的User-Agent为爬虫程序的身份标识。可以通过判断该值来获知该请求的载体究竟是基于哪款浏览器还是基于爬虫程序。
- 反爬机制：某些门户网站会对访问该网站的请求中的User-Agent进行捕获和判断，如果该请求的UA为爬虫程序，则拒绝向该请求提供数据。
- 反反爬策略：将爬虫程序的UA伪装成某一款浏览器的身份标识

# 普通post请求
import requests 
import os
url = 'https://accounts.douban.com/login' 
#封装请求参数
data = { 
　　"source": "movie", 
　　"redir": "https://movie.douban.com/", 
　　"form_email": "15027900535", 
　　"form_password": "bobo@15027900535", 
　　"login": "登录", 
} 
#自定义请求头信息 
headers={ 
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
} 
response = requests.post(url=url,data=data) 
page_text = response.text with open('./douban111.html','w',encoding='utf-8') as fp: 
fp.write(page_text)

　　ajax的post请求:　　

　　　　- 爬取肯德基任意城市的位置信息

 #爬取任意城市对应的肯德基餐厅的位置信息

 #动态加载的数据

 city = input('enter a cityName:')

 url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'

 data = {

     "cname": "",

     "pid": "",

     "keyword": city,

     "pageIndex": "",

     "pageSize": "",

 }

 #UA伪装

 headers = {

     'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'

 }

 response = requests.post(url=url,headers=headers,data=data)

 json_text = response.text

 print(json_text)

　　普通post请求

　　- 爬取百度翻译输入任意内容翻译出来的结果

 #破解百度翻译

 url = 'https://fanyi.baidu.com/sug'

 word = input('enter a English word:')

 #请求参数的封装

 data = {

     'kw':word

 }

 #UA伪装

 headers = {

     'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'

 }

 response = requests.post(url=url,data=data,headers=headers)

 #text:字符串  json():对象

 obj_json = response.json()

 print(obj_json)

　　ajax的get请求

　　需求：爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据

 import requests

 import urllib.request

 if __name__ == "__main__":

     #指定ajax-get请求的url（通过抓包进行获取）

     url = 'https://movie.douban.com/j/chart/top_list?'

     #定制请求头信息，相关的头信息必须封装在字典结构中

     headers = {

         #定制请求头中的User-Agent参数，当然也可以定制请求头中其他的参数

         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',

     }

     #定制get请求携带的参数(从抓包工具中获取)

     param = {

         'type':'',

         'interval_id':'100:90',

         'action':'',

         'start':'',

         'limit':''

     }

     #发起get请求，获取响应对象

     response = requests.get(url=url,headers=headers,params=param)

     #获取响应内容：响应内容为json串

     print(response.text)

四. 爬取较难的数据

　　- 步骤分析:

　　　　1. 通过抓包工具检测出首页中的企业信息数据全部为动态加载

　　　　2. 通过抓包工具获取了动态加载数据对应的ajax的数据包（url，请求参数）

　　　　3. 通过对步骤2的url请求后获取的响应数据中分析出有一个特殊的字段ID（每家企业都有一个唯一的ID值）

　　　　4. 从手动点击企业进入企业的详情页，发现浏览器地址栏中的url中包含了该企业的ID，使用企业ID和固定的域名可以拼接成详情页的url

　　　　5. 发现详情页的企业详情信息对应的数据值是动态加载出来的。上述我们获取详情页的url是无用的。

　　　　6. 通过抓包工具的全局搜索的功能，可以定位到企业详情信息对应的ajax数据包（url，请求参数），对应的响应数据就是最终我们想要爬取的企业详情数据。

 # http://125.35.6.84:81/xk/ 爬取每家企业的企业详情数据

 import requests

 headers = {

     'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'

 }

 first_url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList'

 ids = []

 for page in range(1,11):

     data = {

         "on": "true",

         "page": str(page),

         "pageSize": "",

         "productName": "",

         "conditionType": "",

         "applyname": "",

         "applysn": "",

     }

     response = requests.post(url=first_url,data=data,headers=headers)

     #response.headers返回的是响应头信息（字典）

     if response.headers['Content-Type'] == 'application/json;charset=UTF-8':

         json_obj = response.json()

         for dic in json_obj['list']:

             ids.append(dic['ID'])

 detail_url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById'

 for _id in ids:

     data = {

         'id':_id

     }

     company_text = requests.post(detail_url,data=data,headers=headers).text

     print(company_text)

五 . 补充踩过的坑:

　　get请求参数有 url params headers

　　post请求参数 url data headers

使用urllib爬取数据请参考:https://www.cnblogs.com/bobo-zhang/p/9646634.html

04 Python网络爬虫 <<爬取get/post请求的页面数据>>之requests模块的更多相关文章

如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
如何用Python网络爬虫爬取网易云音乐歌曲
今天小编带大家一起来利用Python爬取网易云音乐,分分钟将网站上的音乐down到本地. 跟着小编运行过代码的筒子们将网易云歌词抓取下来已经不再话下了,在抓取歌词的时候在函数中传入了歌手ID和歌曲名两 ...
Python网络爬虫-爬取微博热搜
微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url=https://s.weibo.com/top/summary?Refer=top_hot&topnav=1& ...
python网络爬虫&&爬取网易云音乐
#爬取网易云音乐 url="https://music.163.com/discover/toplist" #歌单连接地址 url2 = 'http://music.163.com ...
Python网络爬虫 - 爬取中证网银行相关信息
最终版:07_中证网(Plus -Pro).py # coding=utf-8 import requests from bs4 import BeautifulSoup import io impo ...
04.Python网络爬虫之requests模块（1）
引入 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用. 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症.冗余代码症.重新发明轮子症.啃文档 ...
如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例
前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态(上)和利用Python网络爬虫爬取微信朋友圈动态——附代码(下),并且对抓取到的数据进行了Python词云和wordart可视化,感兴趣 ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

随机推荐

AsyncTaskMethodBuilder
AsyncTaskMethodBuilder Represents a builder for asynchronous methods that return a task. public stru ...
mvp解读
mvp存在的问题 1.业务复杂时,可能使得Activity变成更加复杂,比如要实现N个IView,然后写更多个模版方法. 2.业务复杂时,各个角色之间通信会变得很冗长和复杂,回调链过长. 3.Pres ...
mysql 查看库结构---查看表结构
查看库结构:SHOW DATABASES; 查看表结构: show tables即为显示当前数据库中所有的表.又如: mysql> use dbname //进入dbname库Database ...
js携带参数跳转controller返回页面
upauth:function(){ var record = myForm.getRecord(); var companywyId = record.get("companyId&quo ...
[转]html中meta作用
meta是html语言head区的一个辅助性标签.几乎所有的网页里,我们可以看到类似下面这段的html代码: <head> <meta http-equiv="cont ...
LC 712. Minimum ASCII Delete Sum for Two Strings
Given two strings s1, s2, find the lowest ASCII sum of deleted characters to make two strings equal. ...
Dialog对话框的几种方式使用实现
package com.loaderman.dialogdemo; import android.app.ProgressDialog; import android.content.DialogIn ...
numpy之数组属性与方法
# coding=utf-8import numpy as npimport random # nan是一个float类型 ,not a num不是一个数字;inf,infinite 无穷 # 轴的概 ...
druid连接池各属性说明
转: druid连接池各属性说明 2018年10月17日 04:56:57 ht_kasi 阅读数:374 版权声明: https://blog.csdn.net/ht_kasi/article/ ...
Web jsp开发学习——dbcp jsp连接MySQL出现中文乱码解决
开发过程中,通过dbcp.properties连接MySQL数据库,向数据库中插入中文字符时,出现乱码情况. 通过查阅资料,发现出现乱码的原因:MySQL数据库使用的是UTF-8编码,而dbcp.pr ...

04 Python网络爬虫 <<爬取get/post请求的页面数据>>之requests模块

04 Python网络爬虫 <<爬取get/post请求的页面数据>>之requests模块的更多相关文章

随机推荐

热门专题