python爬虫爬取get请求的页面数据代码样例

废话不多说，上代码

#!/usr/bin/env python

# -*- coding:utf-8 -*-

# 导包

import urllib.request

import urllib.parse

# 如下两行代码表示忽略https证书，如果请求不是https则该两行代码可不用。

import ssl

ssl._create_default_https_context = ssl._create_unverified_context

if __name__ == "__main__":

    """指定爬取的网页URL"""

    url = 'https://www.baidu.com'

    """通过urlopen函数向指定url发起请求，返回响应对象"""

    response = urllib.request.urlopen(url)

    """通过调用相应对象中的read函数，反馈响应回客户端的数据值（爬到的数据）"""

    data = response.read()  # 获取响应中的数据值（字节类型）

    # data = response.geturl() # 获取请求的url

    # data = response.getcode() # 获取响应状态码

    # data = response.headers() # 获取响应头信息

    # data = str(data, encoding="utf-8")  # 方法一、使用str()函数将bytes类型转换为str类型

    # data = bytes.decode(data)  # 方法二、使用bytes.decode()函数将bytes类型转换为str类型

    data = response.read().decode()  # 方法三、decode()将响应中字节（byte）类型的数据值转成字符串类型

    with open('./baidu.html', 'w') as e:  #使用IO操作将data表示的数据值以'w'权限的方式写入到baidu.html文件中

        e.write(data)

    print('写入文件完毕')

"""

1、爬取网络上某张图片数据，且存储到本地

if __name__ == '__main__':

    url = 'http://image.baidu.com/search/detail?ct=503316480&z=0&ipn=d&word=%E5%9B%BE%E7%89%87&step_word=&hs=0&pn=5&spn=0&di=103290&pi=0&rn=1&tn=baiduimagedetail&is=0%2C0&istype=0&ie=utf-8&oe=utf-8&in=&cl=2&lm=-1&st=undefined&cs=3139953554%2C3011511497&os=282365737%2C413977936&simid=0%2C0&adpicid=0&lpn=0&ln=737&fr=&fmq=1564044690482_R&fm=&ic=undefined&s=undefined&hd=undefined&latest=undefined&copyright=undefined&se=&sme=&tab=0&width=undefined&height=undefined&face=undefined&ist=&jit=&cg=&bdtype=0&oriquery=&objurl=http%3A%2F%2Fpic30.nipic.com%2F20130619%2F9885883_210838271000_2.jpg&fromurl=ippr_z2C%24qAzdH3FAzdH3Fooo_z%26e3Bgtrtv_z%26e3Bv54AzdH3Ffi5oAzdH3F8AzdH3F9aAzdH3Fbdl0c0lhu9kvac8k_z%26e3Bip4s&gsm=0&rpstart=0&rpnum=0&islist=&querylist=&force=undefined'

    response = urllib.request.urlopen(url)

    data = response.read()  # 因为爬取的是图片数据值(二进制数据)，则无需使用decode进行类型转换。

    with open('./bird.jpg', 'wb') as e:  # 视频、图片等流式数据（二进制数据）使用'wb'进行写入

        e.write(data)

    print('写入完毕')

2、爬取使用百度根据指定词条搜索到的页面数据（例如爬取词条为‘蔡徐坤’的页面数据）

url的特性：url必须为ASCII编码的数据值。所以我们在爬虫代码中编写url时，如果url中存在非ASCII编码的数据值，则必须对其进行ASCII编码后，该url方可被使用

if __name__ == "__main__":

    #原始url中存在非ASCII编码的值，则该url无法被使用。

    #url = 'http://www.baidu.com/s?wd=蔡徐坤'

    #处理url中存在的非ASCII数据值

    url = 'http://www.baidu.com/s?'

    #将带有非ASCII的数据封装到字典中，url中非ASCII的数据往往都是'?'后面键值形式的请求参数

    param = {

        'wd':'蔡徐坤'

    }

    #使用parse子模块中的urlencode函数将封装好的字典中存在的非ASCII的数值进行ASCII编码

    param = urllib.parse.urlencode(param)

    #将编码后的数据和url进行整合拼接成一个完整可用的url

    url = url + param

    #伪装UA

    #将浏览器的UA数据获取，封装到一个字典中。该UA值可以通过抓包工具或者浏览器自带的开发者工具中获取某请求，从中获取UA的值

    headers={

        'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'

    }

    #自定义一个请求对象

    #参数：url为请求的url，headers为UA的值，data为post请求的请求参数（后续介绍）

    request = urllib.request.Request(url=url,headers=headers)

    #发送我们自定义的请求（该请求的UA已经进行了伪装）

    response = urllib.request.urlopen(request)

    data = response.read()

    with open('./蔡徐坤.html','wb') as e:

        e.write(data)

    print('写入文件完毕')

"""

python爬虫爬取get请求的页面数据代码样例的更多相关文章

02. 爬取get请求的页面数据
目录 02. 爬取get请求的页面数据一.urllib库二.由易到难的爬虫程序: 02. 爬取get请求的页面数据一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用 ...
爬虫（二）Python网络爬虫相关基础概念、爬取get请求的页面数据
什么是爬虫爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程. 哪些语言可以实现爬虫 1.php:可以实现爬虫.php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆 ...
Python网络爬虫第三弹《爬取get请求的页面数据》
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
Python爬虫《爬取get请求的页面数据》
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
python网络爬虫第三弹(<爬取get请求的页面数据>)
一.urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是通过代码模拟浏览器发送请求,其常被用到的子模块在 python3中的为urllib.request 和 urllib ...
python网络爬虫《爬取get请求的页面数据》
一.urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在python3中的为urllib.request和urllib. ...
Python爬虫爬取异步加载的数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:努力努力再努力爬取qq音乐歌手数据接口数据 https://y.qq ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...

随机推荐

导入一个eclipse的java项目到IDEA报Cannot find JDK '1.7' for module 'TEST'
解决办法: 右键你的项目--------------->OPen module settings 将dependencies里面的module sdk改成你安装的java版本就可以了(比如我电脑 ...
[LeetCode] 680. Valid Palindrome II 验证回文字符串 II
Given a non-empty string s, you may delete at most one character. Judge whether you can make it a pa ...
SRC漏洞挖掘
SRC目标搜集文章类的平台 https://www.anquanke.com/src 百度搜索首先得知道SRC厂商的关键字,利用脚本搜集一波. 比如[应急响应中心]就可以作为一个关键字.通过搜索引 ...
机器学习技法总结（四）（aggregation，vote，bootstrap...）
研究的动机是:我们采用了不同的模型得到T个不同的g,那么我们是不是可以通过这些不同的g的融合得到更加出色的G呢?因此,便有了以上四种不同的方法:1)(select)直接选择最好的一个作为融合的结果:2 ...
AOP+Redis锁防止表单重复提交
确保分布式锁同时满足以下四个条件 1.互斥性.在任意时刻,只有一个客户端能持有锁 2.不会发生死锁.即使有一个客户端在持有锁的期间崩溃而没有主动解锁,也能保证后续其他客户端能加锁 3.具有容错性.只要 ...
Java生成菜单树（目录树）的几种方式
本文介绍两种不同生成多级目录树的方式:1. 递归生成,2. map+list 集合生成.最下方会附上完整代码. 生成树的基本规则:子节点的par_id等于父节点的id. 1. 实体类 import ...
Nmap使用总结
参考链接: https://nmap.org/man/zh/ http://www.360doc.com/content/18/0127/18/52402560_725574428.shtml 0X0 ...
Docker简易安装及命令实例
docker ~ ~ ~ Docker 是一个开源的应用容器引擎,基于 Go 语言并遵从Apache2.0协议开源. Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级.可移植的容器中, ...
BZOJ5104 Fib数列二次剩余、BSGS
传送门发现只有通项公式可以解决考虑通项公式 \(F_n = \frac{1}{\sqrt{5}}((\frac{1+\sqrt{5}}{2})^n - (\frac{1-\sqrt{5}}{2})^ ...
启动Spring boot项目报错：java.lang.IllegalArgumentException: LoggerFactory is not a Logback
java.lang.IllegalArgumentException: LoggerFactory is not a Logback LoggerContext but Logback is on t ...

python爬虫爬取get请求的页面数据代码样例

python爬虫爬取get请求的页面数据代码样例的更多相关文章

随机推荐

热门专题