1.Python爬虫入门

 #2019-11-22

 import urllib.request #Pthon自带的网络连接库

 import gzip #解压缩库

 #程序入口

 if __name__=='__main__':

     #url:我们要爬取的网址

     url='http://www.qq.com/'  #腾讯qq的网页代码进行了压缩,而且编码格式为gbk

     #response:特定网址返回的数据,response接收的是一个对象实例

     response=urllib.request.urlopen(url) #发起请求,百度服务器会有响应

     #1.response          #<class 'http.client.HTTPResponse'>

     #2.response.info()    存储响应报文(可通过str()方法转为字符串), #http.client.HTTPMessage,报文头中无编码,默认编码为UTF-8

     #3.response.getcode()  响应码(int类型),比如访问成功,访问码为200,无法访问为404

     #4.response.read()   网页代码,字节形式,可用decode()解码

     print(type(response))

     print(response.info())

     print(type(response.info()))

     print(response.getcode())

     #print(response.read())

     temp=response.read()

     data=gzip.decompress(temp) #zip解压

     data=data.decode('gbk') #gbk解码

应一个邻居姐姐的要求,她做设计需要图片素材,

而素材非常难找有些还要收费,所以她找上了我,

我想着平时也没空搞,借着这个机会学习一下 !

1.Python爬虫入门_urllib的更多相关文章

Python爬虫入门一之综述
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Pyth ...
python爬虫入门-开发环境与小例子
python爬虫入门开发环境 ubuntu 16.04 sublime pycharm requests库 requests库安装: sudo pip install requests 第一个例子 ...
Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
1. Python爬虫入门教程爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...
Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
Python爬虫入门之正则表达式
在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式! 1.了解正则表达式正则表达式是对字符串操作的 ...
Python爬虫入门之Cookie的使用
本节我们一起来看一下Cookie的使用. 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份.进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要 ...
Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
Python爬虫入门之Urllib库的基本使用
那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧. 1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解 ...

随机推荐

netperf 网络测试工具
软件介绍: netperf是惠普公司开源的一款针对网络性能的测试工具,主要基于TCP或UDP的传输.根据应用的不同,可以进行批量数据传输(bulk data transfer)模式和请求/应答(req ...
java直接存取MS Access的mdb数据库文件
jdbc 访问 access 的 mdb 数据库文件,使用一个叫ucanaccess的开发包实现这个功能. "Supported Access formats: 2000,2002/2003 ...
Re-py交易
python在线反编译 https://tool.lu/pyc/ 获得源码 import base64 def encode(message): s = '' for i in message: x ...
第三章 HTTP报文中的HTTP信息
第三章 HTTP报文中的HTTP信息 HTTP通信过程:客户端—>服务端,服务端—>客户端. 1.HTTP报文使用HTTP协议交互的信息被称为HTTP报文,包括请求报文和响应报文. [请 ...
【python爬虫】requests模块
文档:从 pythoneer 到 pythonista 的100个模块链接:http://note.youdao.com/noteshare?id=2b95bb3651c21af80ca1936f8 ...
iptraf: command not found
在Linux上安装iptraf,然后执行命令时报错,iptraf: command not found 解决办法:iptraf-ng包的二进制文件是iptraf-ng.使用命令iptraf-ng即可 ...
Codeforces Round #594 (Div. 1) A. Ivan the Fool and the Probability Theory 动态规划
A. Ivan the Fool and the Probability Theory Recently Ivan the Fool decided to become smarter and stu ...
AtCoder Grand Contest 039
Preface 我发现我现在打AT真的是只会D-Before-- E,F都是抄曲明姐姐的,然后D还是几何画板猜结论做的(证明都是陈指导想的) 看来再这样下去就真的要退役了啊233 A - Connec ...
TensorFlow2教程（目录）
第一篇基本操作 01 Tensor数据类型 02 创建Tensor 03 Tensor索引和切片 04 维度变换 05 Broadcasting 06 数学运算 07 前向传播(张量)- 实战第二 ...
python做中学（六）os.getcwd() 的用法
概述 os.getcwd() 方法用于返回当前工作目录. 语法 getcwd()方法语法格式如下: os.getcwd() 参数无返回值返回当前进程的工作目录. 实例以下实例演示了 getcw ...

1.Python爬虫入门_urllib

1.Python爬虫入门_urllib的更多相关文章

随机推荐

热门专题