urllib的简单使用

首先需要导包
Import urllib.request

这是一个简单的网站
例如:
发起请求
Response = urlib.request.urlopen("http://www.baidu.com/")
Print(type(response))

有什么值
1. getcode（）获取状态码
2. Geturl （）获取到url（获取到网址）
3. getheaders（）获取头部信息
4. read（）读取全文（以二进制方式读取全文所以就需要解码）
5. 编码 encode ---> 字节
6. 解码 decode ----> 文本
7. 解码方式 gbk utf-8 gb2312（解码需要在meta去找）
8. 写入文件
9. With open（“baidu.com”,"w",encoding= "utf-8"）as f：
F.write(response.read().decode("utf-8"))
10. Urlretrieve 读取内容直接保存在本地（可以请求网页图片音频）（目前都需要自己在网页上找路径）
11. rsplit（）[-10-5]（从右开始切片）
构造请求
1. 如果直接访问就会暴露自己的访问的地址（user-Agent）
2. user-Agent定制写一个字典首先（在您需要访问的网页获取的这个user-Agent）
3. Req = Urllib.request.Request(url=变量名,headers = 变量名)
4. Response = Urllib.request.urlopen(req) （返回一个response）
浏览器
1. 浏览器会自动解码编码(所以浏览器中文的也能访问)
2. 如果需要汉字传参就需要自己编码了(tool.chinaz.com/tools/urlencode.aspx)即可
3. 解码的时候需要知道的是三个字节为一个汉字
4. 编码的格式
5. Urllib.parse.urlencode()(对什么编码就写在括号里面)
6. 首先需要原来的网页？F 然后在进行解码操作在俩个个路由拼接在啊一起即可
爬虫翻页
1. 翻页如果你想爬取数据的话就需要根据情况分析这个网页的规律了
2. 例如：
For page in range（1，pag+1）：
Pn =（page-1）*50
Full_url = url3 + "&pn=%s" %pn

urllib的简单使用的更多相关文章

Python3网络爬虫（1）：利用urllib进行简单的网页抓取
1.开发环境 pycharm2017.3.3 python3.5 2.网络爬虫的定义网络爬虫,也叫网络蜘蛛(web spider),如果把互联网比喻成一个蜘蛛网,spider就是一只在网上爬来爬去的 ...
2.2使用urllib的简单传输
使用urllib传输文件 from urllib.request import urlopen filename = 'new_1.py' password = 'password' #如果设置密码 ...
使用urllib编写python爬虫
新版python中,urllib和urllib2合并了,统一为urllib (1)简单爬取网页 import urllib content = urllib.request.urlopen(req). ...
urllib 源码小剖
urllib 源码小剖 urllib 是 python 内置的网络爬虫模块,如果熟悉 python 一定能很快上手使用 urllib. 写这篇文章的目的是因为用到了它,但因为用的次数较多,又或者是具体 ...
[初学Python]编写一个最简单判断SQL注入的检测工具
0x01 背景 15年那会,几乎可以说是渗透最火的一年,各种教程各种文章,本人也是有幸在那几年学到了一些皮毛,中间因学业问题将其荒废至今.当初最早学的便是,and 1=1 和 and 1=2 这最简单 ...
python（25）下载文件
利用程序自己编写下载文件挺有意思的.Python中最流行的方法就是通过Http利用urllib或者urllib2模块.当然你也可以利用ftplib从ftp站点下载文件.此外Python还提供了另外一种 ...
[转] 三种Python下载url并保存文件的代码
原文三种Python下载url并保存文件的代码利用程序自己编写下载文件挺有意思的. Python中最流行的方法就是通过Http利用urllib或者urllib2模块. 当然你也可以利用ftplib ...
python网络编程（六）---web客户端访问
1.获取web页面 urllib2 支持任何协议的工作---不仅仅是http,还包括FTP,Gopher. import urllib2 req=urllib2.Request('http://www ...
Django如何设置proxy
设置porxy的原因一般情况下我们代理设置是针对与浏览器而言,通常只需在浏览器设置中进行配置,但它只针对浏览器有效,对我们自己编写的程序并任何效果,这时就需要我们在软件编码中加入代理设置. --- ...

随机推荐

JVM——垃圾回收
目录: 如何判断垃圾是否回收? 引用计数法可达性分析算法四种引用引用队列垃圾回收算法标记清除算法复制算法标记整理算法分代垃圾回收新生代老年代 Minor GC 和 Full GC的 ...
NSArray 的创建和遍历
数组用来存贮对象的有序列表,它是不可变的不能存数C语言的基本数据类型只支持OC对象 #pragma mark Create a array //Initialize NSArray void a ...
MySQL数据分析－（14）表补充：字符集
大家好,我是jacky朱元禄,很高兴继续跟大家学习<MySQL数据分析实战>,本节课程jacky分享的主题是表补充之字符集在分享课程之前,jacky在跟大家强调一下逻辑的重要性,我们学习 ...
Liunx之MySQL安装与主从复制
MYSQL安装(mariadb) MariaDB数据库管理系统是MySQL的一个分支,主要由开源社区在维护,采用GPL授权许可. 开发这个分支的原因之一是:甲骨文公司收购了MySQL后,有将MySQL ...
Java学习日记——基础篇（一）常识
JAVA简介 Java的标准 Java是一种语言,一个平台包含JavaSE.JavaEE.JavaME三个版本 JavaSE标准版(属于Java的基础部分,可以开发C/S构架的桌面应用程序) Java ...
JavaEE三大框架的整合
JavaEE三大框架的整合 ...
LinkedBlockingQueue和ArrayBlockingQueue的异同
相同: 1.LinkedBlockingQueue和ArrayBlockingQueue都实现了BlockingQueue接口: 2.LinkedBlockingQueue和ArrayBlocking ...
IDEA 重复代码快速重构(抽取重复代码快捷键)
Ctrl+Alt+M 顺带一提,eclipse的快捷键是:Alt+Shift+M;
【Java/JDBC】借助ResultSetMetaData，从数据库表中抽取字段信息存成Excel文件
本例工程下载:https://files.cnblogs.com/files/xiandedanteng/FindNotnullColumns20191102-3.rar 工作中曾有个为42张表建立测 ...
关于hexo-abbrlink链接undefined
关于hexo-abbrlink hexo-abbrlink是一个hexo博客链接永久化的解决方案支持使用不同的算法和进制对文章链接进行转换算法进制生成链接 crc16 hex https:// ...

urllib的简单使用

urllib的简单使用的更多相关文章

随机推荐

热门专题