python3之urllib基础

urllib简单应用
html=urllib.request.urlopen(域名/网址).read().decode('utf-8')----->
--->urlopen-->获取源码
--->read()-->读取内容
--->decode('utf-8')-->将字节转换为字符串
页面的具体内容可以用正则获取

os+urllib:将网络文件下载到本地
file_path=os.path.join(os.getcwd() + '/name.html')
urllib.request.urlretrieve('域名',file_path)
urllib.requesy.urlcleanup()-->清理内存

部分函数
令 a=urllib.request.urlopen('域名')
a.info()-->获取页面简介
a.getcode()-->获取状态码
a.geturl()-->获取当前页面url

超时问题
html=urllib.request.urlopen("域名",timeout=30)-->超过对应时间则不抓取

get

quote()将关键词转码成浏览器认识的字符，默认网站不能是中文

post请求

urlencode()封装post请求提交的表单数据，参数是字典形式的键值对表单数据
Request()提交post请求，参数1是url地址，参数2是封装的表单数据

python3之urllib基础的更多相关文章

Python3中Urllib库基本使用
什么是Urllib? Python内置的HTTP请求库 urllib.request 请求模块 urllib.error 异常处理模块 urllib.par ...
python3中urllib库的request模块详解
刚刚接触爬虫,基础的东西得时时回顾才行,这么全面的帖子无论如何也得厚着脸皮转过来啊! 原帖地址:https://www.2cto.com/kf/201801/714859.html 什么是 Urlli ...
Python3中urllib详细使用方法(header,代理,超时,认证,异常处理)
urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了,我们可以利用它来抓取远程的数据进行保存哦,下面整理了一些关于urllib使用中的一些 ...
Python3学习(1)-基础篇
Python3学习(1)-基础篇 Python3学习(2)-中级篇 Python3学习(3)-高级篇安装(MAC) 直接运行: brew install python3 输入:python3 --v ...
Python3中urllib详细使用方法(header,代理,超时,认证,异常处理) 转
urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了,我们可以利用它来抓取远程的数据进行保存哦,下面整理了一些关于urllib使用中的一些 ...
Python2和Python3中urllib库中urlencode的使用注意事项
前言在Python中,我们通常使用urllib中的urlencode方法将字典编码,用于提交数据给url等操作,但是在Python2和Python3中urllib模块中所提供的urlencode的包 ...
python3: 爬虫---- urllib, beautifulsoup
最近晚上学习爬虫,首先从基本的开始: python3 将urllib,urllib2集成到urllib中了, urllib可以对指定的网页进行请求下载, beautifulsoup 可以从杂乱的ht ...
常见的爬虫分析库（1）-Python3中Urllib库基本使用
原文来自:https://www.cnblogs.com/0bug/p/8893677.html 什么是Urllib? Python内置的HTTP请求库 urllib.request ...
Python -- 网络编程 -- 认识Python3的urllib库
Python3的urllib包含5个模块 urllib error parse request response robotparser 各个模块的主要成员: error ['ContentTooSh ...

随机推荐

Django的模板变量
变量的值来自context中的数据字典, 类似于字典对象的keys到values的映射关系. 变量是被}}和{{括起来的部分变量看起来就像是这样: {{ variable }}. 当模版引擎遇到一个 ...
goweb-模板引擎
模板引擎 Go 为我们提供了 text/template 库和 html/template 库这两个模板引擎,模板引擎通过将数据和模板组合在一起生成最终的 HTML,而处理器负责调用模板引擎并将引 ...
Java 实现栈
package Test; import java.util.*; public class Stack_test { public static void main(String[] args) { ...
JavaWeb中的高级知识总结
知识结构图文件下载默认情况下,如果浏览器可以处理Content-Type响应头中指定数据类型,浏览器就会直接处理,比如显示出HTML页面(text/html),或者显示出照片(image/png) ...
第五章——Pytorch中常用的工具
2018年07月07日 17:30:40 __矮油不错哟阅读数:221 1. 数据处理数据加载 ImageFolder DataLoader加载数据 sampler:采样模块 1. 数据处理 ...
Django专题-中间件
前戏我们给视图函数加装饰器来判断是用户是否登录,把没有登录的用户请求跳转到登录页面.我们通过给几个特定视图函数加装饰器实现了这个需求.但是以后添加的视图函数可能也需要加上装饰器,这样是不是稍微有点繁 ...
个人训练记录（UPD 9.16）
本文章记录一些较难的题,摘自自己的blog中的其他文章.也有些单独成章有点浪费的题也写在里面了. 2019.7.15-2019.7.21 1182F(2900) 题意:求在区间 $[a,b]$ 中 ...
牛客-牛牛的Link Power II
题目传送门 sol:可以用线段树来维护,线段树的节点除了标配的$l$和$r$同时记录该区间$link$的个数记为$cnt$,该区间$link$点的和记为$sum$,该区间题目中所谓的能量记为$dis$ ...
筛选nginx访问日志文件中的域名
head -n 500 1.log |awk '{print $11}' > 1.txt 查看1.log日志文件前500行记录并打印出第11列也就是域名的那一列,并输出到1.txt文 ...
9.数据分组 group by
--数据分组 group by --作用:用于对查询的数据进行分组,并处理 select deptno,job from emp group by deptno,job --1.分组之后,不能将除分 ...

python3之urllib基础

python3之urllib基础的更多相关文章

随机推荐

热门专题