python基础篇-爬虫urlparse使用及简单示例

>>> from urllib.parse import urlparse

>>> o = urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')

>>> o

ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',

            params='', query='', fragment='')

>>> o.scheme

'http'

>>> o.port

80

>>> o.geturl()

'http://www.cwi.nl:80/%7Eguido/Python.html'

>>> from urllib.parse import urlparse

 >>> urlparse('//www.cwi.nl:80/%7Eguido/Python.html')

 ParseResult(scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html',

            params='', query='', fragment='')

 >>> urlparse('www.cwi.nl/%7Eguido/Python.html')

 ParseResult(scheme='', netloc='', path='www.cwi.nl/%7Eguido/Python.html',

            params='', query='', fragment='')

 >>> urlparse('help/Python.html')

 ParseResult(scheme='', netloc='', path='help/Python.html', params='',

            query='', fragment='')

Attribute	Index	Value	Value if not present
`scheme`	0	URL scheme specifier	scheme parameter
`netloc`	1	Network location part	empty string
`path`	2	Hierarchical path	empty string
`params`	3	Parameters for last path element	empty string
`query`	4	Query component	empty string
`fragment`	5	Fragment identifier	empty string
`username`		User name	`None`
`password`		Password	`None`
`hostname`		Host name (lower case)	`None`
`port`		Port number as integer, if present	`None`

>>>from urllib.parse import urljoin

>>>urljoin('http://www.cwi.nl/%7Eguido/Python.html', 'FAQ.html')
'http://www.cwi.nl/%7Eguido/FAQ.html'

>>> urljoin('http://www.cwi.nl/%7Eguido/Python.html',

...         '//www.python.org/%7Eguido')

'http://www.python.org/%7Eguido'

>>>urllib.request.quote('http://www.baidu.com')

'http%3A//www.baidu.com'

>>>urllib.request.unquote('http%3A//www.baidu.com')

'http://www.baidu.com'

简单的demo示例

思路如下：

爬取一个网页并将爬取到的内容读取出来赋给一个变量。
以写入的方式打开一个本地文件，命名为*.html等网页格式。
将步骤1中的变量写入该文件中。
关闭该文件

import urllib.request

import urllib.parse

url='http://www.baidu.com'

hearder={

'User-Agent':'Mozilla/5.0 (X11; Fedora; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'

}

request=urllib.request.Request(url,headers=header)

reponse=urllib.request.urlopen(request).read()

h=open("./1.html","wb")

h.write(reponse)

h.close()

参考：https://docs.python.org/3/library/urllib.parse.html?highlight=urlparse#urllib.parse.urlparse

https://blog.csdn.net/fengxinlinux/article/details/77281253

https://www.runoob.com/python/python-func-open.html

python基础篇-爬虫urlparse使用及简单示例的更多相关文章

python基础篇（六）
PYTHON基础篇(六) 正则模块re A:正则表达式和re模块案例 B:re模块的内置方法时间模块time A:时间模块的三种表示方式 B:时间模块的相互转换随机数模块random A:随机数模 ...
面试题之第一部分(Python基础篇) 80题
第一部分(python基础篇)80题为什么学习Python?==*== # 1. python应用于很多领域,比如后端,前端,爬虫,机器学习(人工智能)等方面,几乎能涵盖各个开发语言的领域,同时它相 ...
python基础篇（五）
PYTHON基础篇(五) 算法初识什么是算法二分查找算法 ♣一:算法初识 A:什么是算法根据人们长时间接触以来,发现计算机在计算某些一些简单的数据的时候会表现的比较笨拙,而这些数据的计算会消耗大 ...
python基础篇（一）
PYTHON基础篇(一) 变量赋值输入,输出和导入 A:输入 B:输出 C:导入运算符 A:算数运算符 B:比较运算符 C:赋值运算符 D:位运算符 E:逻辑运算符 F:成员运算符 G:身份运算 ...
python基础篇（二）
PYTHON基础篇(二) if:else,缩进 A:if的基础格式和缩进 B:循环判断 C:range()函数和len()函数 D:break,contiue和pass语句 for,while循环函 ...
python基础篇（三）
PYTHON基础篇(三) 装饰器 A:初识装饰器 B:装饰器的原则 C:装饰器语法糖 D:装饰带参数函数的装饰器 E:装饰器的固定模式装饰器的进阶 A:装饰器的wraps方法 B:带参数的装饰器 C ...
python基础篇（四）
PYTHON基础篇(四) 内置函数 A:基础数据相关(38) B:作用域相关(2) C:迭代器,生成器相关(3) D:反射相关(4) E:面向对象相关(9) F:其他(12) 匿名函数 A:匿名函数基 ...
python基础篇(文件操作)
Python基础篇(文件操作) 一.初始文件操作使用python来读写文件是非常简单的操作. 我们使用open()函数来打开一个文件, 获取到文件句柄. 然后通过文件句柄就可以进行各种各样的操作了. ...
Python基础篇(格式化输出,运算符,编码):
Python基础篇(格式化输出,运算符,编码): 格式化输出: 格式:print ( " 内容%s" %(变量)) 字符类型: %s 替换字符串 %d 替换整体数字 ...

随机推荐

安装rebar3
下载编译好的版本 wget https://s3.amazonaws.com/rebar3/rebar3 chmod +x /home/hylink/rebar3 (赋权) ./rebar3 loca ...
分布式链路追踪自从用了SkyWalking，睡得真香！
本篇文章介绍链路追踪的另外一种解决方案Skywalking,文章目录如下: 什么是Skywalking? 上一篇文章介绍了分布式链路追踪的一种方式:Spring Cloud Sleuth+ZipKin ...
python的作用域、globals()-全局变量和 locals()-局部变量
在python中,函数会创建一个自己的作用域,也称为为命名空间.当我们在函数内部访问某个变量时,函数会优先在自己的命名空间中寻找. 我们自己定义的全局变量均在python内建的globals()函数中 ...
nginx+keepalived 简单实现主备和双主模式
准备nginx和keepalived 安装nginx(自行安装) yum install nginx 安装keepalived(安装包安装总报错,yum安装能好一点) yum install keep ...
xshell 6 的使用
1.前言 xshell是用来远程控制云服务器的linux系统的软件,装载window系统里面,可以向发送linux指令, 需要的关键信息:该系统设备的公网ip, 用户名 ,密码 2.软件下载官网地址 ...
js 动态设置键值对数组，类似于 java 的Map 类型
1.前言我想设置一个数据 var json = {a1 :1 , a2 :2 , a3 :3 .....} 这样的动态数据 ,怎么写呢? 2.正确写法 var json = []; for ...
SpringBoot学习笔记四之后台登录页面的实现
注:图片如果损坏,点击文章链接: https://www.toutiao.com/i6803542216150090252/ 继续之前完成的内容,首先创建一个常量类常量类的内容服务器端渲染前后端 ...
windows server 服务器安装jenkins 并通过git拉取代码实现自动发布到IIS
Jenkins是一个开源软件,可以通过一定的配置进行自动构建,测试,部署等功能. 首先,服务器应安装好 .NET Core环境和JDK, 下载Jenkins安装包 https://www.jenkin ...
access注入 - 联合查询
1.access数据库简介简介:Microsoft Office Access是由微软发布的关系数据库管理系统.它结合了 MicrosoftJet Database Engine 和图形用户界面两 ...
Git命令中波浪号~与脱字符^的区别
0.前言波浪号~,英文名叫 tilde.脱字符^,英文名叫caret. 这两种符号常见于git reset的情景,简单的项目结构和操作一般不会涉及到两者之间的区别,似乎用哪个都可以.如果遇到比较繁杂 ...

python基础篇-爬虫urlparse使用及简单示例

python基础篇-爬虫urlparse使用及简单示例的更多相关文章

随机推荐

热门专题