Python爬虫-urllib的基本用法

from urllib import response,request,parse,error

from http import  cookiejar

if __name__ == '__main__':

    #response = urllib.request.urlopen("http://www.baidu.com")

    #print(response.read().decode("utf-8"))

    #以post形式发送，没有data就是get形式

    #请求头

    #data = bytes(urllib.parse.urlencode({"word":"hello"}),encoding="utf-8")

    #response = urllib.request.urlopen("http://httpbin.org/post",data=data)

    #print(response.read())

    #时间限制

    #response = urllib.request.urlopen("http://www.baidu.com",timeout=0.01)

    #print(response.read().decode("utf-8"))

    #响应处理

    #response = urllib.request.urlopen("http://www.python.org")

    #print(type(response))

    #状态码

    #print(response.status)

    #相应头

    #print(response.getheaders())

    #print(response.getheader("Server"))

    #复杂请求 request

    #request = urllib.request.Request("http://python.org")

    #response = urllib.request.urlopen(request)

    #print(response.read().decode("utf-8"))

    #请求头

    # add_header也可以

    """

    url = "http://httpbin.org/post"

    headers = {

        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64)",

        "Host":"httpbin.org"

    }

    dict = {

        "name":"Germey"

    }

    data = bytes(parse.urlencode(dict),encoding="utf8")

    req = request.Request(url,data,headers,method="POST")

    response = request.urlopen(req);

    print(response.read())

    """

    #代理

    """

    proxy_header = request.ProxyHandler({

        #代理IP

    })

    opener = request.build_opener(proxy_header)

    response = opener.open("http://httpbin.org/get")

    #cookies(维持登录状态)

    cookie = cookiejar.CookieJar()

    handler = request.HTTPCookieProcessor(cookie)

    opener = request.build_opener(handler)

    response = opener.open("http://www.baidu.com")

    """

    #保存cookies

    #MozillaCookieJar,LWPCookieJar

    #捕捉异常 基本上HTTPError或者URLError

    """

    try:

        response = request.urlopen("http://amojury.github.io")

    except error.URLError as e:

        print(e.reason)

    """

    #URL解析相关 urlparse urlunparse(反解析) urlencode(字典转请求参数）

    #result = parse.urlparse("https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=python%20%E6%89%B9%E9%87%8F%E6%B3%A8%E9%87%8A&rsv_pq=f9b1a8b300011700&rsv_t=1252nVpaBhdm%2FEdlsdrPgUxIHLfk4QNB443eSTUKoRcHFx9G09YZi9N9Dvo&rqlang=cn&rsv_enter=1&rsv_sug3=9&rsv_sug1=8&rsv_sug7=101&rsv_sug2=1&prefixsug=python%2520%25E6%2589%25B9%25E9%2587%258F&rsp=0&inputT=10498&rsv_sug4=14994")

    #print(result)

Python爬虫-urllib的基本用法的更多相关文章

Python爬虫Urllib库的高级用法
Python爬虫Urllib库的高级用法设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Head ...
python爬虫---selenium库的用法
python爬虫---selenium库的用法 selenium是一个自动化测试工具,支持Firefox,Chrome等众多浏览器在爬虫中的应用主要是用来解决JS渲染的问题. 1.使用前需要安装这个 ...
Python爬虫Urllib库的基本使用
Python爬虫Urllib库的基本使用深入理解urllib.urllib2及requests 请访问: http://www.mamicode.com/info-detail-1224080.h ...
python爬虫 urllib模块url编码处理
案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦'的页面数据) import urllib.request # 1.指定url url = 'https://www.sogou. ...
python 爬虫 urllib模块目录
python 爬虫 urllib模块介绍 python 爬虫 urllib模块 url编码处理 python 爬虫 urllib模块反爬虫机制UA python 爬虫 urllib模块发起post ...
python爬虫---urllib库的基本用法
urllib是python自带的请求库,各种功能相比较之下也是比较完备的,urllib库包含了一下四个模块: urllib.request 请求模块 urllib.error 异常处理模块 u ...
python爬虫 - Urllib库及cookie的使用
http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...
Python爬虫之BeautifulSoup的用法
之前看静觅博客,关于BeautifulSoup的用法不太熟练,所以趁机在网上搜索相关的视频,其中一个讲的还是挺清楚的:python爬虫小白入门之BeautifulSoup库,有空做了一下笔记: 一.爬 ...
Python爬虫urllib模块
Python爬虫练习(urllib模块) 关注公众号"轻松学编程"了解更多. 1.获取百度首页数据流程:a.设置请求地址 b.设置请求时间 c.获取响应(对响应进行解码) ''' ...

随机推荐

Codeforces 894.B Ralph And His Magic Field
B. Ralph And His Magic Field time limit per test 1 second memory limit per test 256 megabytes input ...
洛谷P1991 无线通讯网
P1991 无线通讯网 170通过 539提交题目提供者洛谷OnlineJudge 标签图论难度普及+/提高提交该题讨论题解记录最新讨论怎么又炸了为啥一直40!求解! UKE:inv ...
mysql ERROR 1045 (28000): Access denied for user 'ODBC'@'localhost' (using password: NO)错误解决办法
我的电脑是win10,所用的是mysql5.7.14 近期在学习mysql数据库的时候,遇到了这个错误,我的密码错误了.突如其来的问题,很是蒙蔽,因为我没对数据库设置过密码.通过网上查询,可以通过进入 ...
《提升c++性能的编程技术》读书笔记
http://note.youdao.com/noteshare?id=9ab0eda264c85b774021426867e18eae
[DeeplearningAI笔记]序列模型3.7-3.8注意力模型
5.3序列模型与注意力机制觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.7注意力模型直观理解Attention model intuition 长序列问题 The problem of ...
java中BigDecimal在金融行业中的使用
1.引言在java语言中,double和float用于二进制浮点型计算,无法得到精确的结果.而BigDecimal则用于精确的计算.不超过16位有效数字(最好是不超过13位)的科学和工程计算,可以使 ...
CF540 C BFS 水
'.'->'X' 前者走后变成后者,后者除了是终点不能再走.初始位置是X很傻的以为这样从初始点走出去后初始位置就变成不能走了,实际上是还能走一次的. 其他就是BFS,路上记得把路变成X就好了太 ...
SPOJ DQUERY 离线树状数组+离散化
LINK 题意:给出$(n <= 30000)$个数,$q <= 2e5$个查询,每个查询要求给出$[l,r]$内不同元素的个数思路:这题可用主席树查询历史版本的方法做,感觉这个比较容易 ...
Centos 7 下搭建 Dokuwiki
Centos 7 下搭建 Dokuwiki # Dokuwiki 是php的,所以要先搭建php环境,下载 apache和php,第1.2步下载完,相关的依赖都会下载## 1.下载 httpdyum ...
img图片居中
关键词:clear: both; display: block; margin:auto; 图片居左,居右,居中: /* Alignment */ .alignleft { display ...

Python爬虫-urllib的基本用法

Python爬虫-urllib的基本用法的更多相关文章

随机推荐

热门专题