python爬虫入门（1）-urllib模块

作用：用于读取来自网上(服务器上)的数据

基本方法：urllib.request.urlopen(url,data=None,[]timeout]*,cafile=None,cadefault=False,context=None)

url:需要打开的网址
data:Post提交的数据
timeout:设置网站的访问超时时间

示例1：获取页面

    import urllib.request

    response = urllib.request.urlopen("http://www.fishc.com")#是一个HTTP响应类型

    html =response.read()#读取响应内容，为bytes类型

    # print(type(html),html) #输出的为一串<class 'bytes'>

    html = html.decode('utf-8')#bytes类型解码为str类型

    print(html)

示例2：抓一只猫

import urllib.request

response = urllib.request.urlopen("http://placekitten.com/g/400/400")

cat_img = response.read()

with open('cat_400_400.jpg','wb')as f:

　　f.write(cat_img)

示例3：翻译器

右击浏览器，选择检查或审查元素，再点击网络，找到post的 Name，复制RequestURL

在headers中找到Form Data,复制表单中内容

import urllib.request

import urllib.parse

import json

import time

while True:

    content = input("请输入需要翻译的内容《输入q!退出程序》：")

    if content == 'q!':

        break

    url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=http://www.youdao.com/"    #即RequestURL中的链接

    data = {}

    #Form Data中的内容，适当删除无用信息

    data['i'] = content

    data['smartresult'] = 'dict'

    data['client'] = 'fanyideskweb'

    data['doctype'] = 'json'

    data['version'] = '2.1'

    data['keyfrom'] = 'fanyi.web'

    data['action'] = 'FY_BY_CLICKBUTTON'

    data['typoResult'] = 'true'

    data = urllib.parse.urlencode(data).encode('utf-8')

    #打开网址并提交表单

    response = urllib.request.urlopen(url, data)

    html = response.read().decode('utf-8')

    target = json.loads(html)

    print("翻译结果：%s" % (target['translateResult'][0][0]['tgt']))

    time.sleep(2)

隐藏和代理

隐藏：1.通过request的headers参数修改

2.通过Request.add_header()方法修改

代理：1.proxy_support = urllib.request.ProxyHandler({}) #参数是一个字典{'类型'：'代理IP:端口号'}

2.opener = urllib.request.build_opener(proxy_support) #定制、创建一个opener

3.urllib.request.install_opener(opener) #安装opener

opener.open(url) #调用opener

代理

示例5：代理

    import urllib.request

    import random

    url ='http://www.whatismyip.com.tw/'

    iplist =['61.191.41.130:80','115.46.97.122:8123',]

    #参数是一个字典{'类型'：'代理IP：端口号'}

    proxy_support = urllib.request.ProxyHandler({'http':random.choice(iplist)})

    #定制、创建一个opener

    opener = urllib.request.build_opener(proxy_support)

    #通过addheaders修改User-Agent

    opener.addheaders =[('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.97 Safari/537.36')]

    #安装opener

    urllib.request.install_opener(opener)

    response = urllib.request.urlopen(url)

    html = response.read().decode('utf-8')

    print(html)

示例6：简单爬取贴吧图片

    import urllib.request

    import re

    def open_url(url):

        #打开URL并修改header，将URL内容读取

        req = urllib.request.Request(url)

        #通过add_header修改User-Agent

        req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.97 Safari/537.36')

        page = urllib.request.urlopen(req)

        html = page.read().decode('utf-8')

        return html

    def get_img(html):

        p = r'<img class="BDE_Image" src="([^"]+\.jpg)'

        imglist = re.findall(p,html)#寻找到图片的链接

        for each in imglist:

        　　filename = each.split("/")[-1]

        　　urllib.request.urlretrieve(each,filename,None)#保存图片

    
　　if __name__ =='__main__':

        url ="https://tieba.baidu.com/p/5090206152"

        get_img(open_url(url))

null

python爬虫入门（1）-urllib模块的更多相关文章

Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
Python爬虫入门之Urllib库的基本使用
那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧. 1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解 ...
Python爬虫入门：Urllib库的高级使用
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
Python爬虫入门：Urllib库的基本使用
1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CS ...
芝麻HTTP：Python爬虫入门之Urllib库的基本使用
1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS ...
芝麻HTTP： Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
Python爬虫入门：Urllib parse库使用详解(二)
文字转载:https://www.jianshu.com/p/e4a9e64082ef,转载内容仅供学习如有侵权,请联系删除获取url参数 urlparse 和 parse_qs ParseRes ...
3.Python爬虫入门三之Urllib和Urllib2库的基本使用
1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS ...
Python爬虫入门四之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
转 Python爬虫入门四之Urllib库的高级用法
静觅 » Python爬虫入门四之Urllib库的高级用法 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我 ...

随机推荐

Linux下安装SVN服务端
安装使用yum安装非常简单: yum install subversion 配置 2.1. 创建仓库我们这里在/home下建立一个名为svn的仓库(repository),以后所有代码都放在这个下 ...
HTML中的figure和gigcaption标签
参考自:anti-time的博客http://www.cnblogs.com/morning0529/p/4198494.html 在写xhtml.html中常常用到一种图片列表,图片+标题或者图片+ ...
HikariPool-1 - Exception during pool initialization.
java.sql.SQLNonTransientConnectionException: CLIENT_PLUGIN_AUTH is required 这是由于springboot自带 mysql-c ...
计算java对象的内存占用
代码引用自:https://blog.csdn.net/antony9118/article/details/54317637 感谢博主分享: import java.util.ArrayList; ...
Tachyon：Spark生态系统中的分布式内存文件系统
转自: http://www.csdn.net/article/2015-06-25/2825056 摘要:Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, ...
apache配置ssl
1.确认是否安装ssl模块是否有mod_ssl.so文件 2.生成证书和密钥 linux下步骤1:生成密钥命令:openssl genrsa 1024 > server.key 说 ...
angular指令与指令交互
app.directive('mansory',function(){ return { controller:function($scope){ this.changed = function(){ ...
Bash 快捷键[转]
编辑命令 Ctrl + a :移到命令行首 Ctrl + e :移到命令行尾 Ctrl + f :按字符前移(右向) Ctrl + b :按字符后移(左向) Alt + f :按单词前移(右向) Al ...
CCS5 学习笔记1
CCS5 学习笔记1 2013-09-15 10:35:49 周日边学习ccs5使用边写笔记,准备用一天时间好好学习下ccs5怎么使用,便于以后工作向ccs5平台迁移!
python报错：TypeError: 'int' object is not subscriptable
检查一遍报错的所在行,此报错一般是在整数上加了下标: 比如: a = 4 c=a[2] 报错:line 2, in <module> c=a[2] TypeError: 'i ...

python爬虫入门（1）-urllib模块

python爬虫入门（1）-urllib模块的更多相关文章

随机推荐

热门专题