从urllib和urllib2基础到一个简单抓取网页图片的小爬虫

urllib最常用的两大功能（个人理解urllib用于辅助urllib2）

1.urllib.urlopen()

2. urllib.urlencode() #适当的编码，可用于后面的post提交数据

import urllib

Dict = {'name' : 'Michael Foord',

          'location' : 'Northampton',

          'language' : 'Python'}

print urllib.urlencode(Dict)

urllib2常用的函数

1.最基本的打开读取一个网页

import urllib2

response = urllib2.urlopen('http://www.baidu.com/')

html = response.read()

2.地址创建一个Request对象

req = urllib2.Request('http://www.baidu.com/')

response = urllib2.urlopen(req)

the_page = response.read()

3.Data数据利用post方式提交

value={'name' : 'Michael Foord',

          'location' : 'Northampton',

          'language' : 'Python'}

data = urllib.urlencode(values)

request = urllib2.Request(url,data)

#request= urllib2.Request(url, data, headers)  Request对象共有三个参数

response = urllib2.urlopen(request)

print response.read()

4.在 HTTP Request 中加入特定的 Header

import urllib2

request = urllib2.Request('http://www.baidu.com/')

request.add_header('User-Agent', 'fake-client')

response = urllib2.urlopen(request)

print response.read()

5.Cookie

import urllib2

import cookielib

cookie = cookielib.CookieJar()

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))

response = opener.open('http://www.baidu.com')

for item in cookie:

    print 'Name = '+item.name

    print 'Value = '+item.value

6.得到 HTTP 的返回码

import urllib2

try:

    response = urllib2.urlopen('http://bbs.csdn.net/why')

except urllib2.HTTPError, e:

    print e.code

7.Timeout 设置

import urllib2

response = urllib2.urlopen('http://www.baidu.com/', timeout=10)

8.Redirect动作

import urllib2

my_url = 'http://www.google.cn'

response = urllib2.urlopen(my_url)

redirected = response.geturl() == my_url

print redirected

my_url = 'http://rrurl.cn/b1UZuP'

response = urllib2.urlopen(my_url)

redirected = response.geturl() == my_url

print redirected

9.使用 HTTP 的 PUT 和 DELETE 方法

import urllib2

request = urllib2.Request(uri, data=data)

request.get_method = lambda: 'PUT' # or 'DELETE'

response = urllib2.urlopen(request)

10.Debug Log

import urllib2

httpHandler = urllib2.HTTPHandler(debuglevel=1)

httpsHandler = urllib2.HTTPSHandler(debuglevel=1)

opener = urllib2.build_opener(httpHandler, httpsHandler)

urllib2.install_opener(opener)

response = urllib2.urlopen('http://www.google.com')

11.表单的处理

# -*- coding: utf-8 -*-

import urllib

import urllib2

postdata=urllib.urlencode({

    'username':'汪小光',

    'password':'why888',

    'continueURI':'http://www.verycd.com/',

    'fk':'',

    'login_submit':'登录'

})

req = urllib2.Request(

    url = 'http://secure.verycd.com/signin',

    data = postdata

)

result = urllib2.urlopen(req)

print result.read()

最后附上一段抓取某网站妹子图片的代码

import urllib

import urllib2

import os

def url_open(url):

    req = urllib2.Request(url)

    req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:46.0) Gecko/20100101 Firefox/46.0')

    response = urllib2.urlopen(req)

    html = response.read()

    return html

def get_page(url):

    html = url_open(url).decode('utf-8')

    a = html.find('current-comment-page') + 23

    b = html.find(']', a)

    return html[a:b]

def find_imgs(url):

    html = url_open(url).decode('utf-8')

    img_addrs = []

    a = html.find('img src=')

    while a != -1:

        b = html.find('.jpg', a, a+255)

        if b != -1:

            img_addrs.append(html[a+9:b+4])

        else:

            b = a + 9

        a = html.find('img src=', b)

    return img_addrs

def save_imgs(folder, img_addrs):

    for each in img_addrs:

        filename = each.split('/')[-1]

        with open(filename, 'wb') as f:

            img = url_open(each)

            f.write(img)

def download_mm(folder='OOXX', pages=10):

    os.mkdir(folder)

    os.chdir(folder)

    url = "http://jandan.net/ooxx/"

    page_num = int(get_page(url))

    for i in range(pages):

        page_num -= i

        page_url = url + 'page-' + str(page_num) + '#comments'

        img_addrs = find_imgs(page_url)

        save_imgs(folder, img_addrs)

if __name__ == '__main__':

    download_mm()

从urllib和urllib2基础到一个简单抓取网页图片的小爬虫的更多相关文章

Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
java爬虫-简单爬取网页图片
刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语言编程,这次我选择了 ...
Python -- 网络编程 -- 简单抓取网页
抓取网页: urllib.request.urlopen(url).read().decode('utf-8') --- (百度是utf-8,谷歌不是utf-8,也不是cp936,ascii也不行 ...
30分钟编写一个抓取 Unsplash 图片的 Python爬虫
我一直想用 Python and Selenium 创建一个网页爬虫,但从来没有实现它. 几天前, 我决定尝试一下,这听起来可能是挺复杂的, 然而编写代码从 Unsplash 抓取一些美丽的图片 ...
[Python]网络爬虫（六）：一个简单的百度贴吧的小爬虫
转自:http://blog.csdn.net/pleasecallmewhy/article/details/8927832 # -*- coding: utf-8 -*- #----------- ...
python 简单抓取网页并写入excel实例
# -*- coding: UTF-8 -*- import requests from bs4 import BeautifulSoup import xlwt import time #获取第一页 ...
JMeter基础之一一个简单的性能测试
JMeter基础之一一个简单的性能测试上一节中,我们了解了jmeter的一此主要元件,那么这些元件如何使用到性能测试中呢.这一节创建一个简单的测试计划来使用这些元件.该计划对应的测试需求. 1)测 ...
C语言Linix服务器网络爬虫项目（二）项目设计和通过一个http请求抓取网页的简单实现
我们通过上一篇了解了爬虫具体要实现的工作之后,我们分析得出的网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL: 2.将这些URL放入待抓取URL队列: 3.从待抓取URL队列中取出 ...
[Python]网络爬虫（二）：利用urllib2通过指定的URL抓取网页内容
版本号:Python2.7.5,Python3改动较大. 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的 ...

随机推荐

openssl 编程
背景: 生成私钥.公钥 --> 生成AES-key seed[32], iv[16] --> 公钥加密ASE-key, IV,传给Server --> Server用私钥解密,得到A ...
DNS原理及解析过程
本文主要参考自:http://369369.blog.51cto.com/319630/812889 并做了小幅修改什么是DNS? 因特网上的主机和人类一样,也可以使用多种方式进行识别.主机的一种识 ...
【Linux笔记】CentOS&RHEL YUM基础知识
以下内容收集自网络,以作参考. 一.YUM是什么 YUM = Yellow dog Updater, Modified. 主要功能是更方便的添加/删除/更新RPM包. 它能自动解决包的倚赖性问题. 它 ...
Android自动化 -- sendevent/getevent 用法
getevent&sendevent 是android系统下的一个工具,可以模拟多种按键和触屏操作,产生的是raw event,raw event经过event hub处理产生最终的ges ...
ES2015中let的暂时性死区(TDZ)
Tomporal Dead Zone (TDZ)是ES2015中对作用域新的专用定义.是对于某些遇到在区块作用域绑定早于声明语句时的情况.Tomporal Dead Zone (TDZ)可以理解为时间 ...
Infinity NaN undefined和null
Infinity属性用于存放表示正无穷大的数值. 负无穷大是表示负无穷大一个数字值. 该属性为Global对象的一个只读属性, 所有主流浏览器均支持该属性. Infinity属性的值为Number类型 ...
BZOJ4896 THUSC2016补退选（trie）
字符串扔进trie,vector记录每个前缀出现次数的最大值的更新记录即可. #include<iostream> #include<cstdio> #include<c ...
Codeforces Round #447 (Div. 2) 题解
A.很水的题目,3个for循环就可以了 #include <iostream> #include <cstdio> #include <cstring> using ...
javascript中对象和数组的异同点
一.JS声明对象或数组 JS对象:{ } JS数组:[ ] 对象 var b={m:'123',n:'abc'};alert(b.m);alert(b.n); 一维数组 var a=[1,2,3];a ...
Hive(三)hive的高级操作
一.hive的各种join操作语法结构:join_table:table_reference JOIN table_factor [join_condition]| table_reference ...

从urllib和urllib2基础到一个简单抓取网页图片的小爬虫

从urllib和urllib2基础到一个简单抓取网页图片的小爬虫的更多相关文章

随机推荐

热门专题