[python爬虫]简单爬虫功能

在我们日常上网浏览网页的时候，经常会看到某个网站中一些好看的图片，它们可能存在在很多页面当中，我们就希望把这些图片保存下载，或者用户用来做桌面壁纸，或者用来做设计的素材。

我们最常规的做法就是通过鼠标右键，选择另存为。但有些图片鼠标右键的时候并没有另存为选项，还有办法就通过就是通过截图工具截取下来，但这样就降低图片的清晰度。就算可以弄下来，但是我们需要几千个页面当中的图片，如果一个一个下载，你的手将残。好吧～！其实你很厉害的，右键查看页面源代码。

我们可以通过python 来实现这样一个简单的爬虫功能，把我们想要的代码爬取到本地。下面就看看如何使用python来实现这样一个功能。

一、获取整个页面数据

def get_content(url):

    """

    获取网页源码

    """

    html = urllib.urlopen(url)

    content = html.read()

    html.close()

    return content

二、抓取图片文件名

抓取文件名时，由于特殊符号会影响显示，所以将“ * ”，“ / ”等符号删

def get_name(name,file):

    """

    抓取图片文件名

    """

    self.picName = name.decode('utf-8')

    if "*" in self.picName:

        self.picName = self.picName.replace("*","")

    elif "/" in self.picName:

        self.picName = self.picName.replace("/","")

    print self.picName

def get_file(info):

    """

    获取img文件

    """

    soup = BeautifulSoup(info,"html.parser")

    # 找到所有免费下载的模块

    all_files = soup.find_all('a',title="免费下载")

    # 找到所有的hi标题

    titles = soup.find_all('h1')

    # 截取需要的标题

    for title in titles:

        name = str(title)[4:-5]

    # 获取文件名

    for file in all_files:

            get_name(name,file)

三、下载图片

下载后缀名是"gif"或者"jpg"的图片，并存放在E:\\googleDownLoad\\\cssmuban目录下

def pic_category(str_images):

    """

    下载图片

    """

    soup = BeautifulSoup(info,"html.parser")

    all_image = soup.find_all('div',class_="large-Imgs")

    images = str_images

    pat = re.compile(images)

    image_code = re.findall(pat,str(all_image))

    for i in image_code:

        if str(i)[-3:] == 'gif':

            image = urllib.urlretrieve('http://www.cssmoban.com'+str(i), 'E:\\googleDownLoad\\\cssmuban\\'+str(self.picName).decode('utf-8')+'.gif')

        else:

            image = urllib.urlretrieve('http://www.cssmoban.com'+str(i), 'E:\\googleDownLoad\\\cssmuban\\'+str(self.picName).decode('utf-8')+'.jpg')

def pic_download(info):

    """

    下载图片

    """

    pic_category(r'src="(.+?\.gif)"')

    pic_category(r'src="(.+?\.jpg)"')

四、遍历所有url，下载每个页面的所需要的图片和文件名

self.num = 1

# 下载文件

for i in range(6000):

    url = 'http://www.cssmoban.com/cssthemes/'+ str(self.num) +'.shtml'

    info = get_content(url)

    get_file(info)

    pic_download(info)

    self.num = self.num + 1

运行结果如下：

本站文章为宝宝巴士 SD.Team原创，转载务必在明显处注明：（作者官方网站：宝宝巴士)
转载自【宝宝巴士SuperDo团队】 原文链接: http://www.cnblogs.com/superdo/p/4927574.html

[python爬虫]简单爬虫功能的更多相关文章

Python开发简单爬虫 - 慕课网
课程链接:Python开发简单爬虫环境搭建: Eclipse+PyDev配置搭建Python开发环境 Python入门基础教程用Eclipse编写Python程序课程目录第1章课程介绍 ...
Python做简单爬虫（urllib.request怎么抓取https以及伪装浏览器访问的方法）
一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...
python实现简单爬虫抓取图片
最近在学习python,正如大家所知,python在网络爬虫方面有着广泛的应用,下面是一个利用python程序抓取网络图片的简单程序,可以批量下载一个网站更新的图片,其中使用了代理IP的技术. imp ...
Python开发简单爬虫（一）
一 .简单爬虫架构: 爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理:可取出带爬取的URL,将其传送给“网页下载器” 网页下载器:将URL指定 ...
Python开发简单爬虫
简单爬虫框架: 爬虫调度器 -> URL管理器 -> 网页下载器(urllib2) -> 网页解析器(BeautifulSoup) -> 价值数据 Demo1: # codin ...
教你如何入手用python实现简单爬虫微信公众号并下载视频
主要功能如何简单爬虫微信公众号获取信息:标题.摘要.封面.文章地址自动批量下载公众号内的视频一.获取公众号信息:标题.摘要.封面.文章URL 操作步骤: 1.先自己申请一个公众号 2.登录自己 ...
python多线程简单爬虫
爬虫本质就是将网站或者接口的数据经过筛选后按需求保存这里实现一个简单爬虫仅供参考 import requests import bs4 import threading import queue i ...
python实现简单爬虫功能
在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材. 我们最常规的做法就是通过鼠标右键,选择另存为.但有些图片鼠标右键的 ...
使用python实现简单爬虫
简单的爬虫架构调度器 URL管理器管理待抓取的URL集合和已抓取的URL,防止重复抓取,防止死循环功能列表 1:判断新添加URL是否在容器中 2:向管理器添加新URL 3:判断容器是否为空 4: ...

随机推荐

洛谷P3360偷天换日（树形DP）
题目背景神偷对艺术馆内的名画垂涎欲滴准备大捞一把. 题目描述艺术馆由若干个展览厅和若干条走廊组成.每一条走廊的尽头不是通向一个展览厅,就是分为两个走廊.每个展览厅内都有若干幅画,每副画都有一个价 ...
codeforce 266c Below the Diagonal 矩阵变换（思维题）
C. Below the Diagonal You are given a square matrix consisting of n rows and n columns. We assume th ...
题解 bzoj 4398福慧双修（二进制分组）
二进制分组,算个小技巧 bzoj 4398福慧双修给一张图,同一条边不同方向权值不同,一条边只能走一次,求从1号点出发再回到1号点的最短路一开始没注意一条边只能走一次这个限制,打了个从一号点相邻节 ...
洛谷P1771 方程的解
P1771 方程的解都知道这个题可以用隔板法做把这个\(g(x)\)想象为.....\(g(x)\)个苹果? 因为解是正整数,所以给这些"苹果"分组的时候每组最少有一个然后我 ...
python——append后的列表为什么打印出来为空
关于python 列表append的用法: list = [] list = list.append("c") print(list) >>>None 正确写法应 ...
进程间通信之socketpair
socketpair是进程间通信的一种方式. API: ]); DEMO: #include <stdio.h> #include <stdlib.h> #include &l ...
量子纠错码——Stabilizer codes
对于错误,一般有两种: random: 错误以一定的概率发生在每个比特上(对这种问题的研究一般是信息论中,信道熵一类的问题) worst case: 错误发生在某个比特上,这也是纠错码襄阳解决的问题 ...
戴尔服务器ipmi报错
戴尔服务器ipmi配置完成,用浏览器打开报错查看器已终止,网络已中断原因:这个问题是java报错,用火狐打开报错解决方法: 用IE打开就没问题,IE要用较高版本的,楼主的是win10-IE11
ubuntu18.04下mysql安装时没有出现密码提示
前言: 一:配置 ubuntu 18.04 mysql 5.7.30 二:问题 ubuntu18.04下mysql安装时没有出现密码提示,安装后自己有一个默认的用户名以及密码解决方案: 1. 在终端 ...
【Kafka】实时看板案例
目录项目需求项目模型实现步骤项目需求快速计算双十一当天的订单量和销售金额项目模型实现步骤一.创建topic bin/kafka-topics.sh --create --topic i ...

[python爬虫]简单爬虫功能

[python爬虫]简单爬虫功能的更多相关文章

随机推荐

热门专题