python网络爬虫抓取网站图片

本文介绍两种爬取方式：

1.正则表达式

2.bs4解析Html

以下为正则表达式爬虫，面向对象封装后的代码如下：

import urllib.request  # 用于下载图片

import os

import requests  # 发送http请求

import re   # 正则表达式匹配

class GetJpg(object):

    def __init__(self, start_urls):

        self.start_urls = start_urls

    def get_response(self,url):

        '''获取网页响应内容'''

        response = requests.get(url).text

        return response

    def get_content(self,html):

        '''获取网页响应内容中所有图片的整体div部分'''

        reg = re.compile(r'(<div class="j-r-list-c">.*?</div>.*?</div>)', re.S)

        return re.findall(reg, html)

    def get_jpg_url(self,content):

        '''获取图片url'''

        reg = r'data-original="(.*?)"'

        return re.findall(reg, content)

    def get_jpg_name(self,content):

        ''' 获取图片名称'''

        reg = re.compile(r'<a href="/detail-.{8}.html">(.*?)</a>')

        return re.findall(reg, content)

    def download_jpg(self,src_url, path,index):

        '''下载图片保存到本地目录'''

        path = ''.join(path.split())

        path = 'E:\Python\爬图片\{name}.{index}'.format(name=path,index=index)

        if not os.path.exists(path):

            urllib.request.urlretrieve(src_url, path)  # 下载图片

            print('OK!!!')

        else:

            print('文件已存在')

    def get_url_name(self,start_url):

        ''' 逐页下载,本部分本来可以放在main函数里，考虑到会多嵌套一个循环所以单独拿出来作为一个函数'''

        content = self.get_content(self.get_response(start_url))

        for i in content:

            jpg_url = self.get_jpg_url(i)

            if jpg_url:

                jpg_name = self.get_jpg_name(i)

                index = jpg_url[0].split('.')[-1]

                try:

                    self.download_jpg(jpg_url[0], jpg_name[0],index)

                except:

                    continue

    def main(self):

        ''' 执行'''

        [self.get_url_name(start_url) for start_url in self.start_urls]   # 此处列表生成器来执行

        # 这部分的代码相当于：

        # for start_url in self.start_urls:

        #     self.get_url_name(start_url)

if __name__ == '__main__':

    start_urls = ['http://www.budejie.com/{id}'.format(id=i) for i in range(1,10)]

    jpg = GetJpg(start_urls)  # 实例化一个对象

    jpg.main()

以下为使用bs4爬取的代码：

from bs4 import BeautifulSoup

import urllib.request

import re

def get_urls(img_girl):

    '''

    :param img_girl: <img>标签内容

    :return: 所有图片的url

    '''

    all_urls = [girl.get('src') for girl in img_girl]

    return all_urls

def get_img_name(img_girl):

    '''

    :param img_girl:  <img>标签内容

    :return: 所有图片title

    '''

    all_name = [girl.get('title') for girl in img_girl]

    return all_name

def get_img_resource(url):

    '''

    :param url:网站url

    :return:网页源码中的所有<img>标签内容

    '''

    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.78 Safari/537.36',

               'Accept - Language': 'zh - CN, zh;q = 0.8'

    }  # 添加请求头部，模拟浏览器

    req = urllib.request.Request(url, headers=headers)  # 创建对象

    res = urllib.request.urlopen(req, timeout=20)  # 发送请求

    content = res.read()  # 获取响应网页源码

    soup = BeautifulSoup(content,'html.parser')  # HMTL源码解析

    img_girl = soup.find_all('img')  # 获取 源码中的<img>标签模块内容

    return img_girl

def main(url):

    '''

    下载保存图片

    :param url: 网站url

    '''

    urls = get_urls(get_img_resource(url))

    names = get_img_name(get_img_resource(url))

    x = 1

    for src_url in urls:

        path_l = re.split(r'\W', names[urls.index(src_url)])  # 去除图片名称中的特殊字符,不然文件名可能在保存的时候报错

        path = ''.join(path_l)

        path = 'E:\Python\爬图片\BS4\{name}_{index}.jpg'.format(name=path,index=x)

        urllib.request.urlretrieve(src_url, path)

        print('OK')

        x += 1

if __name__ == "__main__":

    urls = ['https://www.dbmeinv.com/dbgroup/show.htm?cid=4&pager_offset={i}'.format(i=id)for id in range(1,10) ]

    [main(url)for url in urls]

bs4面向对象封装后代码：

from bs4 import BeautifulSoup

import urllib.request

import re

class GetWebImg(object):

    def __init__(self, url, index):

        self.url = url

        self.index = index

    def get_urls(self,img_girl):

        '''

        :param img_girl: <img>标签内容

        :return: 所有图片的url

        '''

        all_urls = [girl.get('src') for girl in img_girl]

        return all_urls

    def get_img_name(self,img_girl):

        '''

        :param img_girl:  <img>标签内容

        :return: 所有图片title

        '''

        all_name = [girl.get('title') for girl in img_girl]

        return all_name

    def get_img_resource(self, url):

        '''

        :param url:网站url

        :return:网页源码中的所有<img>标签内容

        '''

        headers = {

            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.78 Safari/537.36',

            'Accept - Language': 'zh - CN, zh;q = 0.8'

            }  # 添加请求头部，模拟浏览器

        req = urllib.request.Request(url, headers=headers)  # 创建对象

        res = urllib.request.urlopen(req, timeout=20)  # 发送请求

        content = res.read()  # 获取响应网页源码

        soup = BeautifulSoup(content, 'html.parser')  # HMTL源码解析

        img_girl = soup.find_all('img')  # 获取 源码中的<img>标签模块内容

        return img_girl

    def main(self):

        '''

        下载保存图片

        :param url: 网站url

        '''

        url_list = self.get_urls(self.get_img_resource(self.url))

        name_list = self.get_img_name(self.get_img_resource(self.url))

        x = 1

        for src_url in url_list:

            path_l = re.split(r'\W', name_list[url_list.index(src_url)])  # 去除图片名称中的特殊字符,不然文件名可能在保存的时候报错

            path = ''.join(path_l)

            path = 'E:\Python\爬图片\BS4\{name}_{index}_{id}.jpg'.format(name=path, index=self.index,id =x)

            urllib.request.urlretrieve(src_url, path)

            print('第{index}页第{id}张图片下载OK'.format(index=self.index,id =x))

            x += 1

if __name__ == "__main__":

    urls = ['https://www.dbmeinv.com/dbgroup/show.htm?cid=4&pager_offset={i}'.format(i=id)for id in range(1,10) ]

    index = 1

    for url in urls:

        get_img = GetWebImg(url,index)

        get_img.main()

        index += 1

运行结果：

python网络爬虫抓取网站图片的更多相关文章

如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
利用Python网络爬虫抓取微信好友的签名及其可视化展示
前几天给大家分享了如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化,利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,以及利用Python网络爬虫抓取微信好友的所 ...
利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化
前几天给大家分享了如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,感兴趣的小伙伴可以点击链接进行查看.今天小编给大家介绍如何利用Python网络爬虫抓取微信好友的省位和城市,并且将 ...
如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例
前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态(上)和利用Python网络爬虫爬取微信朋友圈动态——附代码(下),并且对抓取到的数据进行了Python词云和wordart可视化,感兴趣 ...
Python入门-编写抓取网站图片的爬虫-正则表达式
//生命太短我用Python! //Python真是让一直用c++的村里孩子长知识了! 这个仅仅是一个测试,成功抓取了某网站1000多张图片. 下一步要做一个大新闻大工程 #config = ut ...
python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...
使用selenium实现简单网络爬虫抓取MM图片
撸主听说有个网站叫他趣,里面有个社区,其中有一项叫他趣girl,撸主点进去看了下,还真不错啊,图文并茂,宅男们自己去看看就知道啦~ 接下来当然就是爬取这些妹子的图片啦,不仅仅是图片,撸主发现里面的对话 ...
Python -- 网络编程 -- 抓取网页图片 -- 豆瓣妹子
首先分析页面URL,形如http://dbmeizi.com/category/[1-14]?p=[0-476] 图片种类对应编号: 1:'性感', 2:'有沟', 3:'美腿', 4:'小露点', ...
Python -- 网络编程 -- 抓取网页图片 -- 图虫网
字符串(str)编码成字节码(bytes),字节码解码为字符串获取当前环境编码:sys.stdin.encoding url编码urllib.parse.quote() url解码urllib.pa ...

随机推荐

ark是什么
https://github.com/QuadHex/ARK/releases 0.8.0版本网络使用evpp 调用 https://www.jianshu.com/p/9f09928829ba
转：Struts2返回JSON数据的具体应用范例
http://blog.csdn.net/jspamd/article/details/8810109 纠错: <result type="json" name=" ...
[Python]Python章1　Python中_的故事
_xx 单下划线开头 Python中没有真正的私有属性或方法,可以在你想声明为私有的方法和属性前加上单下划线,以提示该属性和方法不应在外部调用.如果真的调用了也不会出错,但不符合规范. 本文为译文,版 ...
[Hbase]Hbase容灾方案
介绍两种HBase的数据备份或者容灾方案:Snapshot,Replication: 一.Snapshot 开启快照功能,在hbase-site.xml文件中添加如下配置项: <property ...
如何用xx-net上youtube
1.下载https://github.com/XX-net/XX-Net/blob/master/code/default/download.md 里面的稳定版本 2.下载chrome.百度chr ...
Java学习笔记：23种设计模式
设计模式(Design pattern)的定义: In software engineering, a software design pattern is a general, reusable s ...
PSP（3.30——4.5）以及周记录
1.PSP 3.30 12:00 13:00 10 50 Account前端 A Y min 13:00 13:20 0 20 站立会议 A Y min 15:15 17:00 20 85 Accou ...
浅谈 [Ljava.lang.Object 异常
http://blog.csdn.net/goodleiwei/article/details/7059567 主要原因:取出的是对象的数组,需要遍历单个的对象并获取想用的属性值
vi三种模式的切换
基础上vi/vim共分为三种模式,分别是命令模式,输入模式和底线命令模式. 一.命令模式用户刚刚启动vi/vim,便进入了命令模式. 在此状态下敲击键盘动作会被vim识别为命令,而非输入字符.比如我 ...
powerdesiginer 生成oracle脚本问题，一步解决
select * from tablename时, 总是提示错误:table or view does not exits 但是在user_tables中却可以看到刚建立的表. 原因是powerDes ...

python网络爬虫抓取网站图片

python网络爬虫抓取网站图片的更多相关文章

随机推荐

热门专题