python3爬虫.3.下载网页图片

目标，豆瓣读书，

下载页面书籍图片。

import urllib.request

import re                   #使用正则表达式

def getJpg(date):

    jpgList = re.findall(r'(img src="http.+?.jpg")([\s\S]*?)(.+?.alt=".+?.")',date)

    return jpgList

def downLoad(jpgUrl,sTitle,n):

    try:

        urllib.request.urlretrieve(jpgUrl,\

            'C:\\Users\\74172\\source\\repos\\Python\\spidertest1\\images\\book.douban\\%s.jpg'  %sTitle)

    except Exception as e:

        print(e)

    finally:

        print('图片%s下载操作完成' % n)  

def getTitle(date):

    titleList = re.findall(r'title=".">',date)

    return titleList

if __name__ == '__main__':

    url = 'https://book.douban.com/'

    res = urllib.request.urlopen(url)

    date = res.read().decode('utf-8')

    date_jpg = getJpg(date)

    imageTitle = getTitle(date)

    global n

    n = 1

    for jpginfo in date_jpg:

        s = re.findall(r'http.+?.jpg',str(jpginfo))

        print(n,'--- url -->',str(s)[2:-2])

        sTitleInfo = re.findall(r'alt=".+?."',str(jpginfo))

        sTitleL = re.findall(r'".+?."',str(sTitleInfo))

        sTitle = str(sTitleL)[3:-3]

        downLoad(s[0],sTitle,n)

        n = n + 1

又做了点修改，并将书名写入txt文件中

import urllib.request

import re                   #使用正则表达式

def getJpg(html):

    jpgList = re.findall(r'(img src="http.+?.jpg")([\s\S]*?)(.+?.alt=".+?.")',html)

    jpgList = re.findall(r'http.+?.jpg',str(jpgList))

    return jpgList

def downLoad(jpgUrl,sTitle,n):

    try:

        urllib.request.urlretrieve(jpgUrl,\

            'C:/Users/74172/source/repos/Python/spidertest1/images/book.douban/%s.jpg'  %sTitle)

    finally:

        print('图片---%s----下载操作完成' % sTitle)  

def getTitle(html):

    titleList = re.findall(r'(img src="http.+?.jpg")([\s\S]*?)(.+?.alt=".+?.")',html)

    titleList = re.findall(r'alt=".+?."',str(titleList))

    titleList = re.findall(r'".+?."',str(titleList))

    return titleList

def writeTxt(imageTitle):

    try:

        #目录建立txt文件

        f = open((url[8:-5]+'.txt'),"a",encoding="utf-8")

        #写入

        f.write(imageTitle+'\n')

    finally:

        if f:

            #关闭文件

            f.close()

if __name__ == '__main__':

    url = 'https://book.douban.com/'

    res = urllib.request.urlopen(url)

    html = res.read().decode('utf-8')

    urlJpgs = getJpg(html)

    imageTitle = getTitle(html)

    n = 0

    for urlJpg in urlJpgs:

        print(n,'--- url -->',urlJpg)

        downLoad(urlJpg,imageTitle[n][1:-1],n)

        writeTxt(imageTitle[n][1:-1])

        n = n + 1

python3爬虫.3.下载网页图片的更多相关文章

Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...
[记录][python]python爬虫，下载某图片网站的所有图集
随笔仅用于学习交流,转载时请注明出处,http://www.cnblogs.com/CaDevil/p/5958770.html 该随笔是记录我的第一个python程序,一个爬去指定图片站点的所有图集 ...
python3爬虫.4.下载煎蛋网妹子图
开始我学习爬虫的目标 ----> 煎蛋网通过设置User-Agent获取网页,发现本该是图片链接的地方被一个js函数代替了于是全局搜索到该函数 function jandan_load_im ...
python3爬虫爬取网页思路及常见问题（原创）
学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...
Python多线程爬虫爬取网页图片
临近期末考试,但是根本不想复习!啊啊啊啊啊啊啊!!!! 于是做了一个爬虫,网址为 https://yande.re,网页图片为动漫美图(图片带点颜色........宅男福利 github项目地址为:h ...
小白学Python（7）——利用Requests下载网页图片、视频
安装 Requests 如果安装了Requests就已经可用了,否则要安装 Requests,只要在你的CMD中运行这个简单命令即可: pip install requests requests使用 ...
python图片爬虫 - 批量下载unsplash图片
前言 unslpash绝对是找图的绝佳场所, 但是进网站等待图片加载真的令人捉急, 仿佛是一场拼RP的战争然后就开始思考用爬虫帮我批量下载, 等下载完再挑选, 操作了一下不算很麻烦, 顺便也给大家提 ...
python脚本工具－1 制作爬虫下载网页图片
参考:http://www.cnblogs.com/fnng/p/3576154.html 本文参考虫师的博客“python实现简单爬虫功能”,整理分析后抓取其他站点的图片并下载保存在本地. 抓取图片 ...

随机推荐

虚拟机Centos设置静态IP
首先确保虚拟网卡(VMware Network Adapter VMnet8)是开启的,然后在windows的命令行里输入“ipconfig /all”,找到VMware Network Adapte ...
HttpWebRequest 保存Cookies,模拟Session登录
前面使用HttpWebRequest 对象可以抓取网页中一些资料,不过有些页面可以直接打开,而有些页面必登录之后才能打开,也就是在登录后保存登录信息在Session,这样就可以访问有权限的页面了.下面 ...
使用android资源
1.我们可以命名的资源种类有多少? 答: res/anim/ XML文件,它们被编译进逐帧动画(frame by frame animation)或补间动画(tweened animation)对象 ...
两个list比较相等元素
1.实现方式 public class list { public static void main(String[] args) { List<String> list1 = new A ...
Eclipse中使用git提交代码，报错Testng 运行Cannot find class in classpath的解决方案
一.查找原因方式 1.点击Project——>Clear...——>Build Automatically 2.查看问题二.报错因素 1.提交.xlsx文件 2.提交时,.xlsx文件被 ...
【NuGet】使用NuGet打包并发布至ProGet过程（步骤详细，附python脚本）【上篇】
一.基本知识 (1)NuGet : NuGet是一个为大家所熟知的Visual Studio扩展,通过这个扩展,开发人员可以非常方便地在Visual Studio中安装或更新项目中所需要的第三方组件, ...
python之选择排序
选择排序:比如在一个长度为N的无序数组中,在第一趟遍历N个数据,找出其中最小的数值与第一个元素交换,第二趟遍历剩下的N-1个数据,找出其中最小的数值与第二个元素交换......第N-1趟遍历剩下的2个 ...
Hbase(三) hbase协处理器与二级索引
一.协处理器—Coprocessor 1. 起源Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和.计数.排序等操作.比如,在旧版本的(<0.92)Hb ...
【单调队列】【P3957】跳房子
传送门 Description 跳房子,也叫跳飞机,是一种世界性的儿童游戏,也是中国民间传统的体育游戏之一. 跳房子的游戏规则如下: 在地面上确定一个起点,然后在起点右侧画 $n$ 个格子,这些格子都 ...
Centos7.3 安装 OpenCV3.3.0
一开始会出现这个错误: CMake Error at CMakeLists.txt: (message): FATAL: In-source builds are not allowed. You s ...

python3爬虫.3.下载网页图片

python3爬虫.3.下载网页图片的更多相关文章

随机推荐

热门专题