Python从网页上爬取图片

在搜索壁纸的时候，想把壁纸保存到本地，一张一张的保存太过麻烦，所以想到用Python来爬取壁纸。

设计思路：

1.首先先去找有壁纸的网页：

http://www.acfun.cn/a/ac3345210

2.然后使用urllib.request解析网页得到网页源代码

html= urlopen(url)
bs0bj=BeautifulSoup(html,"lxml")

3.然后使用正则表达式检索图片链接：

imglist = bs0bj.findAll("img",{"src":re.compile("http://imgs.*?live.*?jpg")}

4.最后将图片下载到本地：

urlretrieve(url,'e:\\test\\%s.jpg'%name)

源码：

 from urllib.request import urlopen

 from urllib.request import urlretrieve

 from bs4 import BeautifulSoup as da

 import re

 ulist=[]

 localDir = 'D:\ImageDownload\2017-5-7'

 def getlink(url):

     html= urlopen(url)

     bs0bj=da(html,"lxml")

     imglist = bs0bj.findAll("img",{"src":re.compile("http://imgs.*?live.*?jpg")})

     for img in imglist:

         imgdict=dict(img.attrs)#将检索的字符串转换为字典

         imgt=imgdict['src']#提取链接

         ulist.append(imgt)#将图片链接存放到一个列表里

     return(ulist)

 ur="http://www.acfun.cn/a/ac3345210"

 urllist=getlink(ur)#获取图片链接

 b=len(urllist)

 name=0

 localname = localDir+str(name)

 for url in urllist:

     urlretrieve(url,'e:\\test\\%s.jpg'%name)#下载图片并将图片用数字命名

     name+=1

     print(int((name/b)*100),'%')

运行后，图片保存在E：\\test;

Python从网页上爬取图片的更多相关文章

Python编写网页爬虫爬取oj上的代码信息
OJ升级,代码可能会丢失. 所以要事先备份. 一開始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启示和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 p ...
python如何使用request爬取图片
下面是代码的简单实现,变量名和方法都是跑起来就行,没有整理,有需要的可以自己整理下: image2local: import requests import time from lxml import ...
利用python定位网页上的元素
1. 想对网页上的元素进行操作,首先需要定位到元素. 以百度首页为例: 输入以下代码,打开百度首页: # coding = gbk from selenium import webdriver chr ...
Python爬虫学习 - day1 - 爬取图片
利用Python完成简单的图片爬取最近学习到了爬虫,瞬时觉得很高大上,想取什么就取什么,感觉要上天.这里分享一个简单的爬取汽车之家文章列表的图片教程,供大家学习. 需要的知识点储备本次爬虫脚本依赖 ...
python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提升爬取效率,请求传参(meta),五大核心组件,中间件
# settings 配置 UA USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, l ...
PYTHON 利用ImagePipeline专门爬取图片
自定义file_path()函数,即可以原有图像文件名为名来保存,并分类保存 def file_path(self, request, response=None, info=None): image ...
python下载网页上公开数据集
URL很简单,数据集分散开在一个URL页面上,单个用手下载很慢,这样可以用python辅助下载: 问题:很多国外的数据集,收到网络波动的影响很大,最好可以添加一个如果失败就继续请求的逻辑,这里还没有实 ...
python网络爬虫之爬取图片
今天使用requests和BeautifulSoup爬取了一些图片,还是很有成就感的,注释可能有误,希望大家多提意见: 方法一:requests import requests from bs4 im ...
python +requests 爬虫-爬取图片并进行下载到本地
因为写12306抢票脚本需要用到爬虫技术下载验证码并进行定位点击所以这章主要讲解,爬虫,从网页上爬取图片并进行下载到本地爬虫实现方式: 1.首先选取你需要的抓取的URL:2.将这些URL放入待抓 ...

随机推荐

Spring Boot使用HandlerInterceptorAdapter和WebMvcConfigurerAdapter实现原始的登录验证
HandlerInterceptorAdapter的介绍:http://www.cnblogs.com/EasonJim/p/7704740.html,相当于一个Filter拦截器,但是这个颗粒度更细 ...
在Studio中使用Access数据库时，提示“未在本地计算机上注册“Microsoft.ACE.OLEDB.12.0”提供程序”
错误提示:
【Nginx】惊群问题
转自:江南烟雨惊群问题的产生在建立连接的时候,Nginx处于充分发挥多核CPU架构性能的考虑,使用了多个worker子进程监听相同端口的设计,这样多个子进程在accept建立新连接时会有争抢,这会 ...
linux上安装启动elasticsearch-5.5.1完整步骤
linux上安装启动elasticsearch-5.5.1完整步骤学习了:https://blog.csdn.net/hingcheung/article/details/77144574 http ...
全文搜索引擎 Elasticsearch 安装
全文搜索引擎 Elasticsearch 安装学习了:http://www.ruanyifeng.com/blog/2017/08/elasticsearch.html 拼音:https://www ...
SqlServer 经常使用分页方法总结
SqlServer 经常使用分页方法总结以下演示样例总结了,SqlServer数据库经常使用分页方法,仅供学习參考 A. 使用 RowNumber 和 Between And 组合分页: /*** ...
吉哥系列故事——完美队形II（hdu4513+Manacher）
吉哥系列故事--完美队形II Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 65535/32768 K (Java/Others) T ...
Java面试通关要点汇总整理【终极版】(转载)
简历篇请自我介绍请介绍项目基础篇基本功面向对象的特征 final, finally, finalize 的区别 int 和 Integer 有什么区别重载和重写的区别抽象类和接口有什么区 ...
初探active mq
mq(message queue),即消息队列,目前比较流行消息队列是active mq 和kafka.本文介绍如何简单的使用active mq. ActiveMQ官网下载地址:http://acti ...
小贝_mysql数据库备份与恢复
mysql数据库备份与恢复简要: 一.数据库备份二.数据库恢复一.数据库备份 1.备份简单说明 : 系统执行中,增量备份与总体备份例: 每周日总体备份一次,周一到周 ...

Python从网页上爬取图片

Python从网页上爬取图片的更多相关文章

随机推荐

热门专题