python-抓取图片

今天看到博客园一个文章，python抓取图片，也没看内容，心想自己也写一个抓取脚本试试看，一方面自己也在学习python，另一方面毕竟实际工作也经常会遇到这种需要临时写脚本的时候，突击锻炼还是好的嘛。

#-*-coding:utf-8

'''

抓取博客园图片

'''

import urllib2

import urllib

import re

import os

import datetime

import time

blogurl="http://www.cnblogs.com/"

srcPattern=r'src="(.*)" alt'

picsrcpre="http://pic.cnitblog.com/face"

def getPageHtmlCode():

    pagehtmlcode=urllib2.urlopen(blogurl).read()

    return pagehtmlcode

def IsPicLink(link):

    '''

    其实抓取图片的话，还可以直接根据img标签来找图片,我这里变成了把所有

    的src链接都抓下来，判断图片了

    '''

    if link.startswith(picsrcpre) and re.findall("jpg|png",link):

        return True

    else:

        return False

def extractSrcLinkFromHtmlCode():

    pagehtmlcode=getPageHtmlCode()

    picsrcgroup=re.findall(srcPattern,pagehtmlcode)

    return picsrcgroup

def genFileName(srclink):

    picdir="d:\\pic\\"

    #本意是想一个图片地址比如:http://pic.cnitblog.com/face/u323232.jpg 用u323232.jpg来作为文件名

    picname=os.path.join(picdir,urllib2.urlparse.urlparse(srclink).path.lstrip(r"/face/").replace(r"/",""))

    return picname

def main():

    srclinkgroup=extractSrcLinkFromHtmlCode()

    for srclink in srclinkgroup:

        if IsPicLink(srclink):

            urllib.urlretrieve(srclink,genFileName(srclink))

if __name__=="__main__":

    main()

python-抓取图片的更多相关文章

【python】网络爬虫抓取图片
利用python抓取网络图片的步骤: 1.根据给定的网址获取网页源代码 2.利用正则表达式把源代码中的图片地址过滤出来 3.根据过滤出来的图片地址下载网络图片今天我们用http://www.umei ...
Python抓取网页中的图片到本地
今天在网上找了个从网页中通过图片URL,抓取图片并保存到本地的例子: #!/usr/bin/env python # -*- coding:utf- -*- # Author: xixihuang # ...
python3用BeautifulSoup抓取图片地址
# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #抓取图片地址 from bs4 i ...
Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）
概要这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取(1.抓取数据) http://blog.csdn.net/jokerkon/article/details/50868 ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
使用 Python 抓取欧洲足球联赛数据
Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤数据的采集和获取数据的清洗,抽取,变形和装载数据的分析,探索和预测 ...
python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
python抓取网页例子
python抓取网页例子最近在学习python,刚刚完成了一个网页抓取的例子,通过python抓取全世界所有的学校以及学院的数据,并存为xml文件.数据源是人人网. 因为刚学习python,写的代码 ...
Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
Python抓取页面中超链接(URL)的3中方法比较(HTMLParser.pyquery.正则表达式) HTMLParser版: #!/usr/bin/python # -*- coding: UT ...
ffmpeg 从视频流中抓取图片
从视频中不断抓取图片的基本流程:打开视频流地址->获取视频流packt->解码成图片帧->输出图片一.初始化Ffmpeg void ffmpegInit(){ av_registe ...

随机推荐

OC基础(9)
OC中的私有方法 @property基本概念 @synthesize基本概念 @property增强 @property修饰符 *:first-child { margin-top: 0 !impor ...
Cocos2d-x 3.4版本新建项目 IOS版
打开终端 cd进入cocos2d-x-3.0/tools/cocos2d-console/bin 然后执行下面命令 ./cocos.py new testHuoFei -p com.huofei.ap ...
VS2010 MSDN配置
安装VS2010之后总是要装MSDN的,不然写起程序来还真不方便.前段时间换了电脑后,折腾了好久才把VS和MSDN装好,所以为了方便自己和别人特地把配置MSDN的详细步骤写出来: 1． ...
c/c++笔记
string 若要根据字典序比较string类型的大小,只需要用><=就可以啦例如: string s1="abcz"; string s2="abcd&q ...
Android杂谈--网络状态判断
许多联网应用都在开始运行的时候检查当前网络状态,如果没有开启则去开启它,记录一下以前写程序时的网络检查,发现人的记忆力真是有限,总是隔段时间久忘记,所以记录下来是最好的记忆. 我们可以在一开始启动程序 ...
Iptables 防火墙开放常见的22,53,80端口
用iptables防火墙 iptables -F # 允许包从22端口进入 iptables -A INPUT -p tcp --dport 22 -j ACCEPT # 允许从22端口进入的包返回 ...
【Unity Shaders】学习笔记——SurfaceShader（六）混合纹理
[Unity Shaders]学习笔记——SurfaceShader(六)混合纹理转载请注明出处:http://www.cnblogs.com/-867259206/p/5619810.html 写 ...
简单JS实现对表的行的增删
这段代码非常的简单,仅仅作为自己的一个小小的记录! ok,先上一个简单的图例,效果如下(注意:这只是一个简单的例子,不过可以根据这个简单的例子,变化出更为复杂的效果)! 代码也非常的简单,如下所示(注 ...
6 个优秀的开源 OCR 光学字符识别工具
转自:http://sigvc.org/bbs/thread-870-1-1.html 纸张在许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成.而过去几年,无纸化办公的概念发生了显 ...
Andriod基础——Adapter类
Android是完全遵循MVC模式设计的框架,Activity是Controller,layout是View,因为layout五花八门,很多数据都不能直接绑定上去,所以Android引入了Adapte ...

python-抓取图片

python-抓取图片的更多相关文章

随机推荐

热门专题