python简易爬虫来实现自动图片下载

　　菜鸟新人刚刚入住博客园，先发个之前写的简易爬虫的实现吧，水平有限请轻喷。

　　估计利用python实现爬虫的程序网上已经有太多了，不过新人用来练手学习python确实是个不错的选择。本人借鉴网上的部分实现加以改造实现网页图片地址提取和下载。首先找到你感兴趣的网页，以bbs论坛为例，查看网页的源代码发现图片下载的链接地址类似如下：

　　所以找到了属性href值就可以解析出我们的下载地址了（要加入当前url前缀才是绝对地址呦）。用python写个处理网页的函数可以这样

 def getImg(html,page):

     reg = r'attachment.php?.+" '

     imgre = re.compile(reg)

     imglist = imgre.findall(html)

     x = 0

     import os

     path = "d:\\picture\\"

     title = "%s\\" %page

     new_path = os.path.join(path, title)

     if not os.path.isdir(new_path):

         os.makedirs(new_path)

     for imgurl in imglist:

         imgurl=imgurl[:imgurl.find('"')]

         imgurl=imgurl.rstrip('"')

         print imgurl

         imgurl="http://xxxxxx/"+imgurl

         f = urllib2.urlopen(imgurl)

         with open(new_path+"%s.gif" % x, "wb") as code:

             code.write(f.read())

             x = x + 1

以上用的是最简单的正则匹配，将解析后的图片下载保存到D盘picture目录。
有时候论坛是要登录的，所以处理模拟登录这块根据你所处理的网站会稍许不同，实现模拟登陆功能大部分是提交登陆表单。这里就要用到python发送登陆表单请求消息了，利用httpfox插件获取登陆的post信息，

 ef login(weburl,username,password,page):

     cookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())

     opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)

     urllib2.install_opener(opener)

     postdata=urllib.urlencode({

                            'loginfield':'username',

                            'formhash':gethash(weburl),

                             'password':password,

                             'username':username,

                             'questionid':0,

                             'answer':'',

                             'loginsubmit':'true'})

     postdata=postdata.encode(encoding='UTF8')

     header = {'User-Agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)'}

     posturl=weburl

     req = urllib2.Request(posturl,postdata)

     result = urllib2.urlopen(req).read()

     Url="http://xxxxxxxxxx/viewthread.php?tid=14943&extra=page%3D1&page="

     Url=Url+("%s" % page)

     result=getHtml(Url);

     return result

到这边都是比较简单实现的，稍微麻烦点的是请求表单中postdata中需要获取随机的hash值，因此首先要解析出你登陆界面中的那个formhash，这个用re模块简单解析处理一下就ok了

 def gethash(url):

     page = urllib2.urlopen(url)

     html = page.read()

     reg = r'name="formhash" value=".+"'

     hashre = re.compile(reg)

     hashvalue=hashre.findall(html)

     pos=(hashvalue[0]).index('value=')

     hash=(hashvalue[0])[pos+6:]

     print hash.strip('"')

     return hash.strip('"')

,以上就是用到的大部分函数了，当然解析网页还有更多的好用的模块比如beautifulsoup等等，简单研究一下应该就能实现一个简易的爬虫程序了。

第一次在园子写东西，写的比较乱，以后改进。接下来准备介绍一下如何用python实现一个RSS阅读器。

python简易爬虫来实现自动图片下载的更多相关文章

Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片
Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片, ...
爬虫系列1：python简易爬虫分析
决定写一个小的爬虫系列,本文是第一篇,讲爬虫的基本原理和简易示例. 1.单个网页的简易爬虫以下爬虫的主要功能是爬取百度贴吧中某一页面的所有图片.代码由主要有两个函数:其中getHtml()通过页面u ...
一篇文章教会你利用Python网络爬虫获取电影天堂视频下载链接
[一.项目背景] 相信大家都有一种头疼的体验,要下载电影特别费劲,对吧?要一部一部的下载,而且不能直观的知道最近电影更新的状态. 今天小编以电影天堂为例,带大家更直观的去看自己喜欢的电影,并且下载下来 ...
Python简易爬虫爬取百度贴吧图片
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
【Python】Python简易爬虫爬取百度贴吧图片
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
python简易爬虫实现
目的:爬取昵称目标网站:糗事百科依赖的库文件:request.sys.beautifulSoup4.imp.io Python使用版本:3.4 说明:参考http://cn.python-requ ...
python网络爬虫抓取网站图片
本文介绍两种爬取方式: 1.正则表达式 2.bs4解析Html 以下为正则表达式爬虫,面向对象封装后的代码如下: import urllib.request # 用于下载图片 import os im ...
Python多线程爬虫爬取网页图片
临近期末考试,但是根本不想复习!啊啊啊啊啊啊啊!!!! 于是做了一个爬虫,网址为 https://yande.re,网页图片为动漫美图(图片带点颜色........宅男福利 github项目地址为:h ...
python +requests 爬虫-爬取图片并进行下载到本地
因为写12306抢票脚本需要用到爬虫技术下载验证码并进行定位点击所以这章主要讲解,爬虫,从网页上爬取图片并进行下载到本地爬虫实现方式: 1.首先选取你需要的抓取的URL:2.将这些URL放入待抓 ...

随机推荐

Git代码管理常用命令
1) 远程仓库相关命令检出仓库:$ git clone git://github.com/jquery/jquery.git查看远程仓库:$ git remote -v添加远程仓库:$ git re ...
判断一个url地址是不是404状态（用curl函数）
<?php $url = "http://www.kxblogs.com/n/20161108/74429879.html"; $ch = curl_init (); cur ...
斐讯k1路由器刷Breed BootLoader（不死UBoot）教程
刷入Breed BootLoader: 因为这个K1路由器可以开启telnet服务,所以此处刷Breed可以不使用编程器刷Flash芯片的方法进行. 1.打开K1路由器的Telnet服务. 电脑通过有 ...
HTML 表格<table><caption><th><tr><td><thead><tbody><tfoot><col><colgroup>
<table>标签: 定义和用法: <table>标签定义HTML表格. 简单的HTML表格由table元素以及一个或多个tr.th或td元素组成. tr元素定义表格行,th元 ...
IIS部署WCF网站服务步骤
一开始在“管理工具”下找不到IIS的快捷方式,是因为系统默认未打开IIS功能,所以首先打开IIS功能: 为避免出现未知的麻烦,建议将IIS下的所有项都勾上: 创建IIS桌面快捷方式: 添加网站托管: ...
关于nginx反向代理后获取不到客户端的真实ip地址问题
前段时间在我的网站上用nginx做了一下反向代理,最近发现不能获取客户端ip了,都是拿到的127.0.0.1的本地ip... 通过查资料后,再去看了看我的配置文件,结果发现我没有如下配置: nginx ...
RPM
1.安装RPM 使用-ivh选项即可,能查看安装信息和进度. 例如: #RPM -ivh XXX.rpm RPM升级与更新,使用-Uvh选项或者-Fvh选项,两者略有区别. -Uvh选项:后面接的软件 ...
php ob_start()、ob_end_flush和ob_end_clean()多级缓冲
ob_start() 和 ob_end_flush() 是一对很好的搭档,可以实现对输出的控制.当成一对出现理解起来就没什么问题,但是当他们两个各自出现次数增加时,就比较难理解了. <?php ...
powershell玩转SQL SERVER所有版本
微软发布了最新的powershell for sql server 2016命令行客户端库.文章介绍了与之相关的实用方法. powershell 传教士原创文章 2016-06-05, 2016-1 ...
同上遍历obj的值来定义当前的后台数据在页面的定位
function getlistRoom(obj) { //obj就是通过ajax传过来的 data for (var i = 0; i < obj.length; i++) {//遍历数据 v ...

python简易爬虫来实现自动图片下载

python简易爬虫来实现自动图片下载的更多相关文章

随机推荐

热门专题