python简易爬虫来实现自动图片下载
菜鸟新人刚刚入住博客园,先发个之前写的简易爬虫的实现吧,水平有限请轻喷。
估计利用python实现爬虫的程序网上已经有太多了,不过新人用来练手学习python确实是个不错的选择。本人借鉴网上的部分实现加以改造实现网页图片地址提取和下载。首先找到你感兴趣的网页,以bbs论坛为例,查看网页的源代码发现图片下载的链接地址类似如下:
<p class="imgtitle">
<a href="attachment.php?aid=48812&k=176431dd98231d60e6614082ac2ce5b9&t=1387945675&fid=4&nothumb=yes&sid=4398hG%2BmnnlYG4UAc6QgsughqDa2Svrm7MIu8tShB1s%2F3QI" onmouseover="showMenu(this.id,false,2)" id="aid48812" class="bold" target="_blank">img-fa6533d1b03dee194f0636a69eea5c64.jpg</a>
所以找到了属性href值就可以解析出我们的下载地址了(要加入当前url前缀才是绝对地址呦)。用python写个处理网页的函数可以这样
def getImg(html,page):
reg = r'attachment.php?.+" '
imgre = re.compile(reg)
imglist = imgre.findall(html)
x = 0
import os
path = "d:\\picture\\"
title = "%s\\" %page
new_path = os.path.join(path, title)
if not os.path.isdir(new_path):
os.makedirs(new_path) for imgurl in imglist:
imgurl=imgurl[:imgurl.find('"')]
imgurl=imgurl.rstrip('"')
print imgurl
imgurl="http://xxxxxx/"+imgurl
f = urllib2.urlopen(imgurl)
with open(new_path+"%s.gif" % x, "wb") as code:
code.write(f.read())
x = x + 1
以上用的是最简单的正则匹配,将解析后的图片下载保存到D盘picture目录。
有时候论坛是要登录的,所以处理模拟登录这块根据你所处理的网站会稍许不同,实现模拟登陆功能大部分是提交登陆表单。这里就要用到python发送登陆表单请求消息了,利用httpfox插件获取登陆的post信息,
ef login(weburl,username,password,page):
cookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())
opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)
urllib2.install_opener(opener)
postdata=urllib.urlencode({
'loginfield':'username',
'formhash':gethash(weburl),
'password':password,
'username':username,
'questionid':0,
'answer':'',
'loginsubmit':'true'})
postdata=postdata.encode(encoding='UTF8')
header = {'User-Agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)'}
posturl=weburl
req = urllib2.Request(posturl,postdata)
result = urllib2.urlopen(req).read()
Url="http://xxxxxxxxxx/viewthread.php?tid=14943&extra=page%3D1&page="
Url=Url+("%s" % page)
result=getHtml(Url);
return result
到这边都是比较简单实现的,稍微麻烦点的是请求表单中postdata中需要获取随机的hash值,因此首先要解析出你登陆界面中的那个formhash,这个用re模块简单解析处理一下就ok了
def gethash(url):
page = urllib2.urlopen(url)
html = page.read()
reg = r'name="formhash" value=".+"'
hashre = re.compile(reg)
hashvalue=hashre.findall(html)
pos=(hashvalue[0]).index('value=')
hash=(hashvalue[0])[pos+6:]
print hash.strip('"')
return hash.strip('"')
,以上就是用到的大部分函数了,当然解析网页还有更多的好用的模块比如beautifulsoup等等,简单研究一下应该就能实现一个简易的爬虫程序了。
第一次在园子写东西,写的比较乱,以后改进。接下来准备介绍一下如何用python实现一个RSS阅读器。
python简易爬虫来实现自动图片下载的更多相关文章
- Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片
Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片 其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片, ...
- 爬虫系列1:python简易爬虫分析
决定写一个小的爬虫系列,本文是第一篇,讲爬虫的基本原理和简易示例. 1.单个网页的简易爬虫 以下爬虫的主要功能是爬取百度贴吧中某一页面的所有图片.代码由主要有两个函数:其中getHtml()通过页面u ...
- 一篇文章教会你利用Python网络爬虫获取电影天堂视频下载链接
[一.项目背景] 相信大家都有一种头疼的体验,要下载电影特别费劲,对吧?要一部一部的下载,而且不能直观的知道最近电影更新的状态. 今天小编以电影天堂为例,带大家更直观的去看自己喜欢的电影,并且下载下来 ...
- Python简易爬虫爬取百度贴吧图片
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
- 【Python】Python简易爬虫爬取百度贴吧图片
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
- python简易爬虫实现
目的:爬取昵称 目标网站:糗事百科 依赖的库文件:request.sys.beautifulSoup4.imp.io Python使用版本:3.4 说明:参考http://cn.python-requ ...
- python网络爬虫抓取网站图片
本文介绍两种爬取方式: 1.正则表达式 2.bs4解析Html 以下为正则表达式爬虫,面向对象封装后的代码如下: import urllib.request # 用于下载图片 import os im ...
- Python多线程爬虫爬取网页图片
临近期末考试,但是根本不想复习!啊啊啊啊啊啊啊!!!! 于是做了一个爬虫,网址为 https://yande.re,网页图片为动漫美图(图片带点颜色........宅男福利 github项目地址为:h ...
- python +requests 爬虫-爬取图片并进行下载到本地
因为写12306抢票脚本需要用到爬虫技术下载验证码并进行定位点击所以这章主要讲解,爬虫,从网页上爬取图片并进行下载到本地 爬虫实现方式: 1.首先选取你需要的抓取的URL:2.将这些URL放入待抓 ...
随机推荐
- Web开发中管理ipad屏幕的方向变化
Web开发中,我们会遇到在手机垂直或水平视角时展示不同状态的情况.下面我来总结一下检测移动设备方向变化的一些方法. 1 使用javascript 直接看代码: <script type=&quo ...
- win7远程连接 您的凭据不工作
1.查看远程连接有没有打开:计算机->属性->远程设置. 2.如果上面开启了还是不行,找到开始--- 运行-- 输入 gpedit.msc,打开注册表编辑器:然后依次找到菜单,计算机配置- ...
- Windows 10系统更换Windows 7系统磁盘分区注意事项二
1.在原WIN10系统中将硬盘的GPT分区表格式转换为MBR分区表格式 上一篇关于新机预装WIN10系统更换为WIN7系统中说到需要将硬盘的GPT分区表格式转换为MBR分区表格式,在文章末尾给出的链接 ...
- CentOS_7.2服务器前期
一.禁用SELinux:# 永久禁用,需要重启生效: sed -i 's/SELINUX=enforcing/SELINUX=disabled/g' /etc/sysconfig/selinux se ...
- MVC5+EF6 入门完整教程十一:细说MVC中仓储模式的应用
摘要: 第一阶段1~10篇已经覆盖了MVC开发必要的基本知识. 第二阶段11-20篇将会侧重于专题的讲解,一篇文章解决一个实际问题. 根据园友的反馈, 本篇文章将会先对呼声最高的仓储模式进行讲解. 文 ...
- touch的属性
touch命令:建立文件 touch的功能并不是用来创建新文件的,创建文件是touch命令的一个特殊情况,touch是用来修改指定的文件的访问和修改时间属性,如果指定的文件不存在,将建立一个新的空 ...
- javascript无线端的判断
经常在工作中要求网页做这样的处理判断:针对无线端的网页,我们需要兼容一种异于PC端的网页效果. 如下代码就可以实现无线端的判断: var mobs = ['android', 'ipad', 'ipo ...
- WCF初探文章列表
WCF初探-1:认识WCF WCF初探-6:WCF服务配置 WCF初探-2:手动实现WCF程序 WCF初探-7:WCF服务配置工具使用 WCF初探-3:WCF消息交换模式之单向模式 WCF初探-8:W ...
- String字符串类课后作业
String动手动脑和课后作业 请运行以下示例代码StringPool.java,查看其输出结果.如何解释这样的输出结果?从中你能总结出什么? 结果: 总结:在Java中,内容相同的字串常量(&quo ...
- iOS中文网址路径转换URLEncode
如果返回的URL中有中文可以用此方法转换 今天发现一个蛋疼的问题,服务端返回的urlString里面有时含有中文,使用 [NSURL URLWithString:urlString]生成URL对象时, ...