一个简单的Python网络爬虫(抓图),针对某论坛.

 #coding:utf-8

 import urllib2

 import re

 import threading

 #图片下载

 def loadImg(addr,x,y,artName):

     data = urllib2.urlopen(addr).read()

     f = open(artName.decode("utf-8")+str(y)+'.jpg', 'wb')

     f.write(data)

     f.close()

 #具体帖子页面解析,得到图片链接地址,并使用loadImg下载 artName为帖子名

 def getImgLink(html,x,artName):

     relink = '<img src=".*" file="(.*)" width=".*" id=".*" alt=".*.jpg" />'

     cinfo = re.findall(relink,html)

     y = 0

     for lin in cinfo:

         imgAddr =  'http://www.xxx.com/'+lin

         print "LoadImg:"+str(x),imgAddr+'\n'

         t = threading.Thread(target=loadImg(imgAddr,x,y,artName)) #使用threading 多线程下载

         t.start()

         y = y+1

 #论坛版块页面解析,得到具体帖子链接

 def getArticleLink(html,page):

     relink = '<a href="(viewthread\.php\?tid=.*3D.*)">(.*)</a>'

     cinfo = re.findall(relink,html)

     x = 1

     for lin in cinfo:

         #print lin,'\n'

         url="http://www.xxx.com/"+lin[0]

         headers={"User-Agent":"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1"}

         req = urllib2.Request(url,headers=headers)

         response= urllib2.urlopen(req)

         html = response.read()

         getImgLink(html,x,lin[1])

         x = x+1

 start = 1 #起始页

 end = 100 #终止页

 for page in range(end):

     url="http://www.xxx.com/forumdisplay.php?fid=19&page="+str(page+start)

     headers={"User-Agent":"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1"}

     req = urllib2.Request(url,headers=headers)

     response= urllib2.urlopen(req)

     html = response.read()

     print'Start'

     getArticleLink(html,page)

一个简单的Python网络爬虫(抓图),针对某论坛.的更多相关文章

第三次作业-Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业过程. 5.写一篇不少于100 ...
一个简单的python爬虫程序
python|网络爬虫概述这是一个简单的python爬虫程序,仅用作技术学习与交流,主要是通过一个简单的实际案例来对网络爬虫有个基础的认识. 什么是网络爬虫简单的讲,网络爬虫就是模拟人访问web ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
Python网络爬虫
http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛 ...
Python 网络爬虫干货总结
Python 网络爬虫干货总结爬取对于爬取来说,我们需要学会使用不同的方法来应对不同情景下的数据抓取任务. 爬取的目标绝大多数情况下要么是网页,要么是 App,所以这里就分为这两个大类别来进行了介 ...
Python网络爬虫与信息提取
1.Requests库入门 Requests安装用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
python网络爬虫之入门[一]
目录前言一.探讨什么是python网络爬虫? 二.一个针对于网络传输的抓包工具fiddler 三.学习request模块来爬取第一个网页 * 扩展内容(爬取top250的网页) 后记 @(目录) ...
Python网络爬虫与信息提取笔记
直接复制粘贴笔记发现有问题文档下载地址//download.csdn.net/download/hide_on_rush/12266493 掌握定向网络数据爬取和网页解析的基本能力常用的 Pytho ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...

随机推荐

shiro 更改登录的用户名
ShiroUser user = (ShiroUser) SecurityUtils.getSubject().getPrincipal(); user.name = newName;
第2章两种调用JS的方法——在HTML中使用JavaScript
一. <script>标记第一种方法是把 <sript></script>直接放到head和script两个标记之间(title下面,</head>上 ...
Behavior Tree
http://www.craft.ai/blog/bt-101-behavior-trees-grammar-basics/ https://github.com/libgdx/gdx-ai/wiki ...
PNG类库
libpng depends on Zlib http://www.libpng.org/pub/png/libpng.html LodePNG http://lodev.org/lodepng/ P ...
ecshop 后台-》广告
1.后台广告宽度限制不能超过1024,高度大于1,admin/ad_position.php 第236行 || $ad_width < ) { make_json_error($_LANG['w ...
EF How to use context.Set and context.Entry, which ships with EF4.1 ?
How to use context.Set and context.Entry, which ships with EF4.1 ? Hello, I am trying to implement a ...
Scribe日志收集工具
Scribe日志收集工具概述 Scribe是facebook开源的日志收集系统,在facebook内部已经得到大量的应用.它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文 ...
CentOS安装wordpress权限问题
最近在CentOS6.5上安装wordpress,遇上一个问题,安装好之后外网总是不能再网页进行配置,想了半天应该是源代码文件的权限问题,具体问题与解决如下: 如果你的wordpress安装目录是wo ...
zabbix特性
在知道zabbix是什么之后,我们最关心的是zabbix有什么特性,了解特性之后,我们才能决定是否会使用zabbix,以及zabbix是否适合我们. 概述 Zabbix是一个高度集成的网络监控套件,通 ...
VIP卡
VIP卡:http://item.taobao.com/item.htm?id=6826715667&ali_refid=a3_420435_1006:1102617497:6::683ff3 ...

一个简单的Python网络爬虫(抓图),针对某论坛.

一个简单的Python网络爬虫(抓图),针对某论坛.的更多相关文章

随机推荐

热门专题