Crawl(2)

http://cuiqingcai.com/3179.html

 # *-* coding: UTF-8 *-*

 import urllib2

 import cookielib

 import re

 import time

 import os

 ####################################

 #cookie

 cookie = cookielib.CookieJar()

 handler = urllib2.HTTPCookieProcessor(cookie)

 opener = urllib2.build_opener(handler)

 #####

 def mkdir(path):

     path = path.strip()

     # 判断路径是否存在

     # 存在    True

     # 不存在  Flase

     isExists = os.path.exists(path)

     if not isExists:

         print u'新建了名字叫做',path,u'的文件夹'

         # 创建目录操作函数

         os.makedirs(path)

         return True

     else:

         # 如果目录存在则不创建，并提示目录已经存在

         print u'名为',path,u'的文件夹已经创建成功'

         return False

 #####

 def saveImages(imglist,name):

     print u'共 %s张图片' %len(imglist)

     number = 1

     for imageURL in imglist:

         fileName = name + "/" + str(number) + ".jpg"

         # 对于每张图片地址，进行保存

         try:

             u = urllib2.urlopen(imageURL, timeout = 10)

             print ''

             data = u.read()

             print ''

             f = open(fileName,'wb+')

             print ''

             f.write(data)

             print u'正在保存的一张图片为',fileName

             f.close()

         except Exception, e:

             print Exception,":",e

         break

         #保存封面，大图一般太大，截图过大，容易超时

         number += 1

 #####

 if __name__ == '__main__':

     patter = r'<span id="thread_(\d{7})">'

     reg = re.compile(patter)

     for i in range(1, 5):#前5页

         if i%10 == 0: print 'now is %s' %i

         req = urllib2.Request('http://38.103.161.179/forum/forumdisplay.php?fid=230&filter=type&typeid=172&page=%s' %str(i))

         html = unicode(opener.open(req).read(), 'gbk')

         tar = reg.findall(html)

         for jpos, j in enumerate(tar):#遍历所有子链接

             req2 = urllib2.Request('http://38.103.161.179/forum/viewthread.php?tid='+j)

             html2 = unicode(opener.open(req2).read(), 'gbk')

             endpos = html2.index(u'附件</h4>')

             stapos = html2.index(u'格式')

             html2 = html2[stapos:endpos]

             #print html2

             patter2 = r'src="(.+?\.jpg)"'

             reg2 = re.compile(patter2)

             tar2 = reg2.findall(html2)

             path = u'图集'+str(i)+u'之图'+str(jpos)

             mkdir(path)

             saveImages(tar2, path)

     exit()

感谢weiyinfu学长指出。

urllib2用requests替代。

解析页面re用BeautifulSoup替代。

scrapy框架。

遇到验证码，用PIL，opencv，pybrain等。

多线程threading，python并行库框架celery。

Crawl(2)的更多相关文章

How Google TestsSoftware - Crawl, walk, run.
One of the key ways Google achievesgood results with fewer testers than many companies is that we ra ...
SharePoint Error - An unrecognized HTTP response was received when attempting to crawl this item
SharePoint 2013爬网报错 An unrecognized HTTP response was received when attempting to crawl this item. V ...
Creating a SharePoint BCS .NET Connectivity Assembly to Crawl RSS Data in Visual Studio 2010
from:http://blog.tallan.com/2012/07/18/creating-a-sharepoint-bcs-net-assembly-connector-to-crawl-rss ...
SharePoint Search之(两)持续抓取Continues crawl
于SharePoint 2010与在先前的版本号.有两种类型的抓取,Full和Incremental.故名思议.Full Crawl 抓取的时间.该Content Source里面的内容再次攀升.In ...
scrapy crawl 源码修改爬虫多开
import os from scrapy.commands import ScrapyCommand from scrapy.utils.conf import arglist_to_dict fr ...
Scrapy Crawl 运行出错 AttributeError: 'xxxSpider' object has no attribute '_rules' 的问题解决
按照官方的文档写的demo,只是多了个init函数,最终执行时提示没有_rules这个属性的错误日志如下: ...... File "C:\ProgramData\Anaconda3\lib ...
21天打造分布式爬虫-Crawl类爬取小程序社区（八）
8.1.Crawl的用法实战新建项目 scrapy startproject wxapp scrapy genspider -t crawl wxapp_spider "wxapp-uni ...
运行scrapy crawl （文件名）时显示invalid syntax和no modle 'win32api'解决方案
使用pycharm爬取知乎网站的时候,在terminal端输入scarpy crawl zhihu,提示语法错误,如下: 原因是python3.7中将async设为关键字,根据错误提示,找到manho ...
Python.错误解决：scrapy 没有crawl 命令
确保2点: 1.把爬虫.py复制到spiders文件夹里如执行scrapy crawl demo ,spiders里面就要有demo.py文件 2.在项目文件夹内执行命令在scrapy.cfg所在 ...
阅读OReilly.Web.Scraping.with.Python.2015.6笔记---Crawl
阅读OReilly.Web.Scraping.with.Python.2015.6笔记---Crawl 1.函数调用它自身,这样就形成了一个循环,一环套一环: from urllib.request ...

随机推荐

优化JDBC开发
一.元数据元数据:数据库.表.列的定义信息 1.DataBaseMetaData对象 getURL():返回一个String类对象,代表数据库的URL. getUserName():返回连接当前数据 ...
GitHub笔记（三）——分支管理和多人协作
三.分支管理 0 语句: 查看分支:git branch 创建分支:git branch <name> 切换分支:git checkout <name> 创建+切换分支:git ...
机器学习算法 --- Naive Bayes classifier
一.引言在开始算法介绍之前,让我们先来思考一个问题,假设今天你准备出去登山,但起床后发现今天早晨的天气是多云,那么你今天是否应该选择出去呢? 你有最近这一个月的天气情况数据如下,请做出判断. 这个月 ...
Tree - Information Theory
This will be a series of post about Tree model and relevant ensemble method, including but not limit ...
Win7-64位PowerDesigner下MySQLODBC驱动问题
操作系统:win7-64位,PowerDesigner15.1(以下简称PD), MYSQL-ODBC-64驱动.安装完MYSQL-ODBC-64却找不到相关驱动,用PD反导数据库,却找不到Mysql ...
Servlet各版本web.xml的头文件配置模板
原文: http://www.codeweblog.com/servlet%E5%90%84%E7%89%88%E6%9C%ACweb-xml%E7%9A%84%E5%A4%B4%E6%96%87%E ...
jQuery获取复选框选中的每一个值
$('input[name="serviceMode"]:checked').each(function(){ this.attr('value') });
20145214 《网络对抗技术》 MSF基础应用
20145214 <网络对抗技术> MSF基础应用 1.实验后回答问题--用自己的话解释什么是exploit,payload,encode 如果把MSF比作一把枪的话,payload应该是 ...
EDK_II环境搭建与测试
一. 环境准备 Windows 10 (64位)专业版 Visual Studio 2010旗舰版(默认路径安装) Mscrosoft SDKs 7.0A BIOS综合包里的EDK开发环境二. 实验 ...
SpringMVC（二）-- springmvc的系统学习之跳转结果的方式
资源: 尚学堂邹波 springmvc框架视频若无特别注明,例子项目的配置方式为注解一.设置ModelAndView对象. 1.根据View的名称和视图解析器跳转到指定的页面. 2.跳转的 ...

Crawl(2)

Crawl(2)的更多相关文章

随机推荐

热门专题