Crawl(2)

http://cuiqingcai.com/3179.html

 # *-* coding: UTF-8 *-*

 import urllib2

 import cookielib

 import re

 import time

 import os

 ####################################

 #cookie

 cookie = cookielib.CookieJar()

 handler = urllib2.HTTPCookieProcessor(cookie)

 opener = urllib2.build_opener(handler)

 #####

 def mkdir(path):

     path = path.strip()

     # 判断路径是否存在

     # 存在    True

     # 不存在  Flase

     isExists = os.path.exists(path)

     if not isExists:

         print u'新建了名字叫做',path,u'的文件夹'

         # 创建目录操作函数

         os.makedirs(path)

         return True

     else:

         # 如果目录存在则不创建，并提示目录已经存在

         print u'名为',path,u'的文件夹已经创建成功'

         return False

 #####

 def saveImages(imglist,name):

     print u'共 %s张图片' %len(imglist)

     number = 1

     for imageURL in imglist:

         fileName = name + "/" + str(number) + ".jpg"

         # 对于每张图片地址，进行保存

         try:

             u = urllib2.urlopen(imageURL, timeout = 10)

             print ''

             data = u.read()

             print ''

             f = open(fileName,'wb+')

             print ''

             f.write(data)

             print u'正在保存的一张图片为',fileName

             f.close()

         except Exception, e:

             print Exception,":",e

         break

         #保存封面，大图一般太大，截图过大，容易超时

         number += 1

 #####

 if __name__ == '__main__':

     patter = r'<span id="thread_(\d{7})">'

     reg = re.compile(patter)

     for i in range(1, 5):#前5页

         if i%10 == 0: print 'now is %s' %i

         req = urllib2.Request('http://38.103.161.179/forum/forumdisplay.php?fid=230&filter=type&typeid=172&page=%s' %str(i))

         html = unicode(opener.open(req).read(), 'gbk')

         tar = reg.findall(html)

         for jpos, j in enumerate(tar):#遍历所有子链接

             req2 = urllib2.Request('http://38.103.161.179/forum/viewthread.php?tid='+j)

             html2 = unicode(opener.open(req2).read(), 'gbk')

             endpos = html2.index(u'附件</h4>')

             stapos = html2.index(u'格式')

             html2 = html2[stapos:endpos]

             #print html2

             patter2 = r'src="(.+?\.jpg)"'

             reg2 = re.compile(patter2)

             tar2 = reg2.findall(html2)

             path = u'图集'+str(i)+u'之图'+str(jpos)

             mkdir(path)

             saveImages(tar2, path)

     exit()

感谢weiyinfu学长指出。

urllib2用requests替代。

解析页面re用BeautifulSoup替代。

scrapy框架。

遇到验证码，用PIL，opencv，pybrain等。

多线程threading，python并行库框架celery。

Crawl(2)的更多相关文章

How Google TestsSoftware - Crawl, walk, run.
One of the key ways Google achievesgood results with fewer testers than many companies is that we ra ...
SharePoint Error - An unrecognized HTTP response was received when attempting to crawl this item
SharePoint 2013爬网报错 An unrecognized HTTP response was received when attempting to crawl this item. V ...
Creating a SharePoint BCS .NET Connectivity Assembly to Crawl RSS Data in Visual Studio 2010
from:http://blog.tallan.com/2012/07/18/creating-a-sharepoint-bcs-net-assembly-connector-to-crawl-rss ...
SharePoint Search之(两)持续抓取Continues crawl
于SharePoint 2010与在先前的版本号.有两种类型的抓取,Full和Incremental.故名思议.Full Crawl 抓取的时间.该Content Source里面的内容再次攀升.In ...
scrapy crawl 源码修改爬虫多开
import os from scrapy.commands import ScrapyCommand from scrapy.utils.conf import arglist_to_dict fr ...
Scrapy Crawl 运行出错 AttributeError: 'xxxSpider' object has no attribute '_rules' 的问题解决
按照官方的文档写的demo,只是多了个init函数,最终执行时提示没有_rules这个属性的错误日志如下: ...... File "C:\ProgramData\Anaconda3\lib ...
21天打造分布式爬虫-Crawl类爬取小程序社区（八）
8.1.Crawl的用法实战新建项目 scrapy startproject wxapp scrapy genspider -t crawl wxapp_spider "wxapp-uni ...
运行scrapy crawl （文件名）时显示invalid syntax和no modle 'win32api'解决方案
使用pycharm爬取知乎网站的时候,在terminal端输入scarpy crawl zhihu,提示语法错误,如下: 原因是python3.7中将async设为关键字,根据错误提示,找到manho ...
Python.错误解决：scrapy 没有crawl 命令
确保2点: 1.把爬虫.py复制到spiders文件夹里如执行scrapy crawl demo ,spiders里面就要有demo.py文件 2.在项目文件夹内执行命令在scrapy.cfg所在 ...
阅读OReilly.Web.Scraping.with.Python.2015.6笔记---Crawl
阅读OReilly.Web.Scraping.with.Python.2015.6笔记---Crawl 1.函数调用它自身,这样就形成了一个循环,一环套一环: from urllib.request ...

随机推荐

Qt-网易云音乐界面实现-2 红红的程序运行图标，和相似下方音乐条
被调出来出差了,这次出差可以说是非常不开心,这次出差也算给我自己提了个醒吧,那就是注意自己的精力,自己的口碑,和比人对自己的信任.具体内容如下我们公司有一款硬件的设备的电路是外包给某个人来做的,这个 ...
CF刷题-Codeforces Round #481-F. Mentors
题目链接:https://codeforces.com/contest/978/problem/F 题目大意: n个程序员,k对仇家,每个程序员有一个能力值,当甲程序员的能力值绝对大于乙程序员的能力值 ...
kali虚拟机安装后操作[配置ssh,安装vmtools,更新源]
更新源 # 打开控制台, 输入以下命令打开编辑器修改配置文件 $ leafpad /etc/apt/sources.list #kali官方源 deb http://http.kali.org/kal ...
SICP读书笔记 3.4
SICP CONCLUSION 让我们举起杯,祝福那些将他们的思想镶嵌在重重括号之间的Lisp程序员 ! 祝我能够突破层层代码,找到住在里计算机的神灵! 目录 1. 构造过程抽象 2. 构造数据抽象 ...
Datawhale MySQL 训练营 Task4 表联结
学习内容 MySQL别名列别名,将查询或者筛选出来列用AS 命名,如果有空格则需要引号 '' SELECT xxx AS xxxx FROM WHERE GROUP BY HAVING 表别名, 把 ...
VOT工具操作指南（踩过的坑）
为了运行在VOT里DaSiamRPN,配置了很久环境,我电脑的配置是Ubuntu16.04+MatlabR2018a+pytorch0.3. 下面是一些从网上整理的操作步骤: 1.首先是工具箱的下载: ...
Redis源码阅读（一）事件机制
Redis源码阅读(一)事件机制 Redis作为一款NoSQL非关系内存数据库,具有很高的读写性能,且原生支持的数据类型丰富,被广泛的作为缓存.分布式数据库.消息队列等应用.此外Redis还有许多高可 ...
高可用OpenStack（Queen版）集群-6.Nova控制节点集群
参考文档: Install-guide:https://docs.openstack.org/install-guide/ OpenStack High Availability Guide:http ...
Maven打包jar类库
项目目录>mvn clean compile 编译命令,会在你的项目路径下生成一个target目录,在该目录中包含一个classes文件夹,里面全是生成的class文件及字节码文件. 项目目录& ...
笨办法学Python - 习题1: A Good First Program
在windows上安装完Python环境后,开始按照<笨办法学Python>书上介绍的章节进行练习. 习题 1: 第一个程序第一天主要是介绍了Python中输出函数print的使用方法, ...

Crawl(2)

Crawl(2)的更多相关文章

随机推荐

热门专题