今天,又算是浪费了一天了。python爬虫,之前写过简单的版本,那个时候还不懂原理,现在算是收尾吧。

以前对网页爬虫不了解,感觉非常神奇,但是解开这面面纱,似乎里面的原理并不是很难掌握。首先,明白一个概念,HTTP协议,为什么叫超文本协议。超文本的概念,是所有的数据几乎都使用文本模式传输,包括文字,图像等,然后在一个网页中,需要做的是解析这些字符数据,并还原成原始的文件。

爬虫的概念,是以一个网页作为起点,从中发现更多的链接和数据信息,并依此以树形展开,可以想象成为一颗树,对每一个网页,需要按照需求对数据进行筛选(找图片,呢还是找关键字,或者找音频等),最后,根据筛选出的URL,对数据进行下载。大致步骤为:

网页==》网页树==》筛选信息==》下载

笔者这里就以网页图片作为例子:

比如,一张网页里,可能有很多张图片,首先最基本的是对这一张网页中所有的图片链接要能够识别出来,这里一般的方法是对网页文本根据正规式进行匹配,从而搜集包含图片的链接。eg:reg = r"""src\s*="?(\S+)\.jpg"""。其次,对于这些链接进行文件。看起来很抽象的东西,这两步就能实现。接着,网页树就有点难,需要从网页中找到有用的网页链接,然后对这些连接又一次进行筛选,有点像递归。这里的难点很多,比如,当网页链接数量非常多的时候,如何有效筛选有效连接,如何控制搜索深度,如何分配进程等等。

另外,由于目前很多国外的网站是上不去的,所以,有些网页数据下载需要通过代理;另外,考虑到有些机器性能较好,也实现了多线程的机制。笔者进行了一天的调研,终于调试通过。以下是代码:

import re
import os
import sys
import time
import threading
import socket
import urllib
import urllib2 server = '127.0.0.1'
port = '8087'
timeout = 720
socket.setdefaulttimeout(timeout) class timer(threading.Thread): #The timer class is derived from the class threading.Thread
def __init__(self, num, interval,dir,url):
threading.Thread.__init__(self)
self.thread_num = num
self.interval = interval
self.url = url
self.dir = dir
self.thread_stop = False
def run(self): #Overwrite run() method, put what you want the thread do here
#while not self.thread_stop:
DownloadImgs(self.interval,self.url,self.dir)
#print 'Thread Object(%d), Time:%s' %(self.thread_num, time.ctime())
#time.sleep(self.interval)
def stop(self):
self.thread_stop = True def getContent(url,type):
print(">>start connecting:%s" % url)
from urllib2 import Request, urlopen, URLError, HTTPError proxy = urllib2.ProxyHandler({'http':'http://127.0.0.1:8087'})
opener = urllib2.build_opener(proxy,urllib2.HTTPHandler)
urllib2.install_opener(opener)
try:
urlHandler = urllib2.urlopen(url)
headers = urlHandler.info().headers
length = 0
for header in headers:
if header.find('Length') != -1:
length = header.split(':')[-1].strip()
length = int(length)
if(type=="img" and length<15000):
print(" >>>>>>>>%d" % length)
dataStr = 'EOF'
else:
print(" ++++++++%d" % length)
dataStr = urlHandler.read()
except HTTPError, e:
print 'The server couldn\'t fulfill the request.'
print 'Error code: ', e.code
except URLError, e:
print 'We failed to reach a server.'
print 'Reason: ', e.reason
else:
# print("%s" % dataStr)
# f = open("text.txt",'wb')
# f.write(dataStr)
# f.close()
return dataStr
def DownloadImgs(interval,url,dir):
dataStr = getContent(url,"html")
print("...:%s" % url)
if(os.path.isdir(dir) == False):
os.mkdir(dir);
reg = r"""src\s*="?(\S+)\.jpg"""
imgre = re.compile(reg)
imglist = imgre.findall(dataStr)
x = 0
for imgurl in imglist:
imgurl =''.join('%s.jpg' % imgurl)
if(imgurl.find('http:')>=0):
print ("\tdownloading: %s,%s" % (x,imgurl))
imgdata=getContent(imgurl,"img")
if(imgdata != 'EOF'):
outputFile = '%s/%s.jpg' % (dir,x)
f = open(outputFile,'wb')
f.write(imgdata)
f.close()
x = x + 1
else:
print ("\tcannot connect: %s" % imgurl)
time.sleep(interval) url_="http://tieba.baidu.com/p/";
id=2460150866;
n=1; thread=[]
for i in range(0, n):
url=''.join('%s%d' % (url_,id + i))
dir=''.join('PIC%d' % (id+i) )
print("######dir = %s, id = %d" % (dir,id+i))
thread.append(timer(1, 1,dir,url))
for i in range(0, n):
thread[i].start() #for i in range(0, n):
# url=''.join('%s%d' % (url_,id + i))
# dir=''.join('PIC%d' % i)
# print("######dir = %s, id = %d" % (dir,id))
# DownloadImgs(0.1,url,dir)

python 网页爬虫+保存图片+多线程+网络代理的更多相关文章

  1. Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱(转)

    原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘 曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...

  2. 【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱

    本文转载自:https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9 ...

  3. Python网页爬虫(一)

    很多时候我们想要获得网站的数据,但是网站并没有提供相应的API调用,这时候应该怎么办呢?还有的时候我们需要模拟人的一些行为,例如点击网页上的按钮等,又有什么好的解决方法吗?这些正是python和网页爬 ...

  4. python网页爬虫开发之七-多线程爬虫示例01

    from urllib.request import quote import urllib.request from bs4 import BeautifulSoup import re impor ...

  5. python网页爬虫开发之二

    1.网站robots robotparser模块首先加载robots.txt文件,然后通过can_fetch()函数确定指定的用户代理是否允许访问网页. 2.识别网站技术 3.下载网页 使用urlli ...

  6. python网页爬虫

    1. 静态页面爬取 这类最简单啦,右键->查看页面源码时,想下载的信息都能够显示在这里,这时只需要直接down页面源码,代码如下: # Simple open web import urllib ...

  7. python网页爬虫小项目开发

    这是我最近接的一个小项目,花了是整整四天多时间. 任务是将http://www.examcoo.com/index/detail/mid/7网站下所有的试卷里的试题全部提取出来,首先按照题型进行分类, ...

  8. 使用Python SocketServer快速实现多线程网络服务器

    Python SocketServer使用介绍 1.简介: SocketServer是python的一个网络服务器框架,可以减少开发人员编写网络服务器程序的工作量. SocketServer总共有4个 ...

  9. python网页爬虫开发之三

    1.抓取目录页后用lxml进行页面解析,获取抓取列表 python3.6 urlparse模块变为urllib.parse 2.Python中有一个专门生成各类假数据的库:Faker 3.python ...

随机推荐

  1. wafer

    Wafer Dicing:晶圆划片 wafer:晶圆 Wafer bumping:晶圆凸起 300mm wafer line:300mm晶圆线 wafer fabrication:晶圆加工 silic ...

  2. 几种MEMS陀螺仪(gyroscope)的设计和性能比较

    现在市场上的MEMS陀螺仪主要有SYSTRON.BOSCH和INVENSENSE设计和生产.前两者设计的陀螺仪属高端产品,主要用于汽车.后者的属低端产品,主要用于消费类电子,象任天堂的Wii.ADI2 ...

  3. 查看实时公网ip

    icanhazip.com 使您在任何地方知道你的公网IP地址 icanhazip.com 使你在任何地方知道你的公网IP地址 icanhazip.com 使你在任何地方知道你的公网IP地址 ican ...

  4. virtualbox 复制多个虚拟机 (宿主机redhat)

    我用VirtualBox做了一个winxp虚拟镜像. 想实现不重新安装而直接复制几个,也就是同时装载几个虚拟机. 但是直接复制已安装好机子的vdi文件,系统会报uuid已存在的错误. 所以,就需要修改 ...

  5. Exception in thread "main" java.io.IOException: Failed to set permissions of path

    在跑BuildForest的时候,编写了下面的程序: package test.breiman; import org.apache.mahout.classifier.df.mapreduce.Bu ...

  6. 剑指offer57 删除链表中重复的结点

    class Solution { public: ListNode* deleteDuplication(ListNode* pHead) { if(!pHead) return pHead; str ...

  7. DayOfWeek中英文星期转换

    DateTime.Now.DayOfWeek;   //英文星期几 var dayOfWeek = new List<string>() { "星期日", " ...

  8. Swift中元组(Tuples),结构体(Struct),枚举(Enums)之间的区别

    Swift有许多种存储数据方式,你可以用枚举(enums),元组(tuples),结构体(structs),类(classes),在这篇文章中我们将比较枚举.元组.结构体之间区别,首先从最简单的开始- ...

  9. huffman 编码

    huffman压缩是一种压缩算法,其中经典的部分就是根据字符出现的频率建立huffman树,然后根据huffman树的构建结果标示每个字符.huffman编码也称为前缀编码,就是每个字符的表示形式不是 ...

  10. 移动端WEB开发 代码片段

    WebApp是指基于Web的系统和应用,其作用是向广大的最终用户发布一组复杂的内容和功能(不明白说的是什么).其实Web APP就是一个针对Iphone.Android等智能手机优化后的web站点,它 ...