一次Python爬虫的修改，抓取淘宝MM照片

这篇文章是2016-3-2写的，时隔一年了，淘宝的验证机制也有了改变。代码不一定有效，保留着作为一种代码学习。

崔大哥这有篇>>小白爬虫第一弹之抓取妹子图不失为学python爬虫的绝佳教材，动力十足。但是这他篇文章中最下边那段代码中32行应改为img = self.request.get(img_url)才能跑起来，据说这是故意留的坑，记着点啊。

本修改为在原基础上的一次学习与优化，毕竟刚开始学习，故代码中注释有所保留，方便以后回顾与学习语法。

请先了解原来能实现的目标，在此不再赘述，原文地址Python爬虫实战四之抓取淘宝MM照片，感谢作者的代码与思路。

本修改详情

代码改写为python3.5运行，因为3.5版本语法与模块有所变更
增加cookie验证解决跳转
无法保存图片能够容错而不是停止运行
其他细节修改

流程修改为：

加上cookie与伪装浏览器后先保存所有详情页，因为cookie有过期时间，而保存所有图片太耗时，故先保存详情页面下来，再提取网址获取图片。也可以将提取出来的地址保存为文件再导入获取图片，另一个思路而已，皆可行。

代码部分：

spider.py

#!/usr/bin/python

# -*- coding:utf-8 -*-

import urllib.request

import re

import tool

import os

import http.cookiejar

#抓取MM

class Spider:

	#页面初始化

	def __init__(self):

		self.siteURL = 'https://mm.taobao.com/json/request_top_list.htm'

		self.tool = tool.Tool()

	#获取索引页面的内容

	def getPage(self,pageIndex):

		url = self.siteURL + "?page=" + str(pageIndex)

		request = urllib.request.Request(url)

		response = urllib.request.urlopen(request)

		return response.read().decode('gbk')

	#获取索引界面所有MM的信息，list格式

	def getContents(self,pageIndex):

		page = self.getPage(pageIndex)

		pattern = re.compile('<div class="list-item".*?pic-word.*?<a href="(.*?)".*?<img src="(.*?)".*?<a class="lady-name.*?>(.*?)</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',re.S)

		items = re.findall(pattern,page)

		contents = []

		for item in items:

			contents.append([item[0],item[1],item[2],item[3],item[4]])

		return contents

	#获取MM个人详情页面

	def getDetailPage(self,infoURL):

		def makeMyOpener(head = {

			'accept-encoding':'deflate, sdch',

			'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

			'Accept-Language': 'zh-CN,zh;q=0.8',

			#此处填写浏览器发送的cookie数据，开发者模式可捕获

			#'cookie':'',

			'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36'

		}):

			cookie = http.cookiejar.CookieJar()

			opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cookie))

			header = []

			for key, value in head.items():

				elem = (key, value)

				header.append(elem)

			opener.addheaders = header

			return opener

		oper = makeMyOpener()

		uop = oper.open(infoURL)

		data = uop.read().decode('gbk')

		return data

		# response = urllib.request.urlopen(infoURL)

		# return response.read().decode('gbk')

	#获取个人文字简介

	def getBrief(self,page):

		pattern = re.compile('<div class="mm-aixiu-content".*?>(.*?)<!--',re.S)

		result = re.search(pattern,page)

		#print(result.group())

		return self.tool.replace(result.group(1))

	#获取页面所有图片

	def getAllImg(self,page):

		pattern = re.compile('<div class="mm-aixiu-content".*?>(.*?)<!--',re.S)

		#个人信息页面所有代码

		content = re.search(pattern,page)

		#从代码中提取图片

		patternImg = re.compile('<img.*?src="(.*?)"',re.S)

		images = re.findall(patternImg,content.group(1))

		return images

	#保存多张写真图片

	def saveImgs(self,images,name):

		number = 1

		print (u"发现",name,u"共有",len(images),u"张照片")

		for imageURL in images:

			splitPath = imageURL.split('.')

			splitPath=splitPath

			fTail = splitPath.pop()

			if len(fTail) > 3:

				fTail = "jpg"

			fileName = name + "/" + str(number) + "." + fTail

			imageURL='https:'+imageURL

			self.saveImg(imageURL,fileName)

			number += 1

	# 保存头像

	def saveIcon(self,iconURL,name):

		splitPath = iconURL.split('.')

		fTail = splitPath.pop()

		fileName = name + "/icon." + fTail

		self.saveImg(iconURL,fileName)

	#保存个人简介

	def saveBrief(self,content,name):

		fileName = name + "/" + name + ".txt"

		f = open(fileName,"w+")

		print (u"正在保存信息为",fileName)

		f.write(content.decode('utf-8'))

	#保存图片地址页到各文件夹中

	def saveToLocal(self,Li,name):

		fileName = name + "/" +"urlPage.txt"

		print (u"正在保存图片地址页：",fileName)

		#f.write(content.decode('utf-8'))

		# pre=pre.replace("[","")

		# pre=pre.replace("]","")+"\n"

		#print (pre)

		f = open(fileName,"w")

		f.write(Li)

		f.close()

		#追加方式写入当前爬行的名字，后续调用

		content=name+" "

		with open('url.txt', 'a') as url:

			url.write(content)

			url.close()

		print (name+u"追加完成！\n")

	#传入图片地址，文件名，保存单张图片

	def saveImg(self,imageURL,fileName):

		try:

			u = urllib.request.urlopen(imageURL)

			data = u.read()

			f = open(fileName, 'wb')

			f.write(data)

			print (u"正在保存的一张图片为",fileName)

			f.close()

		except urllib.request.URLError as e:

			 print (e.reason)

	#创建新目录

	def mkdir(self,path):

		path = path.strip()

		# 判断路径是否存在

		# 存在	 True

		# 不存在   False

		isExists=os.path.exists(path)

		# 判断结果

		if not isExists:

			# 如果不存在则创建目录

			print (u"新建了名字叫做",path,u'的文件夹')

			# 创建目录操作函数

			os.makedirs(path)

			return True

		else:

			# 如果目录存在则不创建，并提示目录已存在

			print (u"名为",path,'的文件夹已经创建成功')

			return False

	#将一页淘宝MM的信息保存起来

	def savePageInfo(self,pageIndex):

		#获取第一页淘宝MM列表

		contents = self.getContents(pageIndex)

		for item in contents:

			#item[0]个人详情URL,item[1]头像URL,item[2]姓名,item[3]年龄,item[4]居住地

			print (u"发现一位名字叫",item[2],u"年龄",item[3],u",她在",item[4])

			print (u"正在保存",item[2],"的信息")

			print (u"个人详情地址是","https:"+str(item[0]))

			#个人详情页面的URL

			detailURL = "http:"+str(item[0])

			#得到个人详情页面代码

			detailPage = self.getDetailPage(detailURL)

			#获取个人简介

			brief = self.getBrief(detailPage)

			#获取所有图片列表

			images = self.getAllImg(detailPage)

			self.mkdir(item[2])

			#保存个人简介

			self.saveBrief(brief.encode('utf-8'),item[2])

			#保存图片地址页到本地

			self.saveToLocal(detailPage,item[2])

			#保存头像

			self.saveIcon("https:"+str(item[1]),item[2])

	#删除旧名单(如果有)

	def deleteOldTxt(self):

		filename = 'url.txt'

		if os.path.exists(filename):

			os.remove(filename)

			print("\n发现旧名单，已删除\n采集开始\n")

	#传入起止页码，获取MM页面保存

	def savePagesInfo(self,start,end):

		for i in range(start,end+1):

			print (u"正在寻找第",i,u"个地方")

			self.savePageInfo(i)

			#保存图片

			#self.saveImgs(images,item[2])

	#读取名字list

	def openNameList(self):

		with open("url.txt","r") as f:

			for line in f:

				line=line.strip()

				# line.split(",")

				# result.append(line)

				#result.append(line.split(","))

			#\s匹配空格与tab，\s+表示至少一个

			result=re.split(r'\s+',line)

		return result

	#逐个调取文件夹下页面中地址来保存

	def saveAll(self):

		i=spider.openNameList()

		for name in i:

			print ("当前正在保存的是"+name+"的图片")

			filepath=name+"/urlPage.txt"

			with open(filepath,"r") as urlContent:

				urlContent=urlContent.read()

			images=spider.getAllImg(urlContent)

			spider.saveImgs(images,name)

#传入起止页码即可，在此传入了6,10,表示抓取第6到10页的MM

spider = Spider()

spider.deleteOldTxt()

spider.savePagesInfo(6,10)

print("\n第一步保存信息完成，输入y保存所有图片，其他信息退出：")

a=input()

if a=='y':

	spider.saveAll()

else:

	pass

tool.py

#!/usr/bin/python

#-*- coding:utf-8 -*-

import re

#处理页面标签类

class Tool:

    #去除img标签,1-7位空格,

    removeImg = re.compile(r'<img.*?>| {1,7}| ')

    #删除超链接标签

    removeAddr = re.compile(r'<a.*?>|</a>')

    #把换行的标签换为\n

    replaceLine = re.compile(r'<tr>|<div>|</div>|</p>')

    #将表格制表<td>替换为\t

    replaceTD= re.compile(r'<td>')

    #将换行符或双换行符替换为\n

    replaceBR = re.compile(r'<br><br>|<br>')

    #将其余标签剔除r

    removeExtraTag = re.compile(r'<.*?>')

    #将多行空行删除

    removeNoneLine = re.compile(r'\n+')

	#删除 

    removeSpace=re.compile(r' ')

    def replace(self,x):

        x = re.sub(self.removeImg,"",x)

        x = re.sub(self.removeAddr,"",x)

        x = re.sub(self.replaceLine,"\n",x)

        x = re.sub(self.replaceTD,"\t",x)

        x = re.sub(self.replaceBR,"\n",x)

        x = re.sub(self.removeExtraTag,"",x)

        x = re.sub(self.removeNoneLine,"\n",x)

        x = re.sub(self.removeSpace,"",x)

        #strip()将前后多余内容删除

        return x.strip()

cookie获取方式：

注意只取cookie部分复制，把#去掉

实现效果：

总结：

思路很重要，与大家一起学习。小生刚出道，大神勿喷。

欢迎大家探讨。

2016-3-2 By WangZilong

一次Python爬虫的修改，抓取淘宝MM照片的更多相关文章

芝麻HTTP：Python爬虫实战之抓取淘宝MM照片
本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式在这里我们用到的URL ...
Python爬虫之一 PySpider 抓取淘宝MM的个人信息和图片
ySpider 是一个非常方便并且功能强大的爬虫框架,支持多线程爬取.JS动态解析,提供了可操作界面.出错重试.定时爬取等等的功能,使用非常人性化. 本篇通过做一个PySpider 项目,来理解 Py ...
python 爬虫实战4 爬取淘宝MM照片
本篇目标抓取淘宝MM的姓名,头像,年龄抓取每一个MM的资料简介以及写真图片把每一个MM的写真图片按照文件夹保存到本地熟悉文件保存的过程 1.URL的格式在这里我们用到的URL是 http:/ ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
简单的抓取淘宝关键字信息、图片的Python爬虫|Python3中级玩家：淘宝天猫商品搜索爬虫自动化工具（第一篇）
Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇) 淘宝改字段,Bugfix,查看https://github.com/hunterhug/taobaoscrapy.git 由于Gith ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
Python爬虫学习==>第十二章：使用 Selenium 模拟浏览器抓取淘宝商品美食信息
学习目的: selenium目前版本已经到了3代目,你想加薪,就跟面试官扯这个,你赢了,工资就到位了,加上一个脚本的应用,结局你懂的正式步骤需求背景:抓取淘宝美食 Step1:流程分析搜索关键字 ...
python(27) 抓取淘宝买家秀
selenium 是Web应用测试工具,可以利用selenium和python,以及chromedriver等工具实现一些动态加密网站的抓取.本文利用这些工具抓取淘宝内衣评价买家秀图片. 准备工作下 ...
Selenium模拟浏览器抓取淘宝美食信息
前言: 无意中在网上发现了静觅大神(崔老师),又无意中发现自己硬盘里有静觅大神录制的视频,于是乎看了其中一个,可以说是非常牛逼了,让我这个用urllib,requests用了那么久的小白,体会到sel ...

随机推荐

B5G/6G新技术
组网技术:由自组织向自支撑发展:卫星通信(大尺度衰落)采用DTN组网. 多址技术:非正交多址:Polar-SCMA:交织多址:IDMA. 信道技术:多径分集.多普勒分集.OFDM的CP用ZP替代.设计 ...
004_simulink建立子系统
1. 按照<001_创建simulink>文件内容修改 2. 在选中的位置右键,选择create subsystem selection 3. 得到如图所示 4. 双击subsystem进 ...
AcWing P379 捉迷藏题解
Analysis 这道题因为我们要给能到达的两个点都连上,又由于n<=200,所以我们可以用n³的传递闭包来建边,再用匈牙利算法来求二分图最大点独立集. #include<iostream ...
mybatisplus构造器 condition
不为null和不为“”的才会加入到sql语句中
linux系列（十五）：tail命令
1.命令格式: tail[必要参数][选择参数][文件] 2.命令功能: 用于显示指定文件末尾内容,不指定文件时,作为输入信息进行处理.常用查看日志文件. 3.命令参数: -f 循环读取 -q 不显示 ...
（6）打鸡儿教你Vue.js
循环语句循环使用 v-for 指令 <div id="app"> <ol> // 有序 <li v-for="item in items& ...
css添加了原始滚动条要隐藏滚动条的显示
// 添加伪类 <style> ::-webkit-scrollbar {display:none} </style> <div style=" width:2 ...
10月清北学堂培训 Day 2
今天是杨溢鑫老师的讲授~ T1 物理题,不多说(其实是我物理不好qwq),注意考虑所有的情况,再就是公式要推对! #include<bits/stdc++.h> using namespa ...
c++ 将字符串转换为数字
int string2int(string x); int string2int(string x){ int a; string res=x; stringstream ss; ss << ...
常用的os库笔记
1.创建文件 import os os.mkdir('d:/log') 2.重命名文件 import os os.rename('d:/log','d:/newlog') 3.删除文件 import ...

一次Python爬虫的修改，抓取淘宝MM照片

一次Python爬虫的修改，抓取淘宝MM照片的更多相关文章

随机推荐

热门专题