用pyspider爬淘宝MM照片

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# Created on 2016-12-09 15:24:54

# Project: taobaomm

from pyspider.libs.base_handler import *

PAGE_START = 1

PAGE_END = 30

DIR_PATH = 'D:\mzitu\mmmm'

class Handler(BaseHandler):

    crawl_config = {

    }

    def __init__(self):

        self.base_url = 'https://mm.taobao.com/json/request_top_list.htm?page='

        self.page_num = PAGE_START

        self.total_num = PAGE_END

        self.deal = Deal()

    def on_start(self):

        while self.page_num <= self.total_num:

            url = self.base_url + str(self.page_num)

            self.crawl(url, callback=self.index_page, validate_cert = False)

            self.page_num += 1

    def index_page(self, response):

        for each in response.doc('.lady-name').items():

            self.crawl(each.attr.href, callback=self.detail_page, validate_cert = False, fetch_type='js')

    def detail_page(self, response):

        domain = response.doc('.mm-p-domain-info li > span').text()

        if domain:

            page_url = 'https:' + domain

            self.crawl(page_url, callback=self.domain_page, validate_cert = False)

    def domain_page(self, response):

        name = response.doc('.mm-p-model-info-left-top dd > a').text() 　　 ##获取姓名

        dir_path = self.deal.mkDir(name) 　　　　##创建文件夹

        brief = response.doc('.mm-aixiu-content').text()　　　　##获取显示的文本内容

        if dir_path:　　　　##如果文件夹存在

            imgs = response.doc('.mm-aixiu-content img').items()　　##定位到图片

            count = 1　　##定义count 用于后面的自增

            self.deal.saveBrief(brief, dir_path, name)　　##创建一个文本，命名为"名字".txt，将brief中的内容写入文件夹中

            for img in imgs:

                url = img.attr.src  ##获取到图片的url

                if url:

                    extension = self.deal.getExtension(url)  ##调用deal中的getExtension  作用是!!!取到.jpg

                    file_name = name + str(count) + '.' + extension

                    count += 1

                    self.crawl(img.attr.src, callback=self.save_img, validate_cert = False,

                               save={'dir_path': dir_path, 'file_name': file_name})

    def save_img(self, response):

        content = response.content

        dir_path = response.save['dir_path']

        file_name = response.save['file_name']

        file_path = dir_path + '/' + file_name

        self.deal.saveImg(content, file_path)

import os

class Deal:

    def __init__(self):

        self.path = DIR_PATH

        if not self.path.endswith('/'):

            self.path = self.path + '/'

        if not os.path.exists(self.path):

            os.makedirs(self.path)

    def mkDir(self, path):

        path = path.strip()

        dir_path = self.path + path

        exists = os.path.exists(dir_path)

        if not exists:

            os.makedirs(dir_path)

            return dir_path

        else:

            return dir_path

    def saveImg(self, content, path):

        f = open(path, 'wb')

        f.write(content)

        f.close()

    def saveBrief(self, content, dir_path, name):

        file_name = dir_path + "/" + name + ".txt"

        f = open(file_name, "w+")

        f.write(content.encode('utf-8'))

    def getExtension(self, url):

        extension = url.split('.')[-1]

        return extension

用pyspider爬淘宝MM照片的更多相关文章

Python爬虫(三)爬淘宝MM图片
直接上代码: # python2 # -*- coding: utf-8 -*- import urllib2 import re import string import os import shu ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
一次Python爬虫的修改，抓取淘宝MM照片
这篇文章是2016-3-2写的,时隔一年了,淘宝的验证机制也有了改变.代码不一定有效,保留着作为一种代码学习. 崔大哥这有篇>>小白爬虫第一弹之抓取妹子图不失为学python爬虫的绝佳教 ...
python 爬虫实战4 爬取淘宝MM照片
本篇目标抓取淘宝MM的姓名,头像,年龄抓取每一个MM的资料简介以及写真图片把每一个MM的写真图片按照文件夹保存到本地熟悉文件保存的过程 1.URL的格式在这里我们用到的URL是 http:/ ...
芝麻HTTP：Python爬虫实战之抓取淘宝MM照片
本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式在这里我们用到的URL ...
Python爬虫之一 PySpider 抓取淘宝MM的个人信息和图片
ySpider 是一个非常方便并且功能强大的爬虫框架,支持多线程爬取.JS动态解析,提供了可操作界面.出错重试.定时爬取等等的功能,使用非常人性化. 本篇通过做一个PySpider 项目,来理解 Py ...
python爬虫基础之一（爬淘宝）
没想到python如此强大, 今天看一会视频学会了一段python爬虫这就是我今天学到的内容爬去淘宝网关于书包的一些信息,包括价格, #coding=utf-8 import requests#导入 ...
【python】抄写爬淘宝已买到的宝贝的代码
教程地址:http://cuiqingcai.com/1076.html 这一篇掌握的不好.虽然代码可以跑,但是里面的很多东西都一知半解.需要有空的时候系统整理. 原代码中的正则表达式已经失效了,我自 ...
使用pyspider爬取巨量淘宝MM图片
具体搭建步骤不再赘述,这里主要使用到了fakeagent,phantomjs和proxy pyspider的爬取相当智能,在不能获取图片的时候会适当的暂停一段时间再试探性的爬取,配合fakeagent ...

随机推荐

时光倒流程序设计-AlloyTicker
熵与负熵熵遵循熵增原理,即无序非热能与热能之间的转换具有方向性.薛定谔说过:生命本质在于负熵.熵代表的是无序,负熵就是熵的对立,而负熵表示的则是有序.汲取负熵(米饭.面包.牛奶.鸡蛋),可以简单的理 ...
Spring in Action 学习笔记三-AOP
面向切面的Spring 2015年10月9日 11:30 屏幕剪辑的捕获时间: 2015-10-9 14:30 屏幕剪辑的捕获时间: 2015-10-9 ...
emmet 系列（1）基础语法
emmet 系列(1)基础语法 emmet 是一个能显著提升开发html和css开发效率的web开发者工具 emmet基本上目前已知的编辑器都有相应的插件,各个编辑器的emmet插件的下载地址:点我下 ...
使用专业的消息队列产品rabbitmq之centos7环境安装
我们在项目开发的时候都不可避免的会有异步化的问题,比较好的解决方案就是使用消息队列,可供选择的队列产品也有很多,比如轻量级的redis, 当然还有重量级的专业产品rabbitmq,rabbitmq ...
C#相关开发视频
Quickly Generate C# Classes from JSON Responses .NET Compiler Platform ("Roslyn") for the ...
SPI协议及IO模拟
SPI协议 SPI协议网上资料比较多,但是也比较乱,当初在网上搜集的错误资料导致现在比较混乱. SPI协议资料比较正规的是: 1.SPI的规约协议英文文档,例如<摩托罗拉spi协议规范> ...
Unity 重要基础知识点
这是两个月前的学习记录,发出来了下,如果有误欢迎大家指出: 脚本生命周期 //每当脚本被加载时调用一次 // 1. 在Awake中做一些初始化操作 void Awake(){ //初始化publi ...
jenkins邮件配置
jenkins自带的邮件管理太弱了,为了能按自定义的方式发送邮件,需要安装一个插件: Jenkins Email Extension Plugin. 1.配置邮件:通过"系统管理&quo ...
codevs 1285 二叉查找树STL基本用法
C++STL库的set就是一个二叉查找树,并且支持结构体. 在写结构体式的二叉查找树时,需要在结构体里面定义操作符 < ,因为需要比较. set经常会用到迭代器,这里说明一下迭代器:可以类似的把 ...
数组，集合分割函数,join（）
join函数定义如下: // 串联类型为 System.String 的 System.Collections.Generic.IEnumerable<T> 构造集合的成员,其中在每个成员 ...

用pyspider爬淘宝MM照片

用pyspider爬淘宝MM照片的更多相关文章

随机推荐

热门专题