使用pyspider爬取巨量淘宝MM图片

具体搭建步骤不再赘述，这里主要使用到了fakeagent，phantomjs和proxy

pyspider的爬取相当智能，在不能获取图片的时候会适当的暂停一段时间再试探性的爬取，配合fakeagent，proxypool和phantomjs，爬取成功率在90%以上。

代码是扒的别人的然后修改提高速度和成功率的，数据总量在百G左右，磁盘大的可以扒一扒。

代码如下：

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# Created on 2016-03-25 00:59:45

# Project: taobaomm

from pyspider.libs.base_handler import *

from fake_useragent import UserAgent

import base64

import requests

import random

import sys

reload(sys)

sys.setdefaultencoding('UTF-8') 

PAGE_START = 1

PAGE_END = 4301

DIR_PATH = '/root/images/tbmm'

class Handler(BaseHandler):

    r = requests.get(u'http://127.0.0.1:5010/get_all/')

    proxy = random.choice(eval(r.text))

    ua = UserAgent()

    crawl_config = {

        "proxy": proxy,

        "headers":{

            "User-Agent": ua.random

        },

    }

    def __init__(self):

        self.base_url = 'https://mm.taobao.com/json/request_top_list.htm?page='

        self.page_num = PAGE_START

        self.total_num = PAGE_END

        self.deal = Deal()

    def on_start(self):

        while self.page_num <= self.total_num:

            url = self.base_url + str(self.page_num)

            self.crawl(url, callback=self.index_page)

            self.page_num += 1

    def index_page(self, response):

        for each in response.doc('.lady-name').items():

            self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')

    def detail_page(self, response):

        domain = response.doc('.mm-p-domain-info li > span').text()

        if domain:

            page_url = 'https:' + domain

            self.crawl(page_url, callback=self.domain_page)

    def domain_page(self, response):

        name = base64.b64encode(response.doc('.mm-p-model-info-left-top dd > a').text())

        dir_path = self.deal.mkDir(name)

        brief = response.doc('.mm-aixiu-content').text()

        if dir_path:

            imgs = response.doc('.mm-aixiu-content img').items()

            count = 1

            self.deal.saveBrief(brief, dir_path, name)

            for img in imgs:

                url = img.attr.src

                if url:

                    extension = self.deal.getExtension(url)

                    file_name = name + str(count) + '.' + extension

                    count += 1

                    self.crawl(img.attr.src, callback=self.save_img,

                               save={'dir_path': dir_path, 'file_name': file_name})

    def save_img(self, response):

        content = response.content

        dir_path = response.save['dir_path']

        file_name = response.save['file_name']

        file_path = dir_path + '/' + file_name

        self.deal.saveImg(content, file_path)

import os

class Deal:

    def __init__(self):

        self.path = DIR_PATH

        if not self.path.endswith('/'):

            self.path = self.path + '/'

        if not os.path.exists(self.path):

            os.makedirs(self.path)

    def mkDir(self, path):

        path = path.strip()

        dir_path = self.path + path

        exists = os.path.exists(dir_path)

        if not exists:

            os.makedirs(dir_path)

            return dir_path

        else:

            return dir_path

    def saveImg(self, content, path):

        f = open(path, 'wb')

        f.write(content)

        f.close()

    def saveBrief(self, content, dir_path, name):

        file_name = dir_path + "/" + name + ".txt"

        f = open(file_name, "w+")

        f.write(content.encode('utf-8'))

    def getExtension(self, url):

        extension = url.split('.')[-1]

        return extension

使用pyspider爬取巨量淘宝MM图片的更多相关文章

python爬虫爬取京东、淘宝、苏宁上华为P20购买评论
爬虫爬取京东.淘宝.苏宁上华为P20购买评论 1.使用软件 Anaconda3 2.代码截图三个网站代码大同小异,因此只展示一个 3.结果(部分) 京东淘宝苏宁 4.分析这三个网站上的评论数据 ...
Python爬虫(三)爬淘宝MM图片
直接上代码: # python2 # -*- coding: utf-8 -*- import urllib2 import re import string import os import shu ...
Python爬虫开源项目代码，爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等代码整理
作者:SFLYQ 今天为大家整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [ ...
23个Python爬虫开源项目代码：爬取微信、淘宝、豆瓣、知乎、微博等
来源:全球人工智能作者:SFLYQ 今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.Wec ...
使用Python 爬取京东，淘宝。商品详情页的数据。（避开了反爬虫机制）
以下是爬取京东商品详情的Python3代码,以excel存放链接的方式批量爬取.excel如下代码如下 from selenium import webdriver from lxml import ...
转载｜23个Python爬虫开源项目代码：爬取微信、淘宝、豆瓣、知乎、微博等
地址:https://ask.julyedu.com/article/323
Python爬虫之一 PySpider 抓取淘宝MM的个人信息和图片
ySpider 是一个非常方便并且功能强大的爬虫框架,支持多线程爬取.JS动态解析,提供了可操作界面.出错重试.定时爬取等等的功能,使用非常人性化. 本篇通过做一个PySpider 项目,来理解 Py ...
python 爬虫实战4 爬取淘宝MM照片
本篇目标抓取淘宝MM的姓名,头像,年龄抓取每一个MM的资料简介以及写真图片把每一个MM的写真图片按照文件夹保存到本地熟悉文件保存的过程 1.URL的格式在这里我们用到的URL是 http:/ ...
芝麻HTTP：Python爬虫实战之抓取淘宝MM照片
本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式在这里我们用到的URL ...

随机推荐

Maven管理jar包依赖常出现的不能实例化类的问题
you'ji 在maven管理jar包依赖时,存在一种常见的问题. pom.xml文件配置没问题,通过eclipse里中的maven dependencies查看,也确实有这个jar 包,或者这个类. ...
bootstrap table导出功能无效报错Uncaught INVALID_CHARACTER_ERR: DOM Exception 5和导出中文乱码问题
由于表格数据中含有中文导致的,在网页的开发者选项中报一个 Uncaught INVALID_CHARACTER_ERR: DOM Exception 5 问题.这个问题是由于BootStrap tab ...
数据结构与算法之PHP实现队列、栈
一.队列 1)队列(Queue)是一种先进先出(FIFO)的线性表,它只允许在表的前端进行删除操作,在表的后端进行插入操作,进行插入操作的端称为队尾,进行删除操作的端称为队头.即入队只能从队尾入,出队 ...
IQueryable 与 IEnumberable 接口的区别
IQueryable 与 IEnumberable 接口的区别是: IEnumberable<T> 泛型类在调用自己的 SKip 和 Take 等扩展方法之前数据就已经加载在本地内存里了, ...
Cassandra内部架构
Cassandra是一个开源的.分布式.无中心节点.弹性可扩展.高可用.容错.一致性协调.面向列的NoSQL数据库 Cassandra集群(Cluster) Cluster Data center(s ...
操作远程RabbitMQ
1.连接远程RabbitMQ 访问 http://your ip address:15672 通用帐号为guest,密码为guest:也可以使用自己创建的账号注:your ip address只你 ...
BIO,NIO的区别，使用场景。
一.什么是io? i就是input,输入,o就是output,输出,合起来就是以流为基本的输入输出. 二.传统的io 传统的服务器端同步阻塞I/O处理(也就是BIO,Blocking I/O): 当客 ...
ActiveMQ 集群和主从
举例说明:假设有 3 个 broker 节点,分别是61616,61618, 61620,其中 61616 和 61618 组成主.从节点,而 61616(或61618)和 61620 构成集群.61 ...
【转载】《Learn More Study Less》整体性学习方法
原文忘记在哪里看到这本书的介绍了,据说是一个小子自学1年,完成了4年麻省理工的课程,然后写了一本他学习方法的书.我搜了一下,居然中英文版都有,就花时间好好读了一遍,就是这本. 以下是这本书的完整笔记 ...
SpringMVC解析Json字符串
不同第三方jar对json串的解析效果不同. 1. json包 <dependency> <groupId>org.json</groupId> <artif ...

使用pyspider爬取巨量淘宝MM图片

使用pyspider爬取巨量淘宝MM图片的更多相关文章

随机推荐

热门专题