使用pyspider爬取巨量淘宝MM图片

具体搭建步骤不再赘述，这里主要使用到了fakeagent，phantomjs和proxy

pyspider的爬取相当智能，在不能获取图片的时候会适当的暂停一段时间再试探性的爬取，配合fakeagent，proxypool和phantomjs，爬取成功率在90%以上。

代码是扒的别人的然后修改提高速度和成功率的，数据总量在百G左右，磁盘大的可以扒一扒。

代码如下：

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# Created on 2016-03-25 00:59:45

# Project: taobaomm

from pyspider.libs.base_handler import *

from fake_useragent import UserAgent

import base64

import requests

import random

import sys

reload(sys)

sys.setdefaultencoding('UTF-8') 

PAGE_START = 1

PAGE_END = 4301

DIR_PATH = '/root/images/tbmm'

class Handler(BaseHandler):

    r = requests.get(u'http://127.0.0.1:5010/get_all/')

    proxy = random.choice(eval(r.text))

    ua = UserAgent()

    crawl_config = {

        "proxy": proxy,

        "headers":{

            "User-Agent": ua.random

        },

    }

    def __init__(self):

        self.base_url = 'https://mm.taobao.com/json/request_top_list.htm?page='

        self.page_num = PAGE_START

        self.total_num = PAGE_END

        self.deal = Deal()

    def on_start(self):

        while self.page_num <= self.total_num:

            url = self.base_url + str(self.page_num)

            self.crawl(url, callback=self.index_page)

            self.page_num += 1

    def index_page(self, response):

        for each in response.doc('.lady-name').items():

            self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')

    def detail_page(self, response):

        domain = response.doc('.mm-p-domain-info li > span').text()

        if domain:

            page_url = 'https:' + domain

            self.crawl(page_url, callback=self.domain_page)

    def domain_page(self, response):

        name = base64.b64encode(response.doc('.mm-p-model-info-left-top dd > a').text())

        dir_path = self.deal.mkDir(name)

        brief = response.doc('.mm-aixiu-content').text()

        if dir_path:

            imgs = response.doc('.mm-aixiu-content img').items()

            count = 1

            self.deal.saveBrief(brief, dir_path, name)

            for img in imgs:

                url = img.attr.src

                if url:

                    extension = self.deal.getExtension(url)

                    file_name = name + str(count) + '.' + extension

                    count += 1

                    self.crawl(img.attr.src, callback=self.save_img,

                               save={'dir_path': dir_path, 'file_name': file_name})

    def save_img(self, response):

        content = response.content

        dir_path = response.save['dir_path']

        file_name = response.save['file_name']

        file_path = dir_path + '/' + file_name

        self.deal.saveImg(content, file_path)

import os

class Deal:

    def __init__(self):

        self.path = DIR_PATH

        if not self.path.endswith('/'):

            self.path = self.path + '/'

        if not os.path.exists(self.path):

            os.makedirs(self.path)

    def mkDir(self, path):

        path = path.strip()

        dir_path = self.path + path

        exists = os.path.exists(dir_path)

        if not exists:

            os.makedirs(dir_path)

            return dir_path

        else:

            return dir_path

    def saveImg(self, content, path):

        f = open(path, 'wb')

        f.write(content)

        f.close()

    def saveBrief(self, content, dir_path, name):

        file_name = dir_path + "/" + name + ".txt"

        f = open(file_name, "w+")

        f.write(content.encode('utf-8'))

    def getExtension(self, url):

        extension = url.split('.')[-1]

        return extension

使用pyspider爬取巨量淘宝MM图片的更多相关文章

python爬虫爬取京东、淘宝、苏宁上华为P20购买评论
爬虫爬取京东.淘宝.苏宁上华为P20购买评论 1.使用软件 Anaconda3 2.代码截图三个网站代码大同小异,因此只展示一个 3.结果(部分) 京东淘宝苏宁 4.分析这三个网站上的评论数据 ...
Python爬虫(三)爬淘宝MM图片
直接上代码: # python2 # -*- coding: utf-8 -*- import urllib2 import re import string import os import shu ...
Python爬虫开源项目代码，爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等代码整理
作者:SFLYQ 今天为大家整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [ ...
23个Python爬虫开源项目代码：爬取微信、淘宝、豆瓣、知乎、微博等
来源:全球人工智能作者:SFLYQ 今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.Wec ...
使用Python 爬取京东，淘宝。商品详情页的数据。（避开了反爬虫机制）
以下是爬取京东商品详情的Python3代码,以excel存放链接的方式批量爬取.excel如下代码如下 from selenium import webdriver from lxml import ...
转载｜23个Python爬虫开源项目代码：爬取微信、淘宝、豆瓣、知乎、微博等
地址:https://ask.julyedu.com/article/323
Python爬虫之一 PySpider 抓取淘宝MM的个人信息和图片
ySpider 是一个非常方便并且功能强大的爬虫框架,支持多线程爬取.JS动态解析,提供了可操作界面.出错重试.定时爬取等等的功能,使用非常人性化. 本篇通过做一个PySpider 项目,来理解 Py ...
python 爬虫实战4 爬取淘宝MM照片
本篇目标抓取淘宝MM的姓名,头像,年龄抓取每一个MM的资料简介以及写真图片把每一个MM的写真图片按照文件夹保存到本地熟悉文件保存的过程 1.URL的格式在这里我们用到的URL是 http:/ ...
芝麻HTTP：Python爬虫实战之抓取淘宝MM照片
本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式在这里我们用到的URL ...

随机推荐

时间序列 ARIMA 模型 (三)
先看下图: 这是1986年到2006年的原油月度价格.可见在2001年之后,原油价格有一个显著的攀爬,这时再去假定均值是一个定值(常数)就不太合理了,也就是说,第二讲的平稳模型在这种情况下就太适用了. ...
[洛谷 P3239] [HNOI2015]亚瑟王
[HNOI2015]亚瑟王题目描述小 K 不慎被 LL 邪教洗脑了,洗脑程度深到他甚至想要从亚瑟王邪教中脱坑.他决定,在脱坑之前,最后再来打一盘亚瑟王.既然是最后一战,就一定要打得漂亮.众所周知, ...
前端web的图标的样式
stund客户端使用结果说明
stun服务器是用于检测网络类型的重要工具. 源码地址:https://svwh.dl.sourceforge.net/project/stun/stun/0.97/stund-0.97.tgz 或者 ...
JavaScript 上万条数据导出Excel文件（改装版）
最近项目要js实现将数据导出excel文件,网上很多插件实现~~那个开心呀,谁知道后面数据量达到上万条时出问题:浏览器不仅卡死,导出的excel文件一直提示网络失败.... debug调试发现var ...
curl和wget的区别和使用
curl和wget基础功能有诸多重叠,如下载等. 非要说区别的话,curl由于可自定义各种请求参数所以在模拟web请求方面更擅长:wget由于支持ftp和Recursive所以在下载文件方面更擅长.类 ...
利用模板导出文件（二）之jacob利用word模板导出word文件（Java2word）
https://blog.csdn.net/Fishroad/article/details/47951061?locationNum=2&fps=1 先下载jacob.jar包.解压后将ja ...
逆袭之旅DAY.XIA.Object中常用方法
2018-07-31
老毛桃制作装机版u盘
启动盘准备工作: ① 老毛桃官网首页下载老毛桃v9.3装机版u盘启动盘制作工具安装到电脑上: ② 准备一个容量大在4G以上并能够正常使用的u盘. 第一步到老毛桃官网中下载老毛桃v9.3安装包到系统桌 ...
day4-python基础-运算符
本章节主要说明Python的运算符.举个简单的例子 4 +5 = 9 . 例子中,4 和 5 被称为操作数,"+" 称为运算符. Python语言支持以下类型的运算符: 算术运算符 ...

使用pyspider爬取巨量淘宝MM图片

使用pyspider爬取巨量淘宝MM图片的更多相关文章

随机推荐

热门专题