直接上代码:

# python2

# -*- coding: utf-8 -*-

import urllib2

import re

import string

import os

import shutil

def crawl_taobaoMM(baseUrl, start, end):

    imgDir = 'mm_img'

    isImgDirExist = os.path.exists(imgDir)

    if not isImgDirExist:

        os.makedirs(imgDir)

    else:

        shutil.rmtree(imgDir)

    fileName = 'mm.txt'

    picNumber = 0

    with open(fileName, 'a') as f:

        for i in range(start, end + 1):

            url = baseUrl + '?page=' + str(i)

            userAgent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6)' \

                        ' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'

            headers = {'user-agent': userAgent}

            req = urllib2.Request(url, headers=headers)

            response = urllib2.urlopen(req).read().decode('gbk')

            # 图片url、姓名、年龄、城市、职业

            serchPattern = r'<div class="personal-info">.*?<img src="//(.*?)".*?<a class="lady-name".*?>(.*?)' \

                           r'</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>.*?<em>(.*?)</em>'

            searchObj = re.compile(serchPattern, re.S)

            results = searchObj.findall(response)

            print '第' + str(i) + '页...'

            for result in results:

                message = '%s %s %s %s %s\n' % (result[0], result[1], result[2], result[3], result[4])

                print picNumber

                print message

                f.write(message.encode('utf-8'))

                pic = urllib2.urlopen('https://' + result[0]).read()

                picName = imgDir + '/' + string.zfill(picNumber, 5) + '.jpg'

                with open(picName, 'wb') as pf:

                    pf.write(pic)

                picNumber += 1

crawl_taobaoMM('https://mm.taobao.com/json/request_top_list.htm', 1, 10)

爬下来的图片:

参考资料:

Python爬虫实战四之抓取淘宝MM照片

Python爬虫(三)爬淘宝MM图片的更多相关文章

【python】抄写爬淘宝已买到的宝贝的代码
教程地址:http://cuiqingcai.com/1076.html 这一篇掌握的不好.虽然代码可以跑,但是里面的很多东西都一知半解.需要有空的时候系统整理. 原代码中的正则表达式已经失效了,我自 ...
使用pyspider爬取巨量淘宝MM图片
具体搭建步骤不再赘述,这里主要使用到了fakeagent,phantomjs和proxy pyspider的爬取相当智能,在不能获取图片的时候会适当的暂停一段时间再试探性的爬取,配合fakeagent ...
用pyspider爬淘宝MM照片
#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2016-12-09 15:24:54 # Project: taobaomm ...
Python爬虫之一 PySpider 抓取淘宝MM的个人信息和图片
ySpider 是一个非常方便并且功能强大的爬虫框架,支持多线程爬取.JS动态解析,提供了可操作界面.出错重试.定时爬取等等的功能,使用非常人性化. 本篇通过做一个PySpider 项目,来理解 Py ...
python 爬虫实战4 爬取淘宝MM照片
本篇目标抓取淘宝MM的姓名,头像,年龄抓取每一个MM的资料简介以及写真图片把每一个MM的写真图片按照文件夹保存到本地熟悉文件保存的过程 1.URL的格式在这里我们用到的URL是 http:/ ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
一次Python爬虫的修改，抓取淘宝MM照片
这篇文章是2016-3-2写的,时隔一年了,淘宝的验证机制也有了改变.代码不一定有效,保留着作为一种代码学习. 崔大哥这有篇>>小白爬虫第一弹之抓取妹子图不失为学python爬虫的绝佳教 ...
芝麻HTTP：Python爬虫实战之抓取淘宝MM照片
本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式在这里我们用到的URL ...
Python爬虫之爬取淘女郎照片示例详解
这篇文章主要介绍了Python爬虫之爬取淘女郎照片示例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧本篇目标抓取淘宝MM ...

随机推荐

今日写一篇散文 Textview settext 方法不能放入 int 参数不然报错！
Textview settext 方法不能放入 int 参数不然报错!
L14梯度消失、梯度爆炸
梯度消失.梯度爆炸以及Kaggle房价预测梯度消失和梯度爆炸考虑到环境因素的其他问题 Kaggle房价预测梯度消失和梯度爆炸深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸( ...
Mysql大厂高频面试题
前言前几天有读者找到我,说想要一套全面的Mysql面试题,今天陈某特地为她写了一篇. 文章的目录如下: Mysql面试题什么是SQL? 结构化查询语言(Structured Query Langu ...
Oracle使用fy_recover_data恢复truncate删除的数据
(一)truncate操作概述在生产中,truncate是使用的多的命令,在使用不当的情况下,往往会造成表的数据全部丢失,恢复较为困难.对于truncate恢复,常见的有以下几种方法可以进行恢复: ...
vue2.x学习笔记（二十二）
接着前面的内容:https://www.cnblogs.com/yanggb/p/12633051.html. 自定义指令简介除了核心功能默认内置的指令([v-mode]和[v-show]等),v ...
python中文资源大全
Python 资源大全中文版我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列的资源整理.awesome-python 是 vinta 发起维护的 Python 资源列 ...
Java 多线程--ThreadLocal Timer ExecutorService
ThreadLocal /** * ThreadLocal:每个线程自身的存储本地.局部区域 * @author xzlf * */ public class ThreadLocalTest01 { ...
iOS appium
1.如果没有安装过Homebrew,先安装homebrew /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/ ...
隐藏响应中的server和X-Powered-By
来源:https://www.yduba.com/biancheng-7831560074.html 有时候,我们用调试工具查看别人的网站时,经常看到 X-Powered-By:PHP/7.1.8 这 ...
window servet 2012 r2 配置php服务器环境
绑定:https://jingyan.baidu.com/article/0bc808fc2c6a851bd485b92a.html 配置环境:http://www.jb51.net/article/ ...

Python爬虫(三)爬淘宝MM图片

Python爬虫实战四之抓取淘宝MM照片

Python爬虫(三)爬淘宝MM图片的更多相关文章

随机推荐

热门专题