scrapy抓取淘宝女郎

准备工作

首先在淘宝女郎的首页这里查看，当然想要爬取更多的话，当然这里要查看翻页的url,不过这操蛋的地方就是这里的翻页是使用javascript加载的，这个就有点尴尬了，找了好久没有找到，这里如果有朋友知道怎样翻页的话，麻烦告诉我一声，谢谢了...，不过就这样坐以待毙了吗，所以就在chrome上搜，结果看到有人直接使用的这个网页,我当时一看感觉神奇的样子，这就是简化版的首页啊，只需要改变page的数字就可以实现遍历了，不过还是有点小失落，为什么人家就能找到呢，这个我还是希望知道的朋友能够分享一下，我也会查看相关的资料，把这个空缺不上的，好了，现在开我们的工作了

我们的目的是抓取册以及相关的信息，所以我们需要随便打开一个淘女郎的相册页面，然后随便进入一个相册即可，很显然这里的相册是异步加载的，因此我们需要抓包，这里我抓到了含有相册的url以及相关信息的json数据，如下图：

然后我们查看它的url为https://mm.taobao.com/album/json/get_album_photo_list.htmuser_id=687471686&album_id=10000702574&top_pic_id=0&cover=%2F%2Fimg.alicdn.com%2Fimgextra%2Fi2%2F687471686%2FTB1TlwDLFXXXXbxaXXXXXXXXXXX_!!2tstar.png&page=1&_ksTS=1494097545509_154&callback=jsonp15

通过我尝试之后这条url可以简化为:

https://mm.taobao.com/album/json/get_album_photo_list.htm?user_id={0}&album_id={1}&top_pic_id=0&page={2}&_ksTS=1493654931946_405

其中user_id是每一个女郎对的id,ablum_id时每一个相册的id,这里一个女郎有多个相册，因此这个id是不同的，但是page就是要翻页的作用了,可以看到我去掉了callback=json155这一项，因为如果加上这一项，返回的数据就不是json类型的数据，其中page是在抓包的时候点击翻页才会在下面出现的，可以看到同一个相册返回的除了page不同之外，其他的都是相同的，因此这里通过page来实现翻页的数据

上面分析了每一个相册的url数据的由来，可以看到我们下面需要找到user_id,ablum_id这两个数据.

user_id的获取：我们打开首页,然后打开chrome的调试工具，可以看到每一个女郎的url中都包含user_id这一项，因此我们只需要通过这个实现翻页然后获取每一个女郎的url,之后用正则将user_id匹配出来即可,代码如下

ps=response.xpath('//p[@class="top"]')

        for p in ps:

            item=JrtItem()

            href=p.xpath('a/@href').extract()   #这个得到的是一个数组url

            if href:

                item['user_id']=self.pattern_user_id.findall(href[0])[0]   #用则正匹配出user_id,其中的正则为  pattern_user_id=re.compile(r'user_id=(\d+)')

ablum_id的获取：想要获取ablum_id当然要在相册的页面查找，于是我们在相册页面抓包获得了如下图的页面

通过上图我们清晰的知道每一个相册的里面包含多少相册，但最令人开心的是在这个页面中不是动态加载，因此我们可以查看它的源码，当我们查看源码的时候，我们可以看到和user_id一样，这里的ablum_id包含在了href中，因此我们只需要找到每一张相册的url，然后用正则匹配处来即可，其中这个页面的url简化为:

https://mm.taobao.com/self/album/open_album_list.htm?_charset=utf-8&user_id ={0}&page={1}

所以我们可以通过上面得到的user_id构成请求即可,代码如下：

 ## 解析得到ablum_id，根据ablum_id解析请求出每一个相册的json数据

    def parse_ablum_id(self,response):

        if response.status==200:

            print response.url

            item = response.meta['item']

            soup = BeautifulSoup(response.text, 'lxml')

            divs = soup.find_all('div', class_='mm-photo-cell-middle')

            for div in divs:

                href = div.find('h4').find('a').get('href')

                items = self.pattern_ablum_id.findall(href)    #这里就得到了ablum_id

上面已经获得了user_id和ablum_id，那么现在就可以请求每一个相册的json数据了，这个就不用多说了，详情请看源代码

MongoDB存储

安装方式

Windows下安装请看我的MogoDB干货篇

ubantu直接用sudo apt-get install安装即可

安装对应python的包：pip install pymongo

安装完成以后就可以连接了，下面贴出我的连接代码

from pymongo import MongoClient

class MongoDBPipelines(object):

    collection_name = 'taobao'

    def open_spider(self,spider):

        self.client = MongoClient('localhost', 27017)   #连接，这里的27017是默认的额端口号

        self.db = self.client['python']               #python是自己的数据库，当然这里不用提前建好也可以

    def close_spider(self, spider):

        self.client.close()

    def process_item(self,item,spider):

        self.db[self.collection_name].update({'picId':item['picId']}, {'$set': dict(item)}, True)

        return item

现在这就算好了，当然这里还有很多东西需要优化的，像代理池。。。最后本人想在暑期找一个地方实习，但是一直没有好的地方，希望有实习的地方推荐的可以联系我，在这里先谢谢了

scrapy抓取淘宝女郎的更多相关文章

简单的抓取淘宝关键字信息、图片的Python爬虫|Python3中级玩家：淘宝天猫商品搜索爬虫自动化工具（第一篇）
Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇) 淘宝改字段,Bugfix,查看https://github.com/hunterhug/taobaoscrapy.git 由于Gith ...
芝麻HTTP：Python爬虫实战之抓取淘宝MM照片
本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式在这里我们用到的URL ...
Selenium模拟浏览器抓取淘宝美食信息
前言: 无意中在网上发现了静觅大神(崔老师),又无意中发现自己硬盘里有静觅大神录制的视频,于是乎看了其中一个,可以说是非常牛逼了,让我这个用urllib,requests用了那么久的小白,体会到sel ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
python(27) 抓取淘宝买家秀
selenium 是Web应用测试工具,可以利用selenium和python,以及chromedriver等工具实现一些动态加密网站的抓取.本文利用这些工具抓取淘宝内衣评价买家秀图片. 准备工作下 ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
使用CURL抓取淘宝页面
/** * 根据地址抓取淘宝页面html代码 * @param type $url 地址 * @return boolean */ public function getTaoBaoHtml($url ...
Python爬虫之一 PySpider 抓取淘宝MM的个人信息和图片
ySpider 是一个非常方便并且功能强大的爬虫框架,支持多线程爬取.JS动态解析,提供了可操作界面.出错重试.定时爬取等等的功能,使用非常人性化. 本篇通过做一个PySpider 项目,来理解 Py ...
selenium+PhantomJS 抓取淘宝搜索商品
最近项目有些需求,抓取淘宝的搜索商品,抓取的品类还多.直接用selenium+PhantomJS 抓取淘宝搜索商品,快速完成. #-*- coding:utf-8 -*-__author__ =''i ...

随机推荐

PHP预定义变量$_SERVER
PHP预定义变量$_SERVER $_SERVER 是一个包含诸如头部(headers).路径(paths)和脚本位置(script locations)的数组.数组的实体由 web 服务器创建,不能 ...
flex布局下，css设置文本不换行时，省略号不显示的解决办法
大致是有一个main容器是flex布局,左边一个logo固定宽高,右边content动态宽度. <div class="main"> <img alt=" ...
stl map容器学习
#include<map> 1.map的声明: map<string,int>map_1; map_1 就是一个string对int的映射. 2.map的用法(映射): map ...
Linux系统管理10——进程和计划任务管理
Linux系统管理10——进程和计划任务管理一.程序和进程的关系 1.程序 ·保存在硬盘.光盘等介质中的可执行代码和数据 ·静态保存的代码 2.进程 ·在CPU及内存中运行的程序代码 ·动态执行的代 ...
前端开发需要了解的JS插件
excanvas.js/Chart.js/cubism.js/d3.js/dc.js/dx.chartjs.js/echarts.js/flot.js 用途:构建数据统计图表,兼容多浏览器 jquer ...
关于JS面向对象中原型和原型链以及他们之间的关系及this的详解
一:原型和原型对象: 1.函数的原型prototype:函数才有prototype,prototype是一个对象,指向了当前构造函数的引用地址. 2.函数的原型对象__proto__:所有对象都有__ ...
Linux系统档案与文件系统的压缩与打包
以下文章基于centos6.5 文章引自:http://www.jb51.net/LINUXjishu/105916.html 一.Linux下常见的压缩指令在linux的环境中,压缩文件的扩展名大 ...
java内存模型1
并发编程模型的分类在并发编程中,我们需要处理两个关键问题:线程之间如何通信及线程之间如何同步(这里的线程是指并发执行的活动实体).通信是指线程之间以何种机制来交换信息.在命令式编程中,线程之间的通信 ...
设计模式--代理模式（C++版）
一:代理模式简介专业版描述:为其他对象提供一种代理以控制对这个对象的访问. 在某些情况下,一个对象不适合或者不能直接引用另一个对象,而代理对象可以在客户端和目标对象之间起到中介的作用. 戏剧性描述: ...

scrapy抓取淘宝女郎

scrapy抓取淘宝女郎

准备工作

MongoDB存储

安装方式

推荐

scrapy抓取淘宝女郎的更多相关文章

随机推荐

热门专题