一个scrapy框架的爬虫(爬取京东图书)

我们的这个爬虫设计来爬取京东图书(jd.com)。

scrapy框架相信大家比较了解了。里面有很多复杂的机制，超出本文的范围。

1、爬虫spider

tips：

1、xpath的语法比较坑，但是你可以在chrome上装一个xpath helper，轻松帮你搞定xpath正则表达式

2、动态内容，比如价格等是不能爬取到的

3、如本代码中，评论爬取部分代码涉及xpath对象的链式调用，可以参考

# -*- coding: utf-8 -*-

# import scrapy # 可以用这句代替下面三句，但不推荐

from scrapy.spiders import Spider

from scrapy.selector import Selector

from scrapy import Request

from scrapy.linkextractors.lxmlhtml import LxmlLinkExtractor

from jdbook.items import JDBookItem  # 如果报错是pyCharm对目录理解错误的原因，不影响

class JDBookSpider(Spider):

    name = "jdbook"

    allowed_domains = ["jd.com"]  # 允许爬取的域名，非此域名的网页不会爬取

    start_urls = [

        # 起始url，这里设置为从最大tid开始，向0的方向迭代

        "http://item.jd.com/11678007.html"

    ]

    # 用来保持登录状态，可把chrome上拷贝下来的字符串形式cookie转化成字典形式，粘贴到此处

    cookies = {}

    # 发送给服务器的http头信息，有的网站需要伪装出浏览器头进行爬取，有的则不需要

    headers = {

        # 'Connection': 'keep - alive',

        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36'

    }

    # 对请求的返回进行处理的配置

    meta = {

        'dont_redirect': True,  # 禁止网页重定向

        'handle_httpstatus_list': [301, 302]  # 对哪些异常返回进行处理

    }

    def get_next_url(self, old_url):

        '''

        description: 返回下次迭代的url

        :param oldUrl: 上一个爬去过的url

        :return: 下次要爬取的url

        '''

        # 传入的url格式：http://www.heartsong.top/forum.php?mod=viewthread&tid=34

        list = old_url.split('/')  #用等号分割字符串

        old_item_id = int(list[3].split('.')[0])

        new_item_id = old_item_id - 1

        if new_item_id == 0:  # 如果tid迭代到0了，说明网站爬完，爬虫可以结束了

            return

        new_url = '/'.join([list[0], list[1], list[2], str(new_item_id)+ '.html'])  # 构造出新的url

        return str(new_url)  # 返回新的url

    def start_requests(self):

        """

        这是一个重载函数，它的作用是发出第一个Request请求

        :return:

        """

        # 带着headers、cookies去请求self.start_urls[0],返回的response会被送到

        # 回调函数parse中

        yield Request(self.start_urls[0], callback=self.parse, headers=self.headers, cookies=self.cookies, meta=self.meta)

    def parse(self, response):

        """

        用以处理主题贴的首页

        :param response:

        :return:

        """

        selector = Selector(response)

        item = JDBookItem()

        extractor = LxmlLinkExtractor(allow=r'http://item.jd.com/\d.*html')

        link = extractor.extract_links(response)

        try:

            item['_id'] =  response.url.split('/')[3].split('.')[0]

            item['url'] = response.url

            item['title'] = selector.xpath('/html/head/title/text()').extract()[0]

            item['keywords'] = selector.xpath('/html/head/meta[2]/@content').extract()[0]

            item['description'] = selector.xpath('/html/head/meta[3]/@content').extract()[0]

            item['img'] = 'http:' + selector.xpath('//*[@id="spec-n1"]/img/@src').extract()[0]

            item['channel'] = selector.xpath('//*[@id="root-nav"]/div/div/strong/a/text()').extract()[0]

            item['tag'] = selector.xpath('//*[@id="root-nav"]/div/div/span[1]/a[1]/text()').extract()[0]

            item['sub_tag'] = selector.xpath('//*[@id="root-nav"]/div/div/span[1]/a[2]/text()').extract()[0]

            item['value'] = selector.xpath('//*[@id="root-nav"]/div/div/span[1]/a[2]/text()').extract()[0]

            comments = list()

            node_comments = selector.xpath('//*[@id="hidcomment"]/div')

            for node_comment in node_comments:

                comment = dict()

                node_comment_attrs = node_comment.xpath('.//div[contains(@class, "i-item")]')

                for attr in node_comment_attrs:

                    url = attr.xpath('.//div/strong/a/@href').extract()[0]

                    comment['url'] = 'http:' + url

                    content = attr.xpath('.//div/strong/a/text()').extract()[0]

                    comment['content'] = content

                    time = attr.xpath('.//div/span[2]/text()').extract()[0]

                    comment['time'] = time

                comments.append(comment)

            item['comments'] = comments

        except Exception, ex:

            print 'something wrong', str(ex)

        print 'success, go for next'

        yield item

        next_url = self.get_next_url(response.url)  # response.url就是原请求的url

        if next_url != None:  # 如果返回了新的url

            yield Request(next_url, callback=self.parse, headers=self.headers, cookies=self.cookies, meta=self.meta)

2、存储管道：pipelines

tips：

1、本pipelines将爬取的数据存入mongo，比写本地文件靠谱，特别是多实例或者分布式情况。

# -*- coding: utf-8 -*-

import pymongo

from datetime import datetime

from scrapy.exceptions import DropItem

class JDBookPipeline(object):

    def __init__(self, mongo_uri, mongo_db, mongo_coll):

        self.ids = set()

        self.mongo_uri = mongo_uri

        self.mongo_db = mongo_db

        self.mongo_coll = mongo_coll

    @classmethod

    def from_crawler(cls, crawler):

        return cls(

            mongo_uri=crawler.settings.get('MONGO_URI'),

            mongo_db=crawler.settings.get('MONGO_DB'),

            mongo_coll=crawler.settings.get('MONGO_COLL')

        )

    def open_spider(self, spider):

        self.client = pymongo.MongoClient(self.mongo_uri)

        # 数据库登录需要帐号密码的话

        # self.client.admin.authenticate(settings['MINGO_USER'], settings['MONGO_PSW'])

        self.db = self.client[self.mongo_db]

        self.coll = self.db[self.mongo_coll]

    def close_spider(self, spider):

        self.client.close()

    def process_item(self, item, spider):

        if item['_id'] in self.ids:

            raise DropItem("Duplicate item found: %s" % item)

        if item['channel'] != u'图书':

            raise Exception('not book')

        else:

            #self.coll.insert(dict(item))

            # 如果你不想锁死collection名称的话

            self.ids.add(item['_id'])

            collection_name = item.__class__.__name__ + '_' + str(datetime.now().date()).replace('-', '')

            self.db[collection_name].insert(dict(item))

            return item

3、数据结构：items

tips：

1、看到scrapy的item就笑了，这不是django么

# -*- coding: utf-8 -*-

import scrapy

class JDBookItem(scrapy.Item):

    _id = scrapy.Field()

    title = scrapy.Field()

    url = scrapy.Field()

    keywords = scrapy.Field()

    description = scrapy.Field()

    img = scrapy.Field()

    channel = scrapy.Field()

    tag = scrapy.Field()

    sub_tag = scrapy.Field()

    value = scrapy.Field()

    comments = scrapy.Field()

4、scrapyd部署

很多朋友想做分布式爬虫，比如通过celery任务调起scarpy爬虫任务。

但是很不幸，scrapy想实现这样的方式并不简单。一个比较好的办法是用scrapyd管理爬虫任务。

你需要保证你的python环境安装了3个东西。

source kangaroo.env/bin/activate

pip install scrapy scrapyd scrapyd-client

在你的spider路径下启动scrapyd守护进程。

scrapyd

下面注册你的spider，先写配置文件scrapy.cfg

# Automatically created by: scrapy startproject

#

# For more information about the [deploy] section see:

# https://scrapyd.readthedocs.org/en/latest/deploy.html

[settings]

default = jdbook.settings

[deploy:jdbook]

url = http://localhost:6800/

project = jdbook

开始注册

#注册spider

scrapyd-deploy -p jdbook -d jdbook

#列出已注册的spider

scrapyd-deploy -l
输出：jdbook               http://localhost:6800/

这样就已经注册好了

开始/停止爬虫：

curl -XPOST http://10.94.99.55:6800/schedule.json? -d project=jdbook -d spider=jdbook
输出：{"status": "ok", "jobid": "9d50b3dcabfc11e69aa3525400128d39", "node_name": "kvm33093.sg"}

curl -XPOST http://10.94.99.55:6800/cancel.json? -d project=jdbook -d job=9d50b3dcabfc11e69aa3525400128d39
输出：{"status": "ok", "prevstate": "running", "node_name": "kvm33093.sg"}

至此，你可以在celery任务中调用爬虫了，只需要发送如上url就可以。

而各个爬虫可以存放在不同的机器上，实现分布式爬取。

一个scrapy框架的爬虫(爬取京东图书)的更多相关文章

基于scrapy框架输入关键字爬取有关贴吧帖子
基于scrapy框架输入关键字爬取有关贴吧帖子站点分析首先进入一个贴吧,要想达到输入关键词爬取爬取指定贴吧,必然需要利用搜索引擎点进看到有四种搜索方式,分别试一次,观察url变化我们得知: 搜 ...
python爬虫爬取京东、淘宝、苏宁上华为P20购买评论
爬虫爬取京东.淘宝.苏宁上华为P20购买评论 1.使用软件 Anaconda3 2.代码截图三个网站代码大同小异,因此只展示一个 3.结果(部分) 京东淘宝苏宁 4.分析这三个网站上的评论数据 ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
python制作爬虫爬取京东商品评论教程
作者:蓝鲸类型:转载本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计图表,非常的细致,有需要的小伙伴可以参考下 ...
Python爬虫-爬取京东商品信息-按给定关键词
目的:按给定关键词爬取京东商品信息,并保存至mongodb. 字段:title.url.store.store_url.item_id.price.comments_count.comments 工具 ...
scrapy框架综合运用爬取天气预报 + 定时任务
爬取目标网站: http://www.weather.com.cn/ 具体区域天气地址: http://www.weather.com.cn/weather1d/101280601.shtm(深圳) ...
Scrapy 框架使用 selenium 爬取动态加载内容
使用 selenium 爬取动态加载内容开启中间件 DOWNLOADER_MIDDLEWARES = { 'wangyiPro.middlewares.WangyiproDownloaderMidd ...
Scrapy框架——使用CrawlSpider爬取数据
引言本篇介绍Crawlspider,相比于Spider,Crawlspider更适用于批量爬取网页 Crawlspider Crawlspider适用于对网站爬取批量网页,相对比Spider类,Cr ...
Python 爬虫-爬取京东手机页面的图片
具体代码如下: __author__ = 'Fred Zhao' import requests from bs4 import BeautifulSoup import os from urllib ...

随机推荐

[转载]Word直接发布新浪博客（以Word 2013为例）
原文地址:Word直接发布新浪博客(以Word 2013为例)作者:paulke2011 注意:这篇博客直接由Word 2013发出!这虽然也算是一个教程,但更多的是一个试验品. 老早就知道Word有 ...
【集美大学1411_助教博客】团队作业5——测试与发布（Alpha版本）
同学们好像都进入了状态,任务都完成的不错,测试与发布是一个软件的非常重要的环节,每年双11前夕是阿里巴巴加班最严重的时期,这是因为他们在不断的测试,因为他们不想在双11到来之时有任何差池.所以无论你的 ...
英语学习app案列分析
很多同学有误解,软件工程课是否就是理论课?或者是几个牛人拼命写代码,其他人打酱油的课?要不然就是学习一个程序语言,搞一个职业培训的课?都不对,软件工程有理论,有实践,更重要的是分析,思辨,总结.在课程 ...
团队作业4——第一次项目冲刺（Alpha版本） Day1
1.开站立式会议: 2.Leangoo任务分解图: 3.开会讨论的结果,任务分派队员今日进展明日安排林燕调查产品的市场需求,学习微信开发完善逻辑架构框架王李焕结合实际分析系统设计思路, ...
201521123063 《Java程序设计》第12周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多流与文件相关内容. 读操作 (1)读取控制台输入: BufferedReader br = new BufferedReader( ...
201521123007《Java程序设计》第12周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多流与文件相关内容. 2. 书面作业将Student对象(属性:int id, String name,int age,doubl ...
201521123028 《Java程序设计》第14周学习总结
1. 本周学习总结 2. 书面作业 1. MySQL数据库基本操作建立数据库,将自己的姓名.学号作为一条记录插入.(截图,需出现自己的学号.姓名) 在自己建立的数据库上执行常见SQL语句(截图) 2 ...
【转】SWT/JFace的对话框
一.MessageDialog ,MessageDialog的用法很简单 MessageDialog.openInfomation(shell,title,message); ...
【转】MySQL分库分表环境下全局ID生成方案
转载一篇博客,里面有很多的知识和思想值得我们去思考. —————————————————————————————————————————————————————————————————————— 在大 ...
cocos2dx 播放gif
起因或许有人会说,cocos2dx中直接帧动画就行了用什么GIF. 起因是为游戏内部要用到第三方平台的头像,而第三方平台的头像大多都是用到Gif,所以才会有了这个需求过程查了各种文档都没找到.但 ...

一个scrapy框架的爬虫(爬取京东图书)

一个scrapy框架的爬虫(爬取京东图书)的更多相关文章

随机推荐

热门专题