scrapy爬取小说盗墓笔记

# -*- coding: utf-8 -*-

import scrapy

from daomu.items import DaomuItem

class DaomuspiderSpider(scrapy.Spider):

    name = "daomuspider"

    # allowed_domains = ["www.daomubiji.com"]

    start_urls = ['http://www.daomubiji.com/']

    index_url = 'http://www.daomubiji.com/'

    def start_requests(self):

        yield scrapy.Request(url=self.index_url,callback=self.parse_book)

    def parse_book(self, response):

        for url in response.css('.article-content a'):

            book_url = url.css('a::attr(href)').extract_first()

            yield scrapy.Request(url=book_url, callback=self.parse_chapter)

    def parse_chapter(self, response):

        item = DaomuItem()

        book_title = response.css('.focusbox .container h1::text').extract_first()

        book_info = response.css('.focusbox .container .focusbox-text::text').extract_first()

        book_url = response.url

        for chapter in response.css('.excerpts-wrapper .excerpts .excerpt'):

            chapter_title = chapter.css('a::text').extract_first().split(' ')[1] + ':'+ chapter.css('a::text').extract_first().split(' ')[-1]

            chapter_url = chapter.css('a::attr(href)').extract_first()

            item['book_title'] = book_title

            item['book_info'] = book_info

            item['book_url'] = book_url

            item['chapter_title'] = chapter_title

            item['chapter_url'] = chapter_url

            yield item

            yield scrapy.Request(url = chapter_url,callback=self.parse_detail, meta={'item':item})#重点在这里,用meta进行转移到下一个函数

    def parse_detail(self, response):

        item = response.meta['item']

        content = response.css('.article-content p::text').extract()

        item['content'] = content

        yield item

import pymongo

class DaomuPipeline(object):

    def __init__(self):

        self.mongo_uri = 'localhost'

        self.mongo_db = 'daomu'

    # @classmethod

    # def frow_crawler(cls, crawler):

    #     return cls(

    #         mongo_uri = crawler.settings.get('MONGO_URI'),

    #         mongo_db = crawler.settings.get('MONGO_DB')

    #     )

    def open_spider(self,spider):

        self.client = pymongo.MongoClient(self.mongo_uri)

        self.db = self.client[self.mongo_db]

    def process_item(self, item, spider):

        name = item.__class__.__name__

        self.db[name].insert(dict(item))#一定要注意这里用dict

        return item

    def close_spider(self, spider):

        self.client.close()

scrapy爬取小说盗墓笔记的更多相关文章

Scrapy爬取小说简单逻辑
Scrapy爬取小说简单逻辑一准备工作 1)安装Python 2)安装PIP 3)安装scrapy 4)安装pywin32 5)安装VCForPython27.exe ........... 具体 ...
python2.7 爬虫_爬取小说盗墓笔记章节及URL并导入MySQL数据库_20161201
1.爬取页面 http://www.quanshu.net/book/9/9055/ 2.用到模块urllib(网页下载),re正则匹配取得title及titleurl,urlparse(拼接完整ur ...
scrapy 爬取小说
QiushuSpider # -*- coding: utf-8 -*- import scrapy import time from qiushu.items import QiushuItem c ...
Scrapy 应用之爬取《盗墓笔记》
爬取<盗墓笔记>和爬取<宦海沉浮>原理一样,但是使用了两种不同的追踪链接的方式,<盗墓笔记>使用的是跟踪下一页链接,直至没有下一页为止,<宦海沉浮>则是 ...
小说免费看！python爬虫框架scrapy 爬取纵横网
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 风,又奈何 PS:如有需要Python学习资料的小伙伴可以加点击下方 ...
以豌豆荚为例，用 Scrapy 爬取分类多级页面
本文转载自以下网站:以豌豆荚为例,用 Scrapy 爬取分类多级页面 https://www.makcyun.top/web_scraping_withpython17.html 需要学习的地方: 1 ...
scrapy 爬取纵横网实战
前言闲来无事就要练练代码,不知道最近爬取什么网站好,就拿纵横网爬取我最喜欢的雪中悍刀行练手吧准备 python3 scrapy 项目创建: cmd命令行切换到工作目录创建scrapy项目两条命 ...
Python实战项目网络爬虫之爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...
Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...

随机推荐

python统计词频
arr = [1,2,3,4,5,6,4,5,2,3,6,8,9,6,5,3,6,2,4]dic={}for item in arr: if item in dic.keys(): dic[item] ...
poj3358 Period of an Infinite Binary Expansion
Period of an Infinite Binary Expansion 题目大意:给你一个分数,求这个分数二进制表示下从第几位开始循环,并求出最小循环节长度. 注释:int范围内. 想法:这题说 ...
maven库
1.本地仓库本地仓库是你本地的一个山寨版,只有你看的到,主要起缓存作用. 当你向仓库请求插件或依赖的时候,会先检查本地仓库里是否有.如果有则直接返回,否则会向远程仓库请求,并做缓存. 本地仓库默认在 ...
CSS速查列表-2-(text)文本
CSS的Text属性可以改变页面中 1.文本的颜色(color). 2.字符间距(word-spacing ) 属性可以改变字(单词)之间的标准间隔.其默认值 normal 与设置值为 0 是一样的 ...
Flume日志采集系统
1.简介 Flume是Cloudera提供的一个高可用.高可靠.分布式的海量日志采集.聚合和传输的系统. Flume支持在日志系统中定制各类数据发送方用于收集数据,同时Flume提供对数据进行简单的处 ...
python全栈学习--day4
列表说明:列表是python中的基础数据类型之一,它是以[]括起来,每个元素以逗号隔开,而且他里面可以存放各种数据类型比如: 1 li = ['alex',123,Ture,(1,2,3,'wu ...
hibernate框架学习笔记5：缓存
缓存不止存在与程序中,电脑硬件乃至于生活中都存在缓存目的:提高效率比如IO流读写字节,如果没有缓存,读一字节写一字节,效率低下 hibernate中的一级缓存:提高操作数据库的效率示例: 抽取的 ...
Django--基本篇：项目结构与设计模式（MVC）
Django在项目开发中有着结构清晰.层次明显.容易编写理解查阅demo的优点,那么我们来个小案例具体看看. 一.项目结构简析: 我们按照上一篇中的开发流程步骤创建一个新项目myblog,项目下 ...
C语言函函数嵌套
一.实验作业 1.1 PTA题目设计思路 1.定义整形变量i,if(b==n-1)用于递归的终止,并返回1. 2.for i=b to n ,if(a[i]<a[min]);进行升序排序 3. ...
201621123057 《Java程序设计》第2周学习总结
一.本周学习总结基本数据类型 char实质属于整型.boolean类型取值只有true和false两种. 引用数据类型包装类:自动装箱与自动拆箱数组:一维数组遍历数组用foreach循环:多 ...

scrapy爬取小说盗墓笔记

scrapy爬取小说盗墓笔记的更多相关文章

随机推荐

热门专题