cnblogs_spider.py

普通 scrapy

# -*- coding: utf-8 -*-

import scrapy

from ..items import TttItem

class ChoutiSpider(scrapy.Spider):

    name = 'chouti'  # 爬虫名字

    start_urls = ['https://www.cnblogs.com']

    def parse(self, response):

        div_list = response.xpath('//div[@class="post_item_body"]')

        for div in div_list:

            title = div.xpath('./h3/a/text()').extract_first()

            url = div.xpath('./h3/a/@href').extract_first()

            outline = div.css('.post_item_summary::text').extract()[-1]

            author = div.xpath('./div[@class="post_item_foot"]/a/text()').extract_first()

            item = TttItem()

            item['title'] = title

            item['outline'] = outline

            item['author'] = author

            item['url'] = url

            yield scrapy.Request(url, callback=self.get_detail, meta={'item': item})

        beforeurl = response.url

        print(beforeurl)

        # 获取最后一个 a 标签

        next_url = response.xpath('//div[@class="pager"]/a[last()]/@href').extract_first()

        print('next_url', next_url)

        yield scrapy.Request(self.start_urls[0] + next_url, callback=self.parse)

    # 获取文章详情

    def get_detail(self, response):

        content = response.xpath('//div[@id="cnblogs_post_body"]').extract_first()

        if not content:

            content=response.css('content').extract_first()

        item = response.meta.get('item')

        item['content'] = content

        yield item

piplines.py

import pymysql

class CnblogsSaveMysqlPipline(object):

    def open_spider(self, spider):

        self.conn = pymysql.connect(user='root', password='123123', db='cnblogs')

    def close_spider(self, spider):

        self.conn.close()

    def process_item(self, item, spider):

        cursor = self.conn.cursor()

        sql = '''insert into cnb (title, outline, author, url, content) values (%s,%s,%s,%s,%s)'''

        cursor.execute(sql, args=(item['title'], item['outline'], item['author'], item['url'], item['content']))

        self.conn.commit()

分布式爬取

cnblogs_spider.py

# -*- coding: utf-8 -*-

import scrapy

from ..items import TttItem

from scrapy.http import Request

from scrapy_redis.spiders import RedisSpider

class ChoutiSpider(RedisSpider):

    name = 'chouti'  # 爬虫名字

    allowed_domains = ['www.cnblogs.com']

    redis_key = 'myspider:start_urls'

    def parse(self, response):

        div_list = response.xpath('//div[@class="post_item_body"]')

        for div in div_list:

            title = div.xpath('./h3/a/text()').extract_first()

            url = div.xpath('./h3/a/@href').extract_first()

            outline = div.css('.post_item_summary::text').extract()[-1]

            author = div.xpath('./div[@class="post_item_foot"]/a/text()').extract_first()

            item = TttItem()

            item['title'] = title

            item['outline'] = outline

            item['author'] = author

            item['url'] = url

            yield Request(url, callback=self.get_detail, meta={'item': item})

        beforeurl = response.url

        print(beforeurl)

        # 获取最后一个 a 标签

        next = response.css('div.pager a:last-child::attr(href)').extract_first()

        # print('https://www.cnblogs.com/'+next)

        print('----爬取下一页地址', next)

        yield Request('https://www.cnblogs.com/' + next)

    def get_detail(self, response):

        content = response.xpath('//div[@id="cnblogs_post_body"]').extract_first()

        if not content:

            content=response.css('content').extract_first()

        item = response.meta.get('item')

        item['content'] = content

        yield item

settings.py

# Enables scheduling storing requests queue in redis.

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# Ensure all spiders share same duplicates filter through redis.

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

REDIS_PARAMS = {'password':'redis123'}

cnblogs 博客爬取 + scrapy + 持久化 + 分布式的更多相关文章

scrapy 博客爬取
item.py import scrapy class FulongpjtItem(scrapy.Item): # define the fields for your item here like: ...
使用org-mode写cnblogs博客
使用org-mode写cnblogs博客 */--> pre.src {background-color: #002b36; color: #839496;} pre.src {backgrou ...
把cnblogs变成简书 - cnblogs博客自定义皮肤css样式
吐槽博客园cnblogs作为老牌的IT技术博客类网站,为广大的开发者提供了非常不错的学习交流平台. 虽然博客内容才是重点,但是如果有赏心悦目的页面不更好吗! cnblogs可以更换博客模板,并且提供 ...
cnblogs博客申请完毕，以后再这里安家落户
cnblogs博客申请完毕,以后再这里安家落户,之前的博客就不转载了,好好搞技术,安稳过日子.
使用自己的域名解析cnblogs博客（CSDN也可以）
本文主要介绍怎样使用自己购买的域名指向cnblogs博客通常来说技术人员都会创建个自己的技术博客,总结下工作中的问题,经验等等,不过某些博客的访问链接的确是不太容易记忆或者输入,对我们分享造成一定的 ...
使用自己的域名解析 cnblogs 博客
使用自己的域名解析 cnblogs 博客(博客园) 1.实现原理用户访问 -> 阿里云解析 -> github page 跳转 -> 真实的博客地址 2.创建 github pag ...
cnblogs博客迁移到hexo
cnblogs博客备份备份地址:https://i.cnblogs.com/BlogBackup.aspx?type=1 备份文件为xml格式,打开备份文件,如下所示: <?xml versi ...
利用Word发布文章到cnblogs博客
利用Word发布文章到cnblogs博客用博客园cnblogs:http://www.cnblogs.com/博客名称/services/metablogapi.aspx,word老是提醒" ...
org-mode 写 cnblogs 博客
1. 为什么用org-mode写博客我最开始用Emacs, 是因为org-mode.这是一个专注于写,而让我忽略展示结果的一种写作方式.为什么这么说?因为所有内容的格式都是可定制的.按照自己喜欢的 ...

随机推荐

tcp/ip 学习（一）
TCP/IP协议是什么? TCP:Transmission Control Protocol 传输控制协议 IP:Internet Protocol 因特网协议简单来说,TCP/IP协议就是一个 ...
spark机器学习从0到1特征抽取–CountVectorizer（十三）
一.概念 CountVectorizer 旨在通过计数来将一个文档转换为向量.当不存在先验字典时,Countvectorizer作为Estimator提取词汇进行训练,并生成一个CountVe ...
C# 数据操作系列 - 11 NHibernate 配置和结构介绍
0. 前言今天是NHibernate的第二篇内容,通过上一篇的内容,我们初步了解了NHibernate的创建和使用.这一篇,我继续探索NHibernate背后的秘密.嗯,就是这样. 1. NHibe ...
java触发器的学习
public class OpenVirtualService { public void open(){ //虚机开通 //业务逻辑 ...
华为Mate8手机优化技巧
我的华为Mate8手机手机存储(手机内存)32G, 运行内存3G,2016年买的手机,两样数值都偏小,导致使用手机的时候经常卡顿,一天来回清理垃圾.清理内存很多次,要运行微信.QQ等占用运行内存较多的 ...
nodejs server启动写法
http://www.phpstudy.net/c.php/18720.html node不利用框架怎么实现对静态HTML.css.js的服务? 初学nodeJS,在使用nodejs构建静态文件服务器 ...
iozone测试报错：Error writing block 12634, fd= 3 write: No space left on device
问题:使用iozone测试GFS的读写性能的时候,一直报错Error writing block 12634, fd= 3 write: No space left on device,百思不得其解: ...
codeforce E. Fire背包
E. Fire time limit per test 2 seconds memory limit per test 256 megabytes input standard input outpu ...
LightOJ1282
题目大意: 给出 n 和 k,请你求出 n^k 次方的前三位和后三位. 解题思路: 后三位用快速幂,不加赘述. 求前三位的方法: AC代码: #include <iostream> #in ...
使用PInvoke互操作，让C#和C++愉快的交互优势互补
一:背景 1. 讲故事如果你常翻看FCL的源码,你会发现这里面有不少方法借助了C/C++的力量让C#更快更强悍,如下所示: [DllImport("QCall", CharSet ...

cnblogs 博客爬取 + scrapy + 持久化 + 分布式

普通 scrapy

分布式爬取

cnblogs 博客爬取 + scrapy + 持久化 + 分布式的更多相关文章

随机推荐

热门专题