scrapy入门二(分页抓取文章入库)

分页抓取博客园新闻,先从列表里分析下一页按钮

相关代码:

# -*- coding: utf-8 -*-

import scrapy

from cnblogs.items import ArticleItem

class BlogsSpider(scrapy.Spider):

    name = 'blogs'

    allowed_domains = ['news.cnblogs.com']

    start_urls = ['https://news.cnblogs.com/']

    def parse(self, response):

        articleList=response.css('.content')

        for item in articleList:

           # 由于详情页里浏览次数是js动态加载的,无法获取,这里需要传递过去

            viewcount = item.css('.view::text').extract_first()[:-3].strip()

            detailurl = item.css('.news_entry a::attr(href)').extract_first()

            detailurl = response.urljoin(detailurl)

            yield scrapy.Request(url=detailurl, callback=self.parse_detail, meta={"viewcount": viewcount})

        #获取下一页标签

        text=response.css('#sideleft > div.pager > a:last-child::text').extract_first().strip()

        if text=='Next >':

            next = response.css('#sideleft > div.pager > a:last-child::attr(href)').extract_first()

            url=response.urljoin(next)

            yield scrapy.Request(url=url,callback=self.parse)

    ##解析详情页内容

    def parse_detail(self, response):

        article=ArticleItem()

        article['linkurl']=response.url

        article['title']=response.css('#news_title a::text').extract_first()

        article['img'] = response.css('#news_content img::attr(src)').extract_first("default.png")

        article['source'] = response.css('.news_poster ::text').extract_first().strip()

        article['releasetime'] = response.css('.time::text').extract_first()[3:].strip()

        article['viewcount']= response.meta["viewcount"]

        article['content']=response.css('#news_body').extract_first("")

        yield article

写入数据库，先在setting.py页面配置mongo连接数据信息

ROBOTSTXT_OBEY = True

MONGODB_HOST='localhost'

MONGO_PORT=27017

MONGO_DBNAME='cnblogs'

MONGO_DOCNAME='article'

修改pipelines.py页面,相关代码

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import pymongo

from scrapy.conf import settings

from cnblogs.items import ArticleItem

class CnblogsPipeline(object):

    #初始化信息

    def __init__(self):

        host = settings['MONGODB_HOST']

        port = settings['MONGO_PORT']

        db_name = settings['MONGO_DBNAME']

        client = pymongo.MongoClient(host=host, port=port)

        db = client[db_name]

        self.post=db[settings['MONGO_DOCNAME']]

     ##获取值进行入库

    def process_item(self, item, spider):

        article=dict(item)

        self.post.insert(article)

        return item

__init__函数里,获取配置文件里的mongo连接信息,连接mongo库

process_item函数里获取blogs.py里parse里yield返回的每一行,然后将数据入库

最后需要在setting取消注释pipelines.py页面运行的注释，不修改(pipelines.py页面代码可能无法正常调用)

ITEM_PIPELINES = {

   'cnblogs.pipelines.CnblogsPipeline': 300,

}

最后在Terminal终端运行命令:scrapy crawl blogs

启用后便会开始进行抓取,结束后打开mongo客户端工具：库和表名创建的都是setting.py里配置的

到此,3000条文章资讯数据一条不差的下载下来了

scrapy入门二(分页抓取文章入库)的更多相关文章

Heritrix源码分析(九) Heritrix的二次抓取以及如何让Heritrix抓取你不想抓取的URL
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/644396 本博客已迁移到本人独立博客: http://www.yun5u ...
Node.js 爬虫，自动化抓取文章标题和正文
持续进行中... 目标: 动态User-Agent模拟浏览器 √ 支持Proxy设置,避免被服务器端拒绝 √ 支持多核模式,发挥多核CPU性能 √ 支持核内并发模式 √ 自动解码非英文站点,避免乱码出 ...
scrapy和selenium结合抓取动态网页
1.安装python (我用的是2.7版本的) 2.安装scrapy: 详情请参考 http://blog.csdn.net/wukaibo1986/article/details/8167590 ...
爬虫 - 动态分页抓取游民星空的资讯 - bs4
# coding=utf-8 # !/usr/bin/env python ''' author: dangxusheng desc : 动态分页抓取游民星空的资讯 date : 2018-08- ...
python实现一个栏目的分页抓取列表页抓取
python实现一个栏目的分页抓取列表页抓取 #!/usr/bin/env python # coding=utf-8 import requests from bs4 import Beautifu ...
Scrapy 使用CrawlSpider整站抓取文章内容实现
刚接触Scrapy框架,不是很熟悉,之前用webdriver+selenium实现过头条的抓取,但是感觉对于整站抓取,之前的这种用无GUI的浏览器方式,效率不够高,所以尝试用CrawlSpider来实 ...
Scrapy爬虫入门系列4抓取豆瓣Top250电影数据
豆瓣有些电影页面需要登录才能查看. 目录 [隐藏] 1 创建工程 2 定义Item 3 编写爬虫(Spider) 4 存储数据 5 配置文件 6 艺搜参考创建工程 scrapy startproj ...
基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL
为了学习机器学习深度学习和文本挖掘方面的知识,需要获取一定的数据,新浪微博的大量数据可以作为此次研究历程的对象一.环境准备 python 2.7 scrapy框架的部署(可以查看上一篇博客的简 ...
[转]使用Scrapy建立一个网站抓取器
英文原文:Build a Website Crawler based upon Scrapy 标签: Scrapy Python 209人收藏此文章, 我要收藏renwofei423 推荐于 11个月 ...

随机推荐

Alpha冲刺——day8
Alpha冲刺--day8 作业链接 Alpha冲刺随笔集 github地址团队成员 031602636 许舒玲(队长) 031602237 吴杰婷 031602220 雷博浩 031602634 ...
Vue---导航守卫使用方法详解
导航守卫正如其名,vue-router 提供的导航守卫主要用来通过跳转或取消的方式守卫导航.有多种机会植入路由导航过程中:全局的, 单个路由独享的, 或者组件级的. 记住参数或查询的改变并不会触发进 ...
Ubuntu 16.04搭建LAMP开发环境
基本设置 1.配置网络环境管理员给分配了一个静态IP,所以还需要进一步配置网络环境配置DNS:右上角网络连接->编辑链接->有线连接1->IPv4设置->DNS服务器:20 ...
Again Prime? No Time. UVA - 10780（质因子分解）
m^k就是让m的每个质因子个数都增加了k倍求m的质因子在n!中增加了多少倍就好了,因为m^k 表示每一个质因子增加相同的倍数k 所以我们需要找到增加倍数最小的那个..短板效应其它质因子多增加 ...
Django_博客_XSS 攻击防范
背景: 博客项目中用户后台添加文章时,若通过富文本编辑器输入标签内容或者 js 指令会导致文章排版错乱,甚至进行XSS攻击攻击现象: 文本内容输入 js 指令文章描述时正确显示其文本内容但在打 ...
【Revit API】创建共享参数
话不多说,直接上代码 var app = doc.Application; app.SharedParametersFilename = sharedParamFilePath; Definition ...
BZOJ 3993 [SDOI2015]星际战争 | 网络流二分答案
链接 BZOJ 3993 题解这道题挺棵的-- 二分答案t,然后源点向武器连t * b[i], 武器向能攻击的敌人连1, 敌人向汇点连a[i],如果最大流等于所有敌人的a[i]之和则可行. #inc ...
unity3d 几种镜头畸变
1.Fisheye distortion 鱼眼镜头解释来自百度百科:鱼眼镜头是一种焦距为16mm或更短的并且视角接近或等于180°. 它是一种极端的广角镜头,“鱼眼镜头”是它的俗称.为使镜头达到最 ...
COCI 2018/2019 CONTEST #2 Solution
Problem1 Preokret 第一题一定不是什么难题. 第一个问题在读入的时候判断当前时间是不是在1440及以前就行第二个问题考虑离线处理,由于每个时刻只能最多发生1个事件那么就弄个桶记录每一 ...
Python数据分析初始（一）
基础库 pandas:python的一个数据分析库(pip install pandas) pandas 是基于 NumPy 的一个 python 数据分析包,主要目的是为了数据分析 .它提供了大量 ...

scrapy入门二(分页抓取文章入库)

scrapy入门二(分页抓取文章入库)的更多相关文章

随机推荐

热门专题