[scrapy]实例:爬取jobbole页面

工程概览:

创建工程

scrapy startproject  ArticleSpider

创建spider

cd /ArticleSpider/spiders/

新建jobbole.py

# -*- coding: utf-8 -*-

import scrapy

from scrapy.http import Request

from urllib import parse

import re

from ArticleSpider.items import ArticlespiderItem

class JpbboleSpider(scrapy.Spider):

    name = 'jobbole'

    allowed_domains = ['blog.jobbole.com']

    start_urls = ['http://blog.jobbole.com/all-posts/']  #先下载http://blog.jobbole.com/all-posts/这个页面,然后传给parse解析

    def parse(self, response):

        #1.start_urls下载页面http://blog.jobbole.com/all-posts/,然后交给parse解析,parse里的post_urls获取这个页面的每个文章的url,Request下载每个文章的页面,然后callback=parse_detail,交给parse_detao解析

        #2.等post_urls这个循环执行完,说明这一个的每个文章都已经解析完了, 就执行next_url,next_url获取下一页的url,然后Request下载,callback=self.parse解析,parse从头开始,先post_urls获取第二页的每个文章的url,然后循环每个文章的url,交给parse_detail解析

        #获取http://blog.jobbole.com/all-posts/中所有的文章url,并交给Request去下载,然后callback=parse_detail,交给parse_detail解析

        post_urls = response.css("#archive  .floated-thumb .post-thumb a::attr(href)").extract()

        for post_url in post_urls:

            yield Request(url=parse.urljoin(response.url,post_url),callback=self.parse_detail)

        #获取下一页的url地址,交给Request下载,然后交给parse解析

        next_url = response.css(".next.page-numbers::attr(href)").extract_first("")

        if next_url:

            yield Request(url=next_url,callback=self.parse)

    def parse_detail(self,response):

        title=response.css('.entry-header h1::text').extract()[0]

        create_date= response.css("p.entry-meta-hide-on-mobile::text").extract()[0]

        praise_unms = response.css(".vote-post-up h10::text").extract()[0]

        fav_nums = response.css(".bookmark-btn::text").extract()[0]

        match_re = re.match(".*?(\d+).*",fav_nums)

        if match_re:

            fav_nums = int(match_re.group(1))

        else:

            fav_nums = 0

        comment_nums = response.css("a[href='#article-comment'] span::text").extract()[0]

        match_re = re.match(".*?(\d+).*",comment_nums)

        if match_re:

            comment_nums = int(match_re.group(1))

        else:

            comment_nums = 0

        item = ArticlespiderItem()  #实例化item

        item['name'] = title        #item里的name字段的内容就是这里的title

        yield item                  #执行item

        print(title,create_date,praise_unms,fav_nums,comment_nums)

items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class ArticlespiderItem(scrapy.Item):

    # define the fields for your item here like:

    name = scrapy.Field()

piplines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

# class ArticlespiderPipeline(object):

#     def process_item(self, item, spider):

#         return item

class ArticlespiderPipeline(object):

    def process_item(self, item, spider):

        with open("my_meiju.txt", 'a') as fp:

            fp.write(item['name'] + '\n')

[scrapy]实例:爬取jobbole页面的更多相关文章

scrapy(四): 爬取二级页面的内容
scrapy爬取二级页面的内容 1.定义数据结构item.py文件 # -*- coding: utf-8 -*- ''' field: item.py ''' # Define here the m ...
scrapy实例:爬取中国天气网
1.创建项目在你存放项目的目录下,按shift+鼠标右键打开命令行,输入命令创建项目: PS F:\ScrapyProject> scrapy startproject weather # w ...
scrapy实例:爬取天气、气温等
1.创建项目 scrapy startproject weather # weather是项目名称 scrapy crawl spidername开始运行,程序自动使用start_urls构造Requ ...
scrapy框架爬取多级页面
spides.py # -*- coding: utf-8 -*- import scrapy from weather.items import WeatherItem from scrapy.cr ...
Scrapy爬取静态页面
Scrapy爬取静态页面安装Scrapy框架: Scrapy是python下一个非常有用的一个爬虫框架 Pycharm下: 搜索Scrapy库添加进项目即可终端下: #python2 sudo p ...
scrapy模拟浏览器爬取验证码页面
使用selenium模块爬取验证码页面,selenium模块需要另外安装这里不讲环境的配置,我有一篇博客有专门讲ubuntn下安装和配置模拟浏览器的开发 spider的代码 # -*- coding: ...
使用scrapy爬虫,爬取起点小说网的案例
爬取的页面为https://book.qidian.com/info/1010734492#Catalog 爬取的小说为凡人修仙之仙界篇,这边小说很不错. 正文的章节如下图所示其中下面的章节为加密部 ...
使用scrapy爬虫,爬取17k小说网的案例-方法二
楼主准备爬取此页面的小说,此页面一共有125章我们点击进去第一章和第一百二十五章发现了一个规律我们看到此链接的 http://www.17k.com/chapter/271047/6336386 ...
scrapy框架爬取豆瓣读书（1）
1.scrapy框架 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试 ...

随机推荐

世平信息（T 面试）
1.跟我说下你们这个民主测评项目在递归这一块扯了很久 2.遍历树结构,除了递归,还有什么方法? 3.如果数据库里面有2万条数据,你需要在前台用列表展示出来,有搜索功能.分页功能.总数:你觉得最需要优 ...
stay hungry stay foolish.
I am honored to be with you today at your commencement from one of the finest universities in the wo ...
搜索 || BFS || POJ 3278 Catch That Cow
农夫在x位置,下一秒可以到x-1, x+1, 2x,问最少多少步可以到k *解法:最少步数bfs 要注意的细节蛮多的,写在注释里了 #include <iostream> #include ...
python之道02
猜数字,设定一个理想数字比如:66,让用户输入数字,如果比66大,则显示猜测的结果大了,然后继续让用户输入; 如果比66小,则显示猜测的结果小了,然后继续让用户输入;只有等于66,显示猜测结果正确,然 ...
Linux-01 虚拟机Linux的安装
学习要点虚拟机VMware Workstation 11.0 CentOS6.5的安装 Linux简介 Linux 一种免费开源的操作系统常作为服务器的操作系统使用基本思想:一切都是文件常用发 ...
linux(Ubuntu/Centos) iproute 路由IP地址等命令集合，查看端口链接
原 linux(Ubuntu/Centos) iproute 路由IP地址等命令集合,查看端口链接 2017年03月20日 16:55:57 风来了- 阅读数:2291 标签: centoslinux ...
一篇文章掌握nightwatch自动化测试
nightwatch.js是一个web-ui自动化测试框架,被vue-cli深度整合进来.如果一个项目是基于vue-cli搭建的,基本可以做到开箱即用. 但是我们不可能一直都使用vue-cli.因为它 ...
实验楼Python学习记录_挑战字符串操作
自我学习记录 Python3 挑战实验 -- 字符串操作目标在/home/shiyanlou/Code创建一个名为 FindDigits.py 的Python 脚本,请读取一串字符串并且把其中所 ...
solr之windws下搭建solr服务
安装Solr 首先保证已经正确安装了Java 下载Solr,当前最新版6.1.0 Solr各个版本下载地址 Solr从6.0之后需要Java1.8所以如果使用Solr6.0及其以上版本,请确保Java ...
STM32--TIM定时器时钟分割（疑难）
不太明白 (1) TIM_Perscaler来设置预分频系数: (2) TIM_ClockDivision来设置时钟分割(时钟分频因子): (3) TIM_C ...

[scrapy]实例:爬取jobbole页面

[scrapy]实例:爬取jobbole页面的更多相关文章

随机推荐

热门专题