爬取知名社区技术文章_article

爬虫主逻辑处理，获取字段，获取主url和子url

#!/usr/bin/python3

# -*- coding: utf-8 -*-

import scrapy

from scrapy.http import Request

from urllib import parse

from JobBole.items import JobboleItem, ArticleItemLoader

class ExampleSpider(scrapy.Spider):

    name = 'jobbole'

    # allowed_domains = ['example.com']

    # 起始url

    start_urls = ['http://blog.jobbole.com/all-posts/']

    def parse(self, response):

        # 获取主页面所以有效详情页面url，图片url，下一页url

        home_all_node = response.css('.post.floated-thumb .post-thumb a')

        # 获取节点，循环出每个单张图片和单个url交个下载器和子url处理

        for home_node in home_all_node:

            img_url = home_node.css('img::attr(src)').extract_first('')

            cont_url = home_node.css('::attr(href)').extract_first('')

            # yield 提供异步方法，parser 进行域名拼接，meta进行传值

            yield Request(url=parse.urljoin(response.url, cont_url),

                          meta={'img_url': img_url},

                          callback=self.analysie_go)

        # 提取下一页并下载

        next_page_url = response.css('.next.page-numbers::attr(href)').extract_first('')

        if next_page_url:

            yield Request(url=parse.urljoin(response.url, next_page_url), callback=self.parse)

    def analysie_go(self, response):

        # 解析详情页面获取所需其他字段的值

        img_url = response.meta.get('img_url', '0')

        load_item = ArticleItemLoader(item=JobboleItem(), response=response)

        load_item.add_value('img_url', img_url)

        load_item.add_value('cont_url', response.url)

        load_item.add_value('cont_id', response.url)

        load_item.add_css('title', '.entry-header h1::text')

        load_item.add_css('publish_time', '.entry-meta-hide-on-mobile::text')

        load_item.add_xpath('cont', '//div[@class="entry"]//text()')

        load_item.add_css('link_num', '.vote-post-up h10::text')

        load_item.add_css('collection_num', '.bookmark-btn::text')

        load_item.add_css('comment_num', '.post-adds a span::text')

        article_items = load_item.load_item()

        # 把获取的字段交给items

        yield article_items

爬取知名社区技术文章_article_3的更多相关文章

爬取知名社区技术文章_items_2
item中定义获取的字段和原始数据进行处理并合法化数据 #!/usr/bin/python3 # -*- coding: utf-8 -*- import scrapy import hashlib ...
爬取知名社区技术文章_setting_5
# -*- coding: utf-8 -*- # Scrapy settings for JobBole project # # For simplicity, this file contains ...
爬取知名社区技术文章_pipelines_4
获取字段的存储处理和获取普通的路径 #!/usr/bin/python3 # -*- coding: utf-8 -*- import pymysql import gevent import pym ...
第4章 scrapy爬取知名技术文章网站(2)
4-8~9 编写spider爬取jobbole的所有文章 # -*- coding: utf-8 -*- import re import scrapy import datetime from sc ...
爬取博主所有文章并保存到本地（.txt版）--python3.6
闲话: 一位前辈告诉我大学期间要好好维护自己的博客,在博客园发布很好,但是自己最好也保留一个备份. 正好最近在学习python,刚刚从py2转到py3,还有点不是很习惯,正想着多练习,于是萌生了这个想 ...
爬虫实战——Scrapy爬取伯乐在线所有文章
Scrapy简单介绍及爬取伯乐在线所有文章一.简说安装相关环境及依赖包 1.安装Python(2或3都行,我这里用的是3) 2.虚拟环境搭建: 依赖包:virtualenv,virtualenvwr ...
Node爬取简书首页文章
Node爬取简书首页文章博主刚学node,打算写个爬虫练练手,这次的爬虫目标是简书的首页文章流程分析使用superagent发送http请求到服务端,获取HTML文本用cheerio解析获得的 ...
使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)
前言第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...
Python3.6+Scrapy爬取知名技术文章网站
爬取分析伯乐在线已经提供了所有文章的接口,还有下一页的接口,所有我们可以直接爬取一页,再翻页爬. 环境搭建 Windows下安装Python: http://www.cnblogs.com/0bug ...

随机推荐

Python进阶内容（二）--- 装饰器
谈装饰器前,需要明白一件事,Python 中的函数和 Java.C++不太一样,Python 中的函数可以像普通变量一样当做参数传递给另外一个函数,例如: def foo(): print(" ...
不要错过iost币的免费派发机会
2013 年 ripple 币曾经进行免费派发,而现在瑞波币兑CNY价格最高曾经达到20元, 如果你错过了 ripple 币,就不要错过这次李笑来和徐小平等背书 iost 币的免费派发
利用树莓派实现监控系统二（用motion实现监控）
终于要开始实现监控啦!ಠ౪ಠ 看起来很简单的步骤,但是过程却无比艰辛,踩坑是最好的成长 (/= _ =)/~┴┴ 第一步,不是安装!而是 update!ㄟ( ▔, ▔ )ㄏ sudo apt-get ...
【知了堂学习心得】浅谈c3p0连接池和dbutils工具类的使用
1. C3P0概述 C3P0是一个开源的JDBC连接池,它实现了数据源和JNDI绑定,支持JDBC3规范和JDBC2的标准扩展.目前使用它的开源项目有Hibernate,Spring等. 2. C3P ...
js最常用正则表达式集合
常用正则表达式合集:验证数字:^[0-9]*$验证n位的数字:^\d{n}$验证至少n位数字:^\d{n,}$验证m-n位的数字:^\d{m,n}$验证零和非零开头的数字:^(0|[1-9][0-9] ...
Haproxy配置文件(2)
#/usr/local/sbin/haproxy -f /etc/haproxy/haproxy.cfg -st `cat /var/run/haproxy.pid` ################ ...
Java眼中的XML--------文件读取
XML 的初次邂逅初次邂逅XML 如何进行XML文件解析前的准备工作在Java程序中如何获取xml文件的内容在Java程序中读取xml文件的过程也成为----解析xml文件解析的目的:获取节 ...
AbstractQueuedSynchronizer的简单分析
说明:本作者是文章的原创作者,转载请注明出处:本文地址:http://www.cnblogs.com/qm-article/p/7955781.html 一.AbstractQueuedSynchro ...
喵哈哈村的魔法考试 Round #1 (Div.2) 题解&源码(A.水+暴力，B.dp+栈)
A.喵哈哈村的魔法石发布时间: 2017年2月21日 20:05 最后更新: 2017年2月21日 20:06 时间限制: 1000ms 内存限制: 128M 描述传说喵哈哈村有三种神 ...
c语言字符相关函数
1.fgetc(getc)fputc(putc)区别: getc和putc都是针对标准输入输出的,而fgetc和fputc可以对任意的文件操作,也可以用fgetc和fputc对标准输入输出操作fget ...

爬取知名社区技术文章_article_3

爬取知名社区技术文章_article_3的更多相关文章

随机推荐

热门专题