scrapy爬取简书整站文章

在这里我们使用CrawlSpider爬虫模板，通过其过滤规则进行抓取，并将抓取后的结果存入mysql中，下面直接上代码：

jianshu_spider.py

 # -*- coding: utf-8 -*-

 import scrapy

 from scrapy.linkextractors import LinkExtractor

 from scrapy.spiders import CrawlSpider, Rule

 from jianshu.items import JianshuItem

 import html

 class JianshuSpiderSpider(CrawlSpider):

     name = 'jianshu_spider'

     allowed_domains = ['jianshu.com']

     start_urls = ['http://jianshu.com/']

     rules = (

         Rule(LinkExtractor(allow=r'.*/p/[0-9a-z]{12}.*'), callback='parse_article', follow=True),

     )

     def parse_article(self, response):

         article_code = response.url.split("?")[0].split("/")[-1]

         title = response.xpath('//h1[@class="title"]/text()').get().strip()

         author = response.xpath('//div[contains(@class, "author")]/div[@class="info"]//span[@class="name"]/a/text()').get().strip()

         head_img = response.xpath('//div[contains(@class, "author")]/a[@class="avatar"]/img/@src').get()

         pub_time = response.xpath('//span[@class="publish-time"]/text()').get().strip().replace('*','')

         head_img_url = "http:{}".format(head_img)

         # 存储到数据库中，需要对‘/’转义

         # content = html.escape(response.xpath('//div[@class="show-content"]').get())

         content = response.xpath('//div[@class="show-content"]').get()

         yield JianshuItem(

             article_code = article_code,

             title = title,

             author = author,

             head_img_url = head_img_url,

             content = content,

             pub_time = pub_time,)

items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class JianshuItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    article_code = scrapy.Field()

    title = scrapy.Field()

    author = scrapy.Field()

    pub_time = scrapy.Field()

    head_img_url = scrapy.Field()

    content = scrapy.Field()

pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

from jianshu import model

class JianshuPipeline(object):

    def __init__(self):

        self.session = model.DBSession()

    def process_item(self, item, spider):

        # 这里的item属于字典类型

        article = model.Article(**item)

        try:

            self.session.add(article)

            self.session.commit()

        except Exception as e:

            print("="*100)

            print("INSERT ERROR!")

            self.session.rollback()

        return item

    def open_spider(self, spider):

        pass

    def close_spider(self, spider):

        self.session.close()

model.py

from sqlalchemy import create_engine

from sqlalchemy.ext.declarative import declarative_base

from sqlalchemy import String, Text, Time, Column, Integer, VARCHAR

from sqlalchemy.orm import sessionmaker

# 创建数据库链接接口

engine = create_engine("mysql+pymysql://jianshu:jianshu@localhost:3306/jianshu?charset=utf8mb4", echo=False)

# 声明映像， 即实际数据库表的基本准则的映射类

# 其维持类和数据库表关系目录

Base = declarative_base()

class Article(Base):

    __tablename__ = "jianshu_article"

    id = Column(Integer, autoincrement=True, primary_key=True)

    article_code = Column(String(16), nullable=False)

    title = Column(Text)

    author = Column(String(16))

    pub_time = Column(Time)

    head_img_url = Column(VARCHAR(256))

    content = Column(Text)

DBSession = sessionmaker(bind=engine)

if __name__ == '__main__':

    Base.metadata.create_all(engine)

scrapy爬取简书整站文章的更多相关文章

python2.7 爬取简书30日热门专题文章之简单分析_20170207
昨天在简书上写了用Scrapy抓取简书30日热门文章,对scrapy是刚接触,跨页面抓取以及在pipelines里调用settings,连接mysql等还不是很熟悉,今天依旧以单独的py文件区去抓取数 ...
Scrapy+selenium爬取简书全站
Scrapy+selenium爬取简书全站环境 Ubuntu 18.04 Python 3.8 Scrapy 2.1 爬取内容文字标题作者作者头像发布日期内容文章连接文章ID 思路分 ...
Node爬取简书首页文章
Node爬取简书首页文章博主刚学node,打算写个爬虫练练手,这次的爬虫目标是简书的首页文章流程分析使用superagent发送http请求到服务端,获取HTML文本用cheerio解析获得的 ...
python3 爬取简书30日热门，同时存储到txt与mongodb中
初学python,记录学习过程. 新上榜,七日热门等同理. 此次主要为了学习python中对mongodb的操作,顺便巩固requests与BeautifulSoup. 点击,得到URL https: ...
Python爬取简书主页信息
主要学习如何通过抓包工具分析简书的Ajax加载,有时间再写一个Multithread proxy spider提升效率. 1. 关键点: 使用单线程爬取,未登录,爬取简书主页Ajax加载的内容.主要有 ...
Scrapy爬取伯乐在线的所有文章
本篇文章将从搭建虚拟环境开始,爬取伯乐在线上的所有文章的数据. 搭建虚拟环境之前需要配置环境变量,该环境变量的变量值为虚拟环境的存放目录 1. 配置环境变量 2.创建虚拟环境用mkvirtualen ...
【python3】爬取简书评论生成词云
一.起因: 昨天在简书上看到这么一篇文章<中国的父母,大都有毛病>,看完之后个人是比较认同作者的观点. 不过,翻了下评论,发现评论区争议颇大,基本两极化.好奇,想看看整体的评论是个什么样, ...
爬取简书图片(使用BeautifulSoup)
import requests from bs4 import BeautifulSoup url_list = [] kv = {'User-Agent':'Mozilla/5.0'} r = re ...
python 爬取简书评论
import json import requests from lxml import etree from time import sleep url = "https://www.ji ...

随机推荐

[Swift通天遁地]一、超级工具-(4)使用UIWebView(网页视图)加载HTML和Gif动画
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号:山青咏芝(shanqingyongzhi)➤博客园地址:山青咏芝(https://www.cnblogs. ...
超短的判断IE javascript代码
首先说明该代码只能在IE 6~8中有效,再高级的IE已经修复这个BUG <script type=’text/javascript’> var ie = !-[1,]; alert(ie) ...
net 视图的调用和开发
1.调用视图声明实体类 string sql = "select * from View_ExchangeDetails order by CreateTime desc"; v ...
[POI2007]大都市meg
Description 在经济全球化浪潮的影响下,习惯于漫步在清晨的乡间小路的邮递员Blue Mary也开始骑着摩托车传递邮件了.不过,她经常回忆起以前在乡间漫步的情景.昔日,乡下有依次编号为1..n ...
浅谈算法——线段树之Lazy标记
一.前言前面我们已经知道线段树能够进行单点修改和区间查询操作(基本线段树).那么如果需要修改的是一个区间该怎么办呢?如果是暴力修改到叶子节点,复杂度即为\(O(nlog n)\),显然是十分不优秀的 ...
STL之map基础知识
Map是STL的一个关联容器,它提供一对一(其中第一个可以称为关键字,每个关键字只能在map中出现一次,第二个可能称为该关键字的值)的数据处理能力,由于这个特性,它完成有可能在我们处理一对一数据的时候 ...
GUID的学习
GUID(全局统一标识符)是指在一台机器上生成的数字,它保证对在同一时空中的所有机器都是唯一的.通常平台会提供生成GUID的API.生成算法很有意思,用到了以太网卡地址.纳秒级时间.芯片ID码和许多可 ...
java数组实现买彩票（平移覆盖思想）
package com.wh.shuzu; /** * 买彩票 * @author 贾相如同学 * 平移覆盖思想 */ public class Lotery3 { public static voi ...
解决asp.net 以及MVC中上传文件大小限制的问题
﹤system.web﹥ ﹤httpruntime requestlengthdiskthreshold="256" maxrequestlength="2097151& ...
Java基础教程(24)--集合
一.Java集合框架集合,有时也称为容器,是一个用来存储和管理多个元素的对象.Java中的集合框架定义了一套规范,用来表示和操作集合,使具体操作与实现细节解耦.集合框架都包含下列内容: 接口:这 ...

scrapy爬取简书整站文章

在这里我们使用CrawlSpider爬虫模板， 通过其过滤规则进行抓取， 并将抓取后的结果存入mysql中，下面直接上代码：

scrapy爬取简书整站文章的更多相关文章

随机推荐

热门专题

在这里我们使用CrawlSpider爬虫模板，通过其过滤规则进行抓取，并将抓取后的结果存入mysql中，下面直接上代码：