爬虫第六篇：scrapy框架爬取某书网整站爬虫爬取

新建项目

# 新建项目
$ scrapy startproject jianshu
# 进入到文件夹

$ cd jainshu
# 新建spider文件

$ scrapy genspider -t crawl jianshu_spider jainshu.com

items.py文件

import scrapy

class ArticleItem(scrapy.Item):

    title = scrapy.Field()

    content = scrapy.Field()

    article_id = scrapy.Field()

    origin_url = scrapy.Field()

    author = scrapy.Field()

    avatar = scrapy.Field()

    pub_time = scrapy.Field()

jianshu_spider.py文件

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from jianshu.items import ArticleItem

class JianshuSpiderSpider(CrawlSpider):

    name = 'jianshu_spider'

    allowed_domains = ['jianshu.com']

    start_urls = ['https://www.jianshu.com/']

    rules = (

        Rule(LinkExtractor(allow=r'.*/p/[0-9a-z]{12}.*'), callback='parse_detail', follow=True),

    )

    def parse_detail(self, response):

        title = response.xpath("//h1[@class='title']/text()").get()

        content = response.xpath("//div[@class='show-content-free']").get()

        avatar = response.xpath("//a[@class='avatar']/img/@src").get()

        author = response.xpath("//div[@class='info']/span/a/text()").get()

        pub_time = response.xpath("//span[@class='publish-time']/text()").get()

        article_id = response.url.split("?")[0].split("/")[-1]

        origin_url = response.url

        item = ArticleItem(

            title=title,

            content=content,

            avatar=avatar,

            pub_time=pub_time,

            article_id=article_id,

            origin_url=origin_url,

            author=author

        )

        yield item

同步的MySQL插入数据

import pymysql

class JianshuPipeline(object):

    def __init__(self):

        dbparams = {

            'host': '127.0.0.1',

            'user': 'root',

            'password': '',

            'database': 'jianshu',

            'port': 3306,

            'charset': 'utf8'

        }

        self.conn = pymysql.connect(**dbparams)

        self.cursor = self.conn.cursor()

        self._sql = None

    def process_item(self, item, spider):

        self.cursor.execute(self.sql, (item['title'], item['content'], item['author'], item['avatar'], \

                                       item['pub_time'], item['origin_url'], item['article_id']))

        self.conn.commit()

        return item

    @property

    def sql(self):

        if not self._sql:

            self._sql = """

            insert into article(title,content, author, avatar, pub_time, origin_url, article_id) values (%s, %s, %s, %s, %s, %s,%s)

            """

            return self._sql

        return self._sql

异步的MySQL插入数据

from twisted.enterprise import adbapi

from pymysql import cursors

class JianshuTwistedPipeline(object):

    def __init__(self):

        dbparams = {

            'host': '127.0.0.1',

            'user': 'root',

            'password': '',

            'database': 'jianshu',

            'port': 3306,

            'charset': 'utf8',

            'cursorclass': cursors.DictCursor

        }

        self.dbpool = adbapi.ConnectionPool('pymysql', **dbparams)

        self._sql = None

    @property

    def sql(self):

        if not self._sql:

            self._sql = """

                insert into article(title,content, author, avatar, pub_time, origin_url, article_id) values (%s, %s, %s, %s, %s, %s,%s)

                """

            return self._sql

        return self._sql

    def process_item(self, item, spider):

        defer = self.dbpool.runInteraction(self.insert_item, item)

        defer.addErrback(self.handle_error, item, spider)

    def insert_item(self, cursor, item):

        cursor.execute(self.sql, (item['title'], item['content'], item['author'], item['avatar'], \

                                  item['pub_time'], item['origin_url'], item['article_id']))

    def handle_error(self, error, item, spider):

        print('=' * 10 + 'error' + '=' * 10)

        print(error)

        print('=' * 10 + 'error' + '=' * 10)

爬虫第六篇：scrapy框架爬取某书网整站爬虫爬取的更多相关文章

python爬虫实战：利用scrapy，短短50行代码下载整站短视频
近日,有朋友向我求助一件小事儿,他在一个短视频app上看到一个好玩儿的段子,想下载下来,可死活找不到下载的方法.这忙我得帮,少不得就抓包分析了一下这个app,找到了视频的下载链接,帮他解决了这个小问题 ...
爬虫(十六)：Scrapy框架(三) Spider Middleware、Item Pipeline
1. Spider Middleware Spider Middleware是介入到Scrapy的Spider处理机制的钩子框架. 当Downloader生成Response之后,Response会被 ...
爬虫(十四)：Scrapy框架(一) 初识Scrapy、第一个案例
1. Scrapy框架 Scrapy功能非常强大,爬取效率高,相关扩展组件多,可配置和可扩展程度非常高,它几乎可以应对所有反爬网站,是目前Python中使用最广泛的爬虫框架. 1.1 Scrapy介绍 ...
Python爬虫进阶三之Scrapy框架安装配置
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...
quotes 整站数据爬取存mongo
安装完成scrapy后爬取部分信息已经不能满足躁动的心了,那么试试http://quotes.toscrape.com/整站数据爬取第一部分项目创建 1.进入到存储项目的文件夹,执行指令 scra ...
python网络爬虫（2）——scrapy框架的基础使用
这里写一下爬虫大概的步骤,主要是自己巩固一下知识,顺便复习一下. 一,网络爬虫的步骤 1,创建一个工程 scrapy startproject 工程名称创建好工程后,目录结构大概如下: 其中: sc ...
爬虫（九）scrapy框架简介和基础应用
概要 scrapy框架介绍环境安装基础使用一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能 ...
Python3爬虫（十七） Scrapy框架（一）
Infi-chu: http://www.cnblogs.com/Infi-chu/ 1.框架架构图: 2.各文件功能scrapy.cfg 项目的配置文件items.py 定义了Item数据结构,所有 ...
爬虫（5）- Scrapy 框架简介与入门
Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页 ...

随机推荐

查看linux目录剩余空间大小
df命令是linux系统以磁盘分区为单位查看文件系统,可以加上参数查看磁盘剩余空间信息,命令格式: df -hl 显示格式为: 文件系统容量已用可用已用% 挂载点 Filesystem S ...
mysql 中事件
# 创建存储过程 /* delimiter // create procedure test() begin update test SET name = date_format(now(),'%Y- ...
MySQL中的共享锁与排他锁
MySQL中的共享锁与排他锁在MySQL中的行级锁,表级锁,页级锁中介绍过,行级锁是Mysql中锁定粒度最细的一种锁,行级锁能大大减少数据库操作的冲突.行级锁分为共享锁和排他锁两种,本文将详细介绍共 ...
python用whl文件安装包
直接用pip安装包的时候有时会因为许多奇怪的原因安装失败,这时就需要祭出大杀器——whl文件 python3 -m pip install whl文件路径名 whl库:https://www.lfd. ...
vue-router 中 meta的用法
vue-router中的meta,也就是类似于面包屑的功能路由代码用这个获取嗯,就酱~~ 参考链接:https://blog.csdn.net/qq_32963841/article/deta ...
Django-admin列表展示上传图片
1.在models.py文件中创建表ImageField类型字段 class user(models.Model): img = models.ImageField(upload_to='static ...
django使用celery实现异步操作
需求: django支持的http请求都是同步的,对于需要耗时较长的操作可能会导致阻塞.为此我们需要引入异步处理机制,即收到客户端请求后立即给予响应,具体任务交给另一个进程处理. 使用方法: 1. 安 ...
006-虚拟机中centos7实现nat静态ip上网
1.设置虚拟机网卡VMnet8 2.修改虚拟机参数 (1).点击编辑-->虚拟网络编辑器,如下图设置 (2)nat设置如下[使用默认即可,记住网关.掩码等,非常重要,因为在centos里面要设置 ...
golang strings.Split的疑问
先看下面的代码 func main() { fmt.Println("Hello, 世界") cc:=[...]int{} b:="" a:=strings.S ...
JavaScript历史和标准
不管新手老手, 学门语言如果不简单了解这门语言谁创立的, 什么时候, 现在由谁来维护, 规范在哪? 总感觉, 少了点什么, 我就是这样. 历史 1994年美国网景(Netscape)公司发布自己的浏览 ...

爬虫第六篇：scrapy框架爬取某书网整站爬虫爬取

新建项目

items.py文件

同步的MySQL插入数据

异步的MySQL插入数据

爬虫第六篇：scrapy框架爬取某书网整站爬虫爬取的更多相关文章

随机推荐

热门专题