Scrapy应用之抓取《宦海沉浮》小说

目标站点

http://www.shushu8.com/huanhaichenfu/

第一步：新建项目

KeysdeMacBook:Desktop keys$ scrapy startproject MyCrawl

New Scrapy project 'MyCrawl', using template directory '/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/scrapy/templates/project', created in:

    /Users/keys/Desktop/MyCrawl

You can start your first spider with:

    cd MyCrawl

    scrapy genspider example example.com

第二步：创建爬虫

KeysdeMacBook:Desktop keys$ cd MyCrawl/

KeysdeMacBook:MyCrawl keys$ scrapy genspider FirstSpider www.shushu8.com/huanhaichenfu

第三步：配置item.py

import scrapy

class MycrawlItem(scrapy.Item):

    url = scrapy.Field()

    title = scrapy.Field()

    text = scrapy.Field()

第四步：编写爬虫

# -*- coding: utf-8 -*-

import scrapy

from MyCrawl.items import MycrawlItem

class FirstspiderSpider(scrapy.Spider):

    name = 'FirstSpider'

    allowed_domains = ['www.shushu8.com/huanhaichenfu']

    start_urls = ['http://www.shushu8.com/huanhaichenfu/'+str(i+1) for i in range(502)]

    def parse(self, response):

        url = response.url

        title = response.xpath('//*[@id="main"]/div[2]/div/div[1]/h1/text()').extract_first('')

        text = response.css('#content::text').extract()

        myitem = MycrawlItem()

        myitem['url'] = url

        myitem['title'] = title

        myitem['text'] = ','.join(text)

        yield myitem

第五步：配置pipeline.py

# -*- coding: utf-8 -*-

import pymysql

class MysqlPipeline(object):

    # 采用同步的机制写入mysql

    def __init__(self):

        self.conn = pymysql.connect(

            '127.0.0.1',

            'root',

            'rootkeys',

            'Article',

            charset="utf8",

            use_unicode=True)

        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):

        insert_sql = """

            insert into huanhaichenfu(url, title, text)

            VALUES (%s, %s, %s)

        """

        # 使用VALUES实现传值

        self.cursor.execute(

            insert_sql,

            (item["url"],

             item["title"],

             item["text"]))

        self.conn.commit()

第六步：配置setting.py

# -*- coding: utf-8 -*-

BOT_NAME = 'MyCrawl'

SPIDER_MODULES = ['MyCrawl.spiders']

NEWSPIDER_MODULE = 'MyCrawl.spiders'

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'

ROBOTSTXT_OBEY = False

ITEM_PIPELINES = {

   'MyCrawl.pipelines.MysqlPipeline': 1,

}

第七步：运行爬虫

import os

import sys

from scrapy.cmdline import execute

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

run_spider = 'FirstSpider'

if __name__ == '__main__':

    print('Running Spider of ' + run_spider)

    execute(['scrapy', 'crawl', run_spider])

Scrapy应用之抓取《宦海沉浮》小说的更多相关文章

[转]使用scrapy进行大规模抓取
原文:http://www.yakergong.net/blog/archives/500 使用scrapy有大概半年了,算是有些经验吧,在这里跟大家讨论一下使用scrapy作为爬虫进行大规模抓取可能 ...
在Scrapy项目【内外】使用scrapy shell命令抓取某网站首页的初步情况
Windows 10家庭中文版,Python 3.6.3,Scrapy 1.5.0, 时隔一月,再次玩Scrapy项目,希望这次可以玩的更进一步. 本文展示使用在 Scrapy项目内.项目外scrap ...
scrapy定时执行抓取任务
在ubuntu环境下,使用scrapy定时执行抓取任务,由于scrapy本身没有提供定时执行的功能,所以采用了crontab的方式进行定时执行: 首先编写要执行的命令脚本cron.sh #! /bin ...
Python爬虫【四】Scrapy+Cookies池抓取新浪微博
1.设置ROBOTSTXT_OBEY,由true变为false 2.设置DEFAULT_REQUEST_HEADERS,将其改为request headers 3.根据请求链接,发出第一个请求,设置一 ...
Scrapy爬虫：抓取大量斗图网站最新表情图片
一:目标第一次使用Scrapy框架遇到很多坑,坚持去搜索,修改代码就可以解决问题.这次爬取的是一个斗图网站的最新表情图片www.doutula.com/photo/list,练习使用Scrapy ...
scrapy实现全站抓取数据
1. scrapy.CrawlSpider scrapy框架提供了多种类型的spider,大致分为两类,一类为基本spider(scrapy.Spider),另一类为通用spider(scrapy.s ...
scrapy结合selenium抓取武汉市环保局空气质量日报
1.前言目标网站:武汉市环境保护局(http://hbj.wuhan.gov.cn/viewAirDarlyForestWaterInfo.jspx).scrapy对接selenium模块抓取空气质 ...
scrapy实现自动抓取51job并分别保存到redis，mongo和mysql数据库中
项目简介利用scrapy抓取51job上的python招聘信息,关键词为“python”,范围:全国利用redis的set数据类型保存抓取过的url,现实避免重复抓取: 利用脚本实现每隔一段时间, ...
Python3利用BeautifulSoup4抓取站点小说全文的代码
再写一个用BeautifulSoup抓站的工具,体会BeautifulSoup的强大. 根据小说索引页获取小说全部章节内容并在本地整合为小说全文.不过不是智能的,不同的站点对代码需要做相应的修改. # ...

随机推荐

Unity Shader入门精要学习笔记 - 第13章使用深度和法线纹理
线纹理的代码非常简单,但是我们有必要在这之前首先了解它们背后的实现原理. 深度纹理实际上就是一张渲染纹理,只不过它里面存储的像素值不是颜色值而是一个高精度的深度值.由于被存储在一张纹理中,深度纹理里的 ...
CentOS7.2 安装iptables
1 先检查是否安装了iptables: service iptables status iptables -L ls /etc/sysconfig/ 综上:命令报错,且 iptables不存在,那 ...
Python/WSGI 应用快速入门--转
http://uwsgi-docs-cn.readthedocs.io/zh_CN/latest/WSGIquickstart.html 这个快速入门指南将会向你展示如何部署简单的 WSGI 应用和普 ...
linux学习-Linux系统启动过程
linux系统启动过程 Linux系统的启动过程并不是大家想象中的那么复杂,其过程可以分为5个阶段: 内核的引导. 运行init. 系统初始化. 建立终端 . 用户登录系统. 内核引导电源开机后,首 ...
【MATLAB 从零到进阶】day2 矩阵数组
访问矩阵元素 >> A=[1,2,3;4,5,6;7,8,9]; >> x=A(2,3)% 双下标访问 x = 6 >> x=A(2)% 单下标访问 x = 4 单 ...
vijos 1524 最小监视代价
背景看到Vijos上此类型的题目较少,特地放一道上来给大家练练. 描述由于yxy小朋友做了一些不该做的事,他被jzp关进了一个迷宫里.由于jzp最近比较忙,疏忽大意了一些,yxy可以在迷宫中任意走 ...
JAVASCRIPT闭包以及原型链
方法内部还有个方法,实例化父方法后,再次调用父方法,可以运行父方法内部的子方法,这样的程序就叫做闭包 DEMO如下: //function outerFn() { // var outerVar = ...
Mac 下 Android Studio 安装
给大家介绍下 Mac Os 系统下的 Android Studio 的安装吧,二者步骤类似. 方法/步骤 1 首先下载 Mac 环境下的 Android Studio 的安装包,为 dmg 格式的 ...
WebStorm 编辑器关闭自动保存功能及添加*星星标记
WebStorm 关闭自动保存功能添加*星星标记为什么要关闭自动保存? 在前端项目工作当中,往往会采用自动化环境(Gulp.webpack等)当文本发生变化的时候就会自动编译代码.在we ...
PAT (Advanced Level) Practise - 1098. Insertion or Heap Sort (25)
http://www.patest.cn/contests/pat-a-practise/1098 According to Wikipedia: Insertion sort iterates, c ...

Scrapy应用之抓取《宦海沉浮》小说

Scrapy应用之抓取《宦海沉浮》小说的更多相关文章

随机推荐

热门专题