Scrapy应用之抓取《宦海沉浮》小说

目标站点

http://www.shushu8.com/huanhaichenfu/

第一步：新建项目

KeysdeMacBook:Desktop keys$ scrapy startproject MyCrawl

New Scrapy project 'MyCrawl', using template directory '/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/scrapy/templates/project', created in:

    /Users/keys/Desktop/MyCrawl

You can start your first spider with:

    cd MyCrawl

    scrapy genspider example example.com

第二步：创建爬虫

KeysdeMacBook:Desktop keys$ cd MyCrawl/

KeysdeMacBook:MyCrawl keys$ scrapy genspider FirstSpider www.shushu8.com/huanhaichenfu

第三步：配置item.py

import scrapy

class MycrawlItem(scrapy.Item):

    url = scrapy.Field()

    title = scrapy.Field()

    text = scrapy.Field()

第四步：编写爬虫

# -*- coding: utf-8 -*-

import scrapy

from MyCrawl.items import MycrawlItem

class FirstspiderSpider(scrapy.Spider):

    name = 'FirstSpider'

    allowed_domains = ['www.shushu8.com/huanhaichenfu']

    start_urls = ['http://www.shushu8.com/huanhaichenfu/'+str(i+1) for i in range(502)]

    def parse(self, response):

        url = response.url

        title = response.xpath('//*[@id="main"]/div[2]/div/div[1]/h1/text()').extract_first('')

        text = response.css('#content::text').extract()

        myitem = MycrawlItem()

        myitem['url'] = url

        myitem['title'] = title

        myitem['text'] = ','.join(text)

        yield myitem

第五步：配置pipeline.py

# -*- coding: utf-8 -*-

import pymysql

class MysqlPipeline(object):

    # 采用同步的机制写入mysql

    def __init__(self):

        self.conn = pymysql.connect(

            '127.0.0.1',

            'root',

            'rootkeys',

            'Article',

            charset="utf8",

            use_unicode=True)

        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):

        insert_sql = """

            insert into huanhaichenfu(url, title, text)

            VALUES (%s, %s, %s)

        """

        # 使用VALUES实现传值

        self.cursor.execute(

            insert_sql,

            (item["url"],

             item["title"],

             item["text"]))

        self.conn.commit()

第六步：配置setting.py

# -*- coding: utf-8 -*-

BOT_NAME = 'MyCrawl'

SPIDER_MODULES = ['MyCrawl.spiders']

NEWSPIDER_MODULE = 'MyCrawl.spiders'

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'

ROBOTSTXT_OBEY = False

ITEM_PIPELINES = {

   'MyCrawl.pipelines.MysqlPipeline': 1,

}

第七步：运行爬虫

import os

import sys

from scrapy.cmdline import execute

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

run_spider = 'FirstSpider'

if __name__ == '__main__':

    print('Running Spider of ' + run_spider)

    execute(['scrapy', 'crawl', run_spider])

Scrapy应用之抓取《宦海沉浮》小说的更多相关文章

[转]使用scrapy进行大规模抓取
原文:http://www.yakergong.net/blog/archives/500 使用scrapy有大概半年了,算是有些经验吧,在这里跟大家讨论一下使用scrapy作为爬虫进行大规模抓取可能 ...
在Scrapy项目【内外】使用scrapy shell命令抓取某网站首页的初步情况
Windows 10家庭中文版,Python 3.6.3,Scrapy 1.5.0, 时隔一月,再次玩Scrapy项目,希望这次可以玩的更进一步. 本文展示使用在 Scrapy项目内.项目外scrap ...
scrapy定时执行抓取任务
在ubuntu环境下,使用scrapy定时执行抓取任务,由于scrapy本身没有提供定时执行的功能,所以采用了crontab的方式进行定时执行: 首先编写要执行的命令脚本cron.sh #! /bin ...
Python爬虫【四】Scrapy+Cookies池抓取新浪微博
1.设置ROBOTSTXT_OBEY,由true变为false 2.设置DEFAULT_REQUEST_HEADERS,将其改为request headers 3.根据请求链接,发出第一个请求,设置一 ...
Scrapy爬虫：抓取大量斗图网站最新表情图片
一:目标第一次使用Scrapy框架遇到很多坑,坚持去搜索,修改代码就可以解决问题.这次爬取的是一个斗图网站的最新表情图片www.doutula.com/photo/list,练习使用Scrapy ...
scrapy实现全站抓取数据
1. scrapy.CrawlSpider scrapy框架提供了多种类型的spider,大致分为两类,一类为基本spider(scrapy.Spider),另一类为通用spider(scrapy.s ...
scrapy结合selenium抓取武汉市环保局空气质量日报
1.前言目标网站:武汉市环境保护局(http://hbj.wuhan.gov.cn/viewAirDarlyForestWaterInfo.jspx).scrapy对接selenium模块抓取空气质 ...
scrapy实现自动抓取51job并分别保存到redis，mongo和mysql数据库中
项目简介利用scrapy抓取51job上的python招聘信息,关键词为“python”,范围:全国利用redis的set数据类型保存抓取过的url,现实避免重复抓取: 利用脚本实现每隔一段时间, ...
Python3利用BeautifulSoup4抓取站点小说全文的代码
再写一个用BeautifulSoup抓站的工具,体会BeautifulSoup的强大. 根据小说索引页获取小说全部章节内容并在本地整合为小说全文.不过不是智能的,不同的站点对代码需要做相应的修改. # ...

随机推荐

java中的线程安全是什么？什么叫线程安全？什么叫不安全？
java中的线程安全是什么: 就是线程同步的意思,就是当一个程序对一个线程安全的方法或者语句进行访问的时候,其他的不能再对他进行操作了,必须等到这次访问结束以后才能对这个线程安全的方法进行访问什么叫 ...
终于 Vue.js 成为世界一流的框架
终于 Vue.js 成为世界一流的框架随着美团开源基于 Vue.js 的微信小程序框架 mpvue, Vue.js 在微信小程序端的能力被补齐,于是 Vue.js 成为了一个唯一能在 Web, H5 ...
I/O————字符流和流的关闭
Reader字符输入流 Writer字符输出流用于字符的形式读取和写入数据 FileReader与FileWriter分别是Reader与Writer的子类 public class CharScr ...
sublime text less安装踩坑图文讲解（less无法生成css）
唉,怎么感觉做个前端几乎把所有的坑都踩遍了啊,别人按照网上安装了一遍就好使,我这里就死活不行. 先说一下我的问题:网上说的能安装的都按了,可是sublime就是不给我生成css文件,后来知道了,就是l ...
MFC程序添加快捷键
[问题提出] 有的程序需要自定义组合键完成一定功能,如何实现? [解决方法] RegisterHotKey函数原型及说明: BOOL RegisterHotKey( H ...
Android 如何利用Activity的Dialog风格完成弹出框设计
在我们使用Dialog时,如果需要用到很多自己设计的控件,虽然可以让弹出框显示出我们需要的界面,但却无法找到地方完成控制代码的编写,如何解决这个问题呢,我们可以将Activity伪装成Dialog弹出 ...
屏幕旋转时 Activity 的生命周期 —— 测试与结论
关于 Android 手机横竖屏切换时 Activity 的生命周期问题,网上有很多相似的文章,大多数都是说明在竖屏切换横屏时 Activity 会重启一次,而在横屏切换竖屏时 Activity 会重 ...
HDU 3032 Nim or not Nim? （Nim，sg函数）
题意:给出几堆石子数量,每次可以取走一堆中任意数量的石头,也可以将一堆分成两堆,而不取.最后取走者胜. 思路:石子数量很大,不能直接算,sg打表找出规律:正常情况下a[i]=i,但是有例外的,就是i% ...
使用python模拟cookie登陆wooyun
import urllib2 class SimpleCookieHandler(urllib2.BaseHandler): def http_request(self, req): simple_c ...
WPF知识点全攻略07- 数据绑定（Binding）
数据绑定是WPF不得不提,不得不会系列之一数据绑定简言之,就是把数据源的数据绑定到目标对象的属性上.目标对象可以是承自DependencyProperty的任何可访问的属性或控件,目标属性必须为依赖 ...

Scrapy应用之抓取《宦海沉浮》小说

Scrapy应用之抓取《宦海沉浮》小说的更多相关文章

随机推荐

热门专题