使用scrapy框架爬取全书网书籍信息。

爬取的内容：书籍名称，作者名称，书籍简介，全书网5041页,写入mysql数据库和.txt文件

1，创建scrapy项目

scrapy startproject numberone

2，创建爬虫主程序

cd numberone

scrapy genspider quanshuwang www.quanshuwang.com

3，setting中设置请求头

USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36"

4，item中设置要爬取的字段

class NumberoneItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    book_author = scrapy.Field()

    book_name = scrapy.Field()

    book_desc = scrapy.Field()

5，quanshuwang.py主程序中写获取数据的主代码

# -*- coding: utf-8 -*-

import scrapy

from numberone.items import NumberoneItem

class QiubaiSpider(scrapy.Spider):

    name = 'quanshuwang'

    # 这句话是定义爬虫爬取的范围，最好注释掉

    # allowed_domains = ['www.qiushibaike.com']

    # 开始爬取的路由

    start_urls = ['http://www.quanshuwang.com/list/0_1.html']

    def parse(self, response):

        book_list = response.xpath('//ul[@class="seeWell cf"]/li')

        for i in book_list:

            item = NumberoneItem()

            item['book_name'] = i.xpath('./span/a/text()').extract_first()

            item['book_author'] = i.xpath('./span/a[2]/text()').extract_first()

            item['book_desc'] = i.xpath('./span/em/text()').extract_first()

            yield item

        next = response.xpath('//a[@class="next"]/@href').extract_first()

        if next:

            yield scrapy.Request(next, callback=self.parse)

6，pipelines.py管道文件中文件中写持久化保存.txt和mysql。

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

import pymysql

# 写入文件的类

class NumberonePipeline(object):

    f = None

    def open_spider(self,spider):

        self.f = open('全书网.txt','a+',encoding='utf-8')

    def process_item(self, item, spider):

        print(item['book_name']+'：正在写入文件...')

        book_name = item['book_name']

        book_author = item['book_author']

        book_desc = item['book_desc']

        self.f.write('书名：'+book_name+'\n'+'作者：'+book_author+'\n'+'书籍简介：'+book_desc+'\n\n')

        return item

    def close_spider(self,spider):

        self.f.close()

# 写入数据库的类

class MysqlPipeline(object):

    conn = None

    mycursor = None

    def open_spider(self,spider):

        self.conn = pymysql.connect(host='172.16.25.4',user='root',password='root',db='quanshuwang')

        self.mycursor = self.conn.cursor()

    def process_item(self, item, spider):

        print(item['book_name'] + '：正在写数据库...')

        book_name = item['book_name']

        book_author = item['book_author']

        book_desc = item['book_desc']

        self.mycursor = self.conn.cursor()

        sql = 'insert into qsw VALUES (null,"%s","%s","%s")'%(book_name,book_author,book_desc)

        bool = self.mycursor.execute(sql)

        self.conn.commit()

        return item

    def close_spider(self,spider):

        self.conn.close()

        self.mycursor.close()

7，setting.py文件中打开管道文件。

ITEM_PIPELINES = {

   'numberone.pipelines.NumberonePipeline': 300,

   'numberone.pipelines.MysqlPipeline': 400,

}

8，执行运行爬虫的命令

scrapy crawl quanshuwang --nolog

9,控制台输出

贵府嫡女：正在写数据库...

随身空间农女翻身记：正在写入文件...

随身空间农女翻身记：正在写数据库...

阴间商人：正在写入文件...

阴间商人：正在写数据库...

我的美味有属性：正在写入文件...

我的美味有属性：正在写数据库...

剑仙修炼纪要：正在写入文件...

剑仙修炼纪要：正在写数据库...

在阴间上班的日子：正在写入文件...

在阴间上班的日子：正在写数据库...

轮回之鸿蒙传说：正在写入文件...

轮回之鸿蒙传说：正在写数据库...

末日星城：正在写入文件...

末日星城：正在写数据库...

异域神州道：正在写入文件...

异域神州道：正在写数据库...

10，打开文件和数据库查看是否写入成功

done。

使用scrapy框架爬取全书网书籍信息。的更多相关文章

爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...
使用scrapy框架爬取自己的博文（2）
之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u76 ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
Python爬虫项目--爬取自如网房源信息
本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储正文 1.分析目标站点 1. url: http:/ ...
scrapy框架爬取笔趣阁完整版
继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ...
scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...
scrapy框架爬取豆瓣读书（1）
1.scrapy框架 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试 ...
python利用scrapy框架爬取起点
先上自己做完之后回顾细节和思路的东西,之后代码一起上. 1.Mongodb 建立一个叫QiDian的库,然后建立了一个叫Novelclass(小说类别表)Novelclass(可以把一级类别二级类别都 ...

随机推荐

WeQuant教程—1.5 实盘运行须知
为了保证实盘交易程序能够正常稳定地运行,同时保护您在使用时账户资金的安全,我们设计了一些规则和机制.了解这些机制有助于您更快上手实盘交易. 启动前检查机制在实盘交易程序启动前,系统会执行一次检查,出 ...
Windows Server 2008 R2怎样设置自动登陆(登录)
方法一: 打开电脑“菜单”,右键点击“运行”,在对话框输入“control userpasswords2”,点击“确定”. 弹出的窗口取消勾选“要使用本机用户必须输入用户名和密码”,取消后点击“确定” ...
sqlserver 创建分区表
我们知道很多事情都存在一个分治的思想,同样的道理我们也可以用到数据表上,当一个表很大很大的时候,我们就会想到将表拆分成很多小表,查询的时候就到各个小表去查,最后进行汇总返回给调用方来加速我们的查询速 ...
Java的集合类之Set接口
Set最大的特性就是不允许在其中存放的元素是重复的.根据这个特点,我们就可以使用Set 这个接口来实现前面提到的关于商品种类的存储需求.Set 可以被用来过滤在其他集合中存放的元素,从而得到一个没有包 ...
NFS挂载参数
mount -t nfs -o rw,bg,hard,nointr,rsize=32768,wsize=32768,tcp,actimeo=0,vers=3,timeo=6 192.168.12.50 ...
js实现图片资源转化成base64的各种场景
网络上有很多片介绍通过js将图片转换成base64的文章,之所以再写这篇文章的原因时发现没有找到系统的介绍的文章,有的介绍如何实现本地项目的图片转码,有的介绍如何实现网络资源的图片转化,但是系统介绍的 ...
Python学习之路：列表（List）的append()、extend()与insert()方法
相同点这三种方法的作用都是为列表(List)添加值它们的语法为: list.append(obj)list.extend(seq)list.insert(index,obj) #此处index为对 ...
一个基于tcp的socket简单对话小例子
首先我们需要写连个py文件,一个server,一个client. import socket sk = socket.socket() # sk.bind(('ip',port)) sk.bind(( ...
Ubuntu 编译安装 qt-opensource 5.9
平台 :Ubuntu 18.04 QT版本 :5.9.1 (open source) g++ : 7.3.0arm-gcc :4.8.1 qt 需要 gcc4.8版本以上下载解压,进入对应的 ...
全栈项目|小书架|服务器端-NodeJS+Koa2 实现书籍详情接口
通过上篇文章全栈项目|小书架|微信小程序-首页水平轮播实现我们实现了前端(小程序)效果图的展示,这篇文章来介绍服务器端的实现. 书籍详情分析书籍详情页面如下: 从上图可以分析出详情页面大概有以下 ...

使用scrapy框架爬取全书网书籍信息。

使用scrapy框架爬取全书网书籍信息。的更多相关文章

随机推荐

热门专题