Scrapy数据解析和持久化

Scrapy框架的使用

    - pySpider

- 什么是框架？

    - 就是一个具有很强通用性且集成了很多功能的项目模板（可以被应用在各种需求中）

- scrapy集成好的功能：

    - 高性能的数据解析操作（xpath）

    - 高性能的数据下载

    - 高性能的持久化存储

    - 中间件

    - 全栈数据爬取操作

    - 分布式：redis

    - 请求传参的机制（深度爬取）

    - scrapy中合理的应用selenium

- 环境的安装

          a. pip3 install wheel

            b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

            c. 进入下载目录，执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl

            d. pip3 install pywin32

             e. pip3 install scrapy

- 创建工程

    - scrapy startproject ProName

    - cd ProName

    - scrapy genspider spiderName www.xxx.com :创建爬虫文件

    - 执行：scrapy crawl spiderName

    - settings:

        - 不遵从robots协议

        - UA伪装

        - LOG_LEVEL = 'ERROR'

        - LOG_FILE = 'logging.log'

 - scrapy的数据解析

    - extract():列表是有多个列表元素

    - extract_first():列表元素只有单个

 - scrapy的持久化存储

    - 基于终端指令：

        - 只可以将parse方法的返回值存储到磁盘文件中

        - scrapy crawl first -o file.csv

    - 基于管道：pipelines.py

        - 编码流程：

            - 1.数据解析

            - 2.在item的类中定义相关的属性

            - 3.将解析的数据存储封装到item类型的对象中.item['p']

            - 4.将item对象提交给管道

            - 5.在管道类中的process_item方法负责接收item对象，然后对item进行任意形式的持久化存储

            - 6.在配置文件中开启管道

         - 细节补充：

            - 管道文件中的一个管道类表示将数据存储到某一种形式的平台中。

            - 如果管道文件中定义了多个管道类，爬虫类提交的item会给到优先级最高的管道类。

            - process_item方法的实现中的return item的操作表示将item传递给下一个即将被执行的管道类

实例：抓取虎牙直播名称，直播者昵称和热度

第一种持久化方式（基于终端）：

hy.py实例代码：

# -*- coding: utf-8 -*-

import scrapy

class HySpider(scrapy.Spider):

    name = 'hy'

    # allowed_domains = ['www.xx.com']

    start_urls = ['https://www.huya.com/g/3203']

    def parse(self, response):

        li_list=response.xpath('//*[@id="js-live-list"]/li')

        data=[]

        for li in li_list:

            title=li.xpath("./a[2]/text()").extract_first()

            nick=li.xpath("./span/span[1]/i/text()").extract_first()

            hot=li.xpath("./span/span[2]/i[2]/text()").extract_first()

            dic={"title":title,"nick":nick,"hot":hot}

            data.append(dic)

        return data

在pycharm终端输入命令：scrapy crawl hy -o huya.csv 回车执行即可。

第二种持久化方式（基于管道）：

hy.py代码：

# -*- coding: utf-8 -*-

import scrapy

from huya.items import HuyaItem

class HySpider(scrapy.Spider):

    name = 'hy'

    # allowed_domains = ['www.xx.com']

    start_urls = ['https://www.huya.com/g/3203']

    def parse(self, response):

        li_list=response.xpath('//*[@id="js-live-list"]/li')

        # data=[]*

        for li in li_list:

            title=li.xpath("./a[2]/text()").extract_first()

            nick=li.xpath("./span/span[1]/i/text()").extract_first()

            hot=li.xpath("./span/span[2]/i[2]/text()").extract_first()

            item=HuyaItem()

            item["title"]=title

            item["nick"]=nick

            item["hot"]=hot

            yield item

            # dic={"title":title,"nick":nick,"hot":hot}*

        #     data.append(dic)*

        # return data*

item类代码:

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class HuyaItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    title = scrapy.Field()

    nick = scrapy.Field()

    hot = scrapy.Field()

pipe类代码（同步实例化到本地和mysql中）：

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

import pymysql

class HuyaPipeline(object):

    def open_spider(self,spider):

        print("open_spider start work...")

        self.fp=open("huya.txt","w",encoding="utf-8")

    def process_item(self, item, spider):

        self.fp.write(item["title"]+"--"+item["nick"]+"--"+item["hot"]+"\n")

        print(item["title"]+":持久化完毕...")

        return item

    def close_spider(self,spider):

        print("close_spider end work...")

        self.fp.close()

class mysqlPipeline(object):

    def open_spider(self,spider):

        print("open_spider start work...")

        self.conn=pymysql.Connect(host="127.0.0.1",port=3306,user="root",password="root",db="Spider",charset="utf8")

    def process_item(self, item, spider):

        sql="insert into huya values ('%s','%s','%s')"%(item["title"],item["nick"],item["hot"])

        self.cursor=self.conn.cursor()

        try:

            self.cursor.execute(sql)

            self.conn.commit()

        except Exception as e:

            self.conn.rollback()

        return item

    def close_spider(self,spider):

        print("close_spider end work...")

setting中需要修改：

ITEM_PIPELINES = {

    'huya.pipelines.HuyaPipeline': 300,

    'huya.pipelines.mysqlPipeline': 301

}

**如果想要同步持久化到redis中只需要在pipe中添加类：

class RedisPipeLine(object):

    conn = None

    def open_spider(self,spider):

        self.conn = Redis(host='127.0.0.1',port=6379)

    def process_item(self,item,spider):

        self.conn.lpush('huyaList',item)

        return item

**然后修改setting中的ITEM_PIPELINES即可。

Scrapy数据解析和持久化的更多相关文章

05.Python网络爬虫之三种数据解析方式
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python爬虫之三种数据解析方式
一.引入二.回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需 ...
05，Python网络爬虫之三种数据解析方式
回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据 ...
《Python网络爬虫之三种数据解析方式》
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
python爬虫---爬虫的数据解析的流程和解析数据的几种方式
python爬虫---爬虫的数据解析的流程和解析数据的几种方式一丶爬虫数据解析概念:将一整张页面中的局部数据进行提取/解析作用:用来实现聚焦爬虫的吧实现方式: 正则 (针对字符串) bs4 x ...
Python网络爬虫之三种数据解析方式 (xpath, 正则, bs4)
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
070.Python聚焦爬虫数据解析
一聚焦爬虫数据解析 1.1 基本介绍聚焦爬虫的编码流程指定url 基于requests模块发起请求获取响应对象中的数据数据解析进行持久化存储如何实现数据解析三种数据解析方式正则表达式 ...
iOS-数据持久化基础-JSON与XML数据解析
解析的基本概念所谓“解析”:从事先规定好的格式串中提取数据解析的前提:提前约定好格式.数据提供方按照格式提供数据.数据获取方按照格式获取数据 iOS开发常见的解析:XML解析.JSON解析一.X ...
Request模块—数据解析工具
一.爬虫基本步骤指定URL信息发起请求获取响应数据对响应数据进行数据解析持久化存储二.数据解析 1. 正则表达式 (1) 基本语法 1. 单字符: . : 除换行以外所有字符 [] :[a ...
数据解析,懒加载,代理ip
在前面的requests流程中,还缺少了一步重要的流程,就是在持久化存储之前需要进行制定的数据解析.因为在大多数情况下,我们都会使用聚焦爬虫,也就是爬取页面中的指定部分数据值,而不是整个页面的数据. ...

随机推荐

dmesg 时间误差现象
案例现象这天收到监控平台发来的告警,说有台机器程序崩溃了因为以前也有过相关的错误,根据经验,用 dmesg命令看下内核信息发现有点不对劲,报错信息的时间跟告警时间不一致,正常来讲报错时间应该跟告 ...
Ipa Guard使用手册
使用手册开始使用ipa guard 代码混淆界面介绍文件混淆-界面介绍安装和登录Ipa Guard 相关教程下载安装Ipa Guard ipaguard注册和登录下载安装Ipa Guar ...
三、springboot集成金仓数据库
系列导航一.金仓数据库搭建(单机) 二.金仓数据库搭建(主从安装) 三.springboot集成金仓数据库 1.数据库中创建表 CREATE TABLE TEST_BLOCK_T ( BLOCK_I ...
vue 中安装使用jquery
https://www.cnblogs.com/tcz1018/p/13970479.html
Java虚拟机——内存区域及内存溢出异常
一.Java内存区域 1.概述对于java程序员来说,在虚拟机的自动内存管理机制的帮助下,不需要为每一个new操作去写delete/free代码,而且不容易出现内存泄漏和内存溢出问题.但是把内存控制 ...
Redis 也支持全文搜索了？这也太强了
在 2021 年我就了解到 RediSearch 这个项目,并已经把它用于我的开源项目 newbee-mall-pro 中. 就我的使用体验来说,简单场景下,用来平替 Elasticsearch 的使 ...
基于java+springboot的商城网站、电子商城管理系统
该系统是基于java+springboot+vue开发的在线商城网站.是给师弟开发的课程作业.学习过程中,遇到问题可以咨询作者. 演示地址前台地址: http://shop.gitapp.cn 后台 ...
基于AHB_BUS的eFlash控制器的架构设计
eFlash控制器的架构设计 1.架构设计思路分析 1.1 含有的模块分析 eFlash控制器是一个基于AHB的slave,所以需要一个AHB_slave_if处理AHB的信号.AHB_slave_i ...
DDP运行报错（单卡无错）：ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1)
使用DDP时出现错误,但是单卡跑无错误. 错误记录如下: RuntimeError: Expected to have finished reduction in the prior iteratio ...
Go-单元测试-Test
单元测试文件名以 _test.go 结尾函数名以 Test 开头函数参数固定 t *testing.T 运行单元测试 go test Demo 源文件 package unit import & ...

Scrapy数据解析和持久化

实例：抓取虎牙直播名称，直播者昵称和热度

第一种持久化方式（基于终端）：

第二种持久化方式（基于管道）：

Scrapy数据解析和持久化的更多相关文章

随机推荐

热门专题