Scrapy框架1——简单使用

一、设置与编写

打开cmd,选择好路径

1.创建项目`scrapy startproject projectname`

d:\爬虫\11.scrapy>scrapy startproject  testproject

2.生成模板`scrapy genspider testspider www.xxx.com`

d:\爬虫\11.scrapy\testproject>`scrapy genspider testspider www.xxx.com`

3.配置

3.1.打开testspider.py

# -*- coding: utf-8 -*-

import scrapy

class TestspiderSpider(scrapy.Spider):

    name = 'testspider'

   # allowed_domains = ['www.xxx.com'] #爬取的网站必须属于该域名，否则不会爬取,所以一般不用

    start_urls = ['https://xueqiu.com/'] #起始的url列表

    def parse(self, response):  #回调函数，进行解析或数据储存reponse为请求后的响应对象，

        title = response.xpath('//*[@id="app"]/div[3]/div[1]/div[2]/div[2]/div[1]/div/h3/a/text()').extract()

        author = response.xpath('////*[@id="app"]/div[3]/div[1]/div[2]/div[2]/div[1]/div/div/div[1]/a[2]text()')

        print(title)

        return dict(zip(author,title))

#xpath函数返回的列表中存放的数据为Selector类型的数据。我们解析到的内容被封装在了Selector对象中，需要调用extract()方法将解析的内容从Selecor中取出。

3.2.打开settings.py

#对user-agent进行修改

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.75 Safari/537.36'

ROBOTSTXT_OBEY = False  #将True改为False，否则将遵守robots协议

4.通过cmd执行

scrapy crawl testspider ：该种执行形式会显示执行的日志信息

scrapy crawl testspider --nolog：该种执行形式不会显示执行的日志信息

d:\爬虫\11.scrapy\testproject>scrapy crawl testspider --nolog

['一家真正懂金融的金融科技公司，成功转型助贷业务….', '大江奔涌，日夜前行，看好中国，做多中国股市！', '最好的时代！最好的地方！', '在A股年化收益达到100%后对股市的一些思考', '大国制造从芯片 说起', '【悬赏】拼多多又双叒叕新高，他能站稳电商第二极吗？', '童装霸主巴拉巴拉的爸爸：森马服饰解析（上）', '不了解股票的强相关，你将永远陷入股票投机的怪圈', '充电5分钟、续航150公里 宁德时代推出动力电池新技术', '选择困难，重庆农商行发行询价该报多少？']

二、持久化储存

1.基于终端指令的持久化储存

保证parse方法返回一个可迭代类型的对象

 scrapy crawl 爬虫文件名称 -o xxx.json

 支持的文件格式：json、csv、xml、pickle、marshal

 保存为json格式，会转换成bytes类型

D:\爬虫\11.scrapy\testproject\testproject>scrapy crawl testspider -o title.json --nolog

2.基于管道的持久化储存

流程：

在爬虫文件中进行数据解析
在item类中声明相关的属性用于存储解析到的数据
将解析到的数据封装到item类的对象中
将item对象提交给管道
item对象会作为管道类中的process_item的参数进行处理
process_item方法中编写基于item持久化存储的操作
在setting中开启管道

items.py ：结合抓取到的数据定义类用于实例化存储数据

import scrapy

class TestprojectItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    author  = scrapy.Field()

    title = scrapy.Field()

# ------------提交到MySQL -------------------

testspider.py ：数据解析、封装并提交到管道

# -*- coding: utf-8 -*-

import scrapy

from testproject.items import TestprojectItem

class TestspiderSpider(scrapy.Spider):

    name = 'testspider'

    allowed_domains = ['www.xxx.com']

    start_urls = ['https://xueqiu.com/']

    def parse(self, response):

        title = response.xpath('//*[@id="app"]/div[3]/div[1]/div[2]/div[2]/div[1]/div/h3/a/text()').extract()

        author = response.xpath('//*[@id="app"]/div[3]/div[1]/div[2]/div[2]/div[1]/div/div/div[1]/a[2]/text()').extract()

        for i,j in zip(title,author):

            item = TestprojectItem()

            item['author'] = j

            item['title'] = i

            yield item

 #将数据封装的item对象中，并返回给管道

pipelines.py:将抓取到的数据保存

import pymysql

# ------------ Pipeline:保存本地 ------------------------

class TestprojectPipeline(object):

    def __init__(self):

        self.f = None

    def open_spider(self,spider):

        self.f = open('./雪球.txt','w',encoding='utf8')

    def process_item(self, item, spider):

        author = item['author']

        title = item['title']

        self.f.write(author+':'+title+'\n')

        return item    #将数据返回给下一个管道对象

    def close_spider(self,spider):

        self.f.close()

 #------------- Pipeline:导入mysql数据库 -------------------

class MysqlPipeline(object):

    conn = None

    cur = None

    def open_spider(self,spider):

        self.conn = pymysql.connect(

        	host = '192.168.1.4',

        	port = 3306,

            user = 'syx',

            password = '123',

            database = 'spider',

            charset = 'utf8',

        )

        self.cur = self.conn.cursor()

    def process_item(self, item, spider):

        author = item['author']

        title = item['title']

        sql = 'insert into xueqiu values("%s","%s")' % (author,title)

        try:

            self.cur.execute(sql)

            self.conn.commit()

        except Exception as e:

            print(e)

            self.conn.rollback()

        return item

    def close_spider(self,spider):

        print('finish')

        self.cur.close()

        self.conn.close()

setting.py:对ITEM_PIPELINES进行配置，数值小优先级高

ITEM_PIPELINES = {

    'testproject.pipelines.TestprojectPipeline': 300,

    'testproject.pipelines.MysqlPipeline': 301,

}

#日志级别设置：INFO、DEBUG、ERROR

LOG_LEVEL = 'ERROR'

Scrapy框架1——简单使用的更多相关文章

Scrapy框架的简单使用
一.安装依赖 #Windows平台 1.pip3 install wheel 3.pip3 install lxml 4.pip3 install pyopenssl 5.pip3 install p ...
Scrapy框架学习笔记
1.Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网 ...
Python -- Scrapy 框架简单介绍（Scrapy 安装及项目创建）
Python -- Scrapy 框架简单介绍最近在学习python 爬虫,先后了解学习urllib.urllib2.requests等,后来发现爬虫也有很多框架,而推荐学习最多就是Scrapy框架 ...
Python爬虫框架--Scrapy安装以及简单实用
scrapy框架框架 -具有很多功能且具有很强通用性的一个项目模板环境安装: Linux: pip3 install scrapy Windows: ...
Python爬虫Scrapy框架入门（2）
本文是跟着大神博客,尝试从网站上爬一堆东西,一堆你懂得的东西附上原创链接: http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是,查看网页元素,填写 ...
Python爬虫从入门到放弃（十一）之 Scrapy框架整体的一个了解
这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider ...
一个scrapy框架的爬虫(爬取京东图书)
我们的这个爬虫设计来爬取京东图书(jd.com). scrapy框架相信大家比较了解了.里面有很多复杂的机制,超出本文的范围. 1.爬虫spider tips: 1.xpath的语法比较坑,但是你可以 ...
安装scrapy框架的常见问题及其解决方法
下面小编讲一下自己在windows10安装及配置Scrapy中遇到的一些坑及其解决的方法,现在总结如下,希望对大家有所帮助. 常见问题一:pip版本需要升级如果你的pip版本比较老,可能在安装的过程 ...
关于使用scrapy框架编写爬虫以及Ajax动态加载问题、反爬问题解决方案
Python爬虫总结总的来说,Python爬虫所做的事情分为两个部分,1:将网页的内容全部抓取下来,2:对抓取到的内容和进行解析,得到我们需要的信息. 目前公认比较好用的爬虫框架为Scrapy,而且 ...

随机推荐

聊聊Beaglebone Black的cape和device tree overlay和dtc命令【转】
本文转载自:https://blog.csdn.net/wyt2013/article/details/16846171 本文是我早期写的,语言略混乱.请直接看我最新整理的,适用于初学者的文章< ...
乌龙茶生产过程中挥发性成分吲哚的形成 | Formation of Volatile Tea Constituent Indole During the Oolong Tea Manufacturing Process
吲哚是啥?在茶叶成分中的地位?乌龙茶?香气,重要的前体,比如色氨酸Trp.IAA. Indole is a characteristic volatile constituent in oolong ...
Page directive: invalid value for import
原有项目启动正常,正常访问:后来换成tomcat7.0.70:后启动正常,登陆正常,然而点进去任何菜单都会报错: java.lang.IllegalArgumentException: Page di ...
从库延迟增大，MySQL日志出现InnoDB: page_cleaner: 1000ms intended loop took 17915ms.
今天同事负责的数据库从库出现从库延迟增大,MySQL日志InnoDB: page_cleaner: 1000ms intended loop took 17915ms. 了解原因,keepalived ...
SKU是什么意思？
在做电商项目时候必定会遇到这个词,那是什么意思呢?其实简单来讲就是一个单位. SKU全称为Stock Keeping Unit(库存量单位),即库存进出计量的基本单元,可以是以件,盒,托盘等为单位.S ...
谱聚类算法及其代码（Spectral Clustering）
https://blog.csdn.net/liu1194397014/article/details/52990015 https://blog.csdn.net/u011089523/articl ...
CMU Database Systems - Parallel Execution
并发执行,主要为了增大吞吐,降低延迟,提高数据库的可用性先区分一组概念,parallel和distributed的区别总的来说,parallel是指在物理上很近的节点,比如本机的多个线程或进程,不 ...
【Java.Regex】用正则表达式查找Java文件里的字符串
代码: import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOException; imp ...
ubuntu12.04下安装Python3.5.2 1
下载源码包 (https://www.python.org/downloads/release/python-352/) 2 解压Python-3.5.2.tar.xz 3 sudo ./conf ...
NonSerialized 属性忽略序列化报错'NonSerialized' is not valid on this declaration type
[XmlIgnore] [NonSerialized] public List<string> paramFiles { get; set; } //I get the following ...