Scrapy 抓取股票行情

安装scrapy会出现错误，我们选择anaconda3作为编译环境，搜索scrapy安装（有错误自查）

创建scrapy爬虫项目：

　　调出cmd，到相应目录：输入：

scrapy startproject stockstar

放置spide代码的目录文件　　 spider（用于编写爬虫）

项目中的item文件　　　　　　items.py(用于保存所抓取的数据的容器，其存储方式类似于Python的字典)

项目的中间件　　　　　　　 middlewares.py（提供一种简便的机制，通过允许插入自定义代码来拓展scrapy的功能）

项目的pipelines文件　　　　　pipelines.py(核心处理器)

项目的设置文件　　　　　　　settings.py

项目的配置文件　　　　　　 scrapy.cfg

创建项目后：在settings文件中有一句：

# Obey robots.txt rules

ROBOTSTXT_OBEY = True

有时候我们需要关闭：设为false

右击文件夹，在弹出的快捷键中选择：Mark Directory as --Sources Root,这样使导入包的语法更简洁

1.定义一个item容器：

在items.py中编写：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

from scrapy.loader import ItemLoader

from scrapy.loader.processors import TakeFirst

class StockstarItemLoader(ItemLoader):

    #自定义itemloader,用于存储爬虫所抓取的字段内容

    default_output_processor = TakeFirst()

class StockstarItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    code = scrapy.Field()               #股票代码

    abbr = scrapy.Field()               #股票简称

    last_trade = scrapy.Field()         #最新价

    chg_ratio = scrapy.Field()          #涨跌幅

    chg_amt = scrapy.Field()            #涨跌额

    chg_ratio_5min = scrapy.Field()     #5分钟涨幅

    volumn = scrapy.Field()             #成交量

    turn_over = scrapy.Field()          #成交额

settings.py加上：

from scrapy.exporters import JsonItemExporter

#默认显示的中文是阅读性较差的Unicode字符

#需定义子类显示出原来的字符集（将父类的ensure——ascii属性设置为False即可）

class CustomJsonLinesItemExporter(JsonItemExporter):

    def __init__(self,file,**kwargs):

        super(CustomJsonLinesItemExporter,self).__init__(file,ensure_ascii=False,**kwargs)

#启用新定义的Exporter类

FEED_EXPORTERS = {

    'json':'stockstar.settings.CustomJsonLinesItemExporter',

}

DOWNLOAD_DELAY = 0.25

cmd进入项目文件：

输入：scrapy genspider stock quote.stockstar.com，生产spider代码

stock.py

# -*- coding: utf-8 -*-

import scrapy

from items import StockstarItem,StockstarItemLoader

class StockSpider(scrapy.Spider):

    name = 'stock'  #定义爬虫名

    allowed_domains = ['quote.stockstar.com']#定义爬虫域

    start_urls = ['http://quote.stockstar.com/stock/ranklist_a_3_1_1.html']#定义爬虫连接

    def parse(self, response):#撰写爬虫逻辑

        page = int(response.url.split("_")[-1].split(".")[0])#抓取页码

        item_nodes = response.css('#datalist tr')

        for item_node in item_nodes:

            #根据item文件所定义的字段内容，进行字段内容的抓取

            item_loader = StockstarItemLoader(item=StockstarItem(),selector=item_node)

            item_loader.add_css("code","td:nth-child(1) a::text")

            item_loader.add_css("abbr","td:nth-child(2) a::text")

            item_loader.add_css("last_trade","td:nth-child(3) span::text")

            item_loader.add_css("chg_ratio","td:nth-child(4) span::text")

            item_loader.add_css("chg_amt","td:nth-child(5) span::text")

            item_loader.add_css("chg_ratio_5min","td:nth-child(6) span::text")

            item_loader.add_css("volumn","td:nth-child(7)::text")

            item_loader.add_css("turn_over","td:nth-child(8)::text")

            stock_item = item_loader.load_item()

            yield stock_item

        if item_nodes:

            next_page = page+1

            next_url = response.url.replace("{0}.html".format(page),"{0}.html".format(next_page))

            yield  scrapy.Request(url=next_url,callback=self.parse)

在stockstar下添加一个main.py

from scrapy.cmdline import execute

execute(["scrapy","crawl","stock","-o","items.json"])

#等价于在cmd中输入：scrapy crawl stock -o items.json

执行：

Scrapy 抓取股票行情的更多相关文章

吴裕雄--天生自然PYTHON爬虫：使用Scrapy抓取股票行情
Scrapy框架它能够帮助提升爬虫的效率,从而更好地实现爬虫.Scrapy是一个为了抓取网页数据.提取结构性数据而编写的应用框架,该框架是封装的,包含request异步调度和处理.下载器(多线程的Do ...
通过Scrapy抓取QQ空间
毕业设计题目就是用Scrapy抓取QQ空间的数据,最近毕业设计弄完了,来总结以下: 首先是模拟登录的问题: 由于Tencent对模拟登录比较讨厌,各个防备,而本人能力有限,所以做的最简单的,手动登录后 ...
python scrapy 抓取脚本之家文章(scrapy 入门使用简介)
老早之前就听说过python的scrapy.这是一个分布式爬虫的框架,可以让你轻松写出高性能的分布式异步爬虫.使用框架的最大好处当然就是不同重复造轮子了,因为有很多东西框架当中都有了,直接拿过来使用就 ...
scrapy抓取淘宝女郎
scrapy抓取淘宝女郎准备工作首先在淘宝女郎的首页这里查看,当然想要爬取更多的话,当然这里要查看翻页的url,不过这操蛋的地方就是这里的翻页是使用javascript加载的,这个就有点尴尬了,找 ...
写一个shell脚本利用wget抓取股票历史数据
今天,大数据部老大交给我一项任务——抓取股票历史数据.于是乎,我自行在网上找了一下,发现wget真真是一个非常强大的linux下载工具.我已经被深深震撼到了.下面叙述今天的一些过程,还是比较坎坷的. ...
scrapy抓取拉勾网职位信息（一）——scrapy初识及lagou爬虫项目建立
本次以scrapy抓取拉勾网职位信息作为scrapy学习的一个实战演练 python版本:3.7.1 框架:scrapy(pip直接安装可能会报错,如果是vc++环境不满足,建议直接安装一个visua ...
scrapy抓取的中文结果乱码解决办法
使用scrapy抓取的结果,中文默认是Unicode,无法显示中文. 中文默认是Unicode,如: \u5317\u4eac\u5927\u5b66 在setting文件中设置: FEED_EXPO ...
分布式爬虫：使用Scrapy抓取数据
分布式爬虫:使用Scrapy抓取数据 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘. ...
解决Scrapy抓取中文网页保存为json文件时中文不显示而是显示unicode的问题
注意:此方法跟之前保存成json文件的写法有少许不同之处,注意区分情境再现: 使用scrapy抓取中文网页,得到的数据类型是unicode,在控制台输出的话也是显示unicode,如下所示 {'au ...

随机推荐

346. Moving Average from Data Stream数据窗口流中位数的数据结构设计
［抄题］: Given a stream of integers and a window size, calculate the moving average of all integers in ...
telnet客户端模拟浏览器发送请求
telnet 客户端 telnet客户端能够发出请求去连接服务器(模拟浏览器) 使用telnet之前,需要开启telnet客户端 1.进入控制面板 2.进入程序和功能,选择打开或关闭windows功能 ...
spring4-2-bean配置-2-属性注入细节
配置 bean,本章节中主要介绍蓝色文字部分. 配置形式:基于 XML 文件的方式:基于注解的方式 Bean 的配置方式:通过全类名(反射).通过工厂方法(静态工厂方法 & 实例工厂方法).F ...
StringUtils详解
public static void StringUtil(){ //null 和 ""操作~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ //判断是否 ...
ECC 算法
一.简介 1)椭圆曲线密码学的初级读本 http://8btc.com/thread-1240-1-1.html 2)ECC加密算法入门介绍 http://www.pediy.com/kssd/ped ...
extends前提
extends之前需要先include
"软掩膜"和“硬掩膜”-智能IC卡
目录一.“软掩膜”和“硬掩膜”... 2 二.EMV迁移进程... 3 三.PBOC规范和EMV规范对比... 3 四.总结... 5 五.关于SDA和DDA. 6 一.“软掩膜”和“硬掩膜” “软 ...
设计模式13：Template Method 模板方法模式（行为型模式）
Template Method 模板方法模式(行为型模式) 变与不变变化——是软件永恒的主题,如何管理变化带来的复杂性?设计模式的艺术性和复杂度就在于如何分析,并发现体系中的变化点和稳定点,并使用特 ...
20169205实验一 Java开发环境的熟悉（Linux+IDEA）
20169205实验一 Java开发环境的熟悉(Linux+IDEA) 实验内容及步骤使用JDK编译.运行简单的Java程序打开windows下的cmd → 输入cd Code命令进入Code目录 ...
深入理解java虚拟机（十） Java 虚拟机运行时栈帧结构
运行时栈帧结构栈帧(Stack Frame) 是用于虚拟机执行时方法调用和方法执行时的数据结构,它是虚拟栈数据区的组成元素.每一个方法从调用到方法返回都对应着一个栈帧入栈出栈的过程. 每一个栈帧在编 ...

Scrapy 抓取股票行情

Scrapy 抓取股票行情的更多相关文章

随机推荐

热门专题