Scrapy 抓取股票行情

安装scrapy会出现错误，我们选择anaconda3作为编译环境，搜索scrapy安装（有错误自查）

创建scrapy爬虫项目：

　　调出cmd，到相应目录：输入：

scrapy startproject stockstar

放置spide代码的目录文件　　 spider（用于编写爬虫）

项目中的item文件　　　　　　items.py(用于保存所抓取的数据的容器，其存储方式类似于Python的字典)

项目的中间件　　　　　　　 middlewares.py（提供一种简便的机制，通过允许插入自定义代码来拓展scrapy的功能）

项目的pipelines文件　　　　　pipelines.py(核心处理器)

项目的设置文件　　　　　　　settings.py

项目的配置文件　　　　　　 scrapy.cfg

创建项目后：在settings文件中有一句：

# Obey robots.txt rules

ROBOTSTXT_OBEY = True

有时候我们需要关闭：设为false

右击文件夹，在弹出的快捷键中选择：Mark Directory as --Sources Root,这样使导入包的语法更简洁

1.定义一个item容器：

在items.py中编写：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

from scrapy.loader import ItemLoader

from scrapy.loader.processors import TakeFirst

class StockstarItemLoader(ItemLoader):

    #自定义itemloader,用于存储爬虫所抓取的字段内容

    default_output_processor = TakeFirst()

class StockstarItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    code = scrapy.Field()               #股票代码

    abbr = scrapy.Field()               #股票简称

    last_trade = scrapy.Field()         #最新价

    chg_ratio = scrapy.Field()          #涨跌幅

    chg_amt = scrapy.Field()            #涨跌额

    chg_ratio_5min = scrapy.Field()     #5分钟涨幅

    volumn = scrapy.Field()             #成交量

    turn_over = scrapy.Field()          #成交额

settings.py加上：

from scrapy.exporters import JsonItemExporter

#默认显示的中文是阅读性较差的Unicode字符

#需定义子类显示出原来的字符集（将父类的ensure——ascii属性设置为False即可）

class CustomJsonLinesItemExporter(JsonItemExporter):

    def __init__(self,file,**kwargs):

        super(CustomJsonLinesItemExporter,self).__init__(file,ensure_ascii=False,**kwargs)

#启用新定义的Exporter类

FEED_EXPORTERS = {

    'json':'stockstar.settings.CustomJsonLinesItemExporter',

}

DOWNLOAD_DELAY = 0.25

cmd进入项目文件：

输入：scrapy genspider stock quote.stockstar.com，生产spider代码

stock.py

# -*- coding: utf-8 -*-

import scrapy

from items import StockstarItem,StockstarItemLoader

class StockSpider(scrapy.Spider):

    name = 'stock'  #定义爬虫名

    allowed_domains = ['quote.stockstar.com']#定义爬虫域

    start_urls = ['http://quote.stockstar.com/stock/ranklist_a_3_1_1.html']#定义爬虫连接

    def parse(self, response):#撰写爬虫逻辑

        page = int(response.url.split("_")[-1].split(".")[0])#抓取页码

        item_nodes = response.css('#datalist tr')

        for item_node in item_nodes:

            #根据item文件所定义的字段内容，进行字段内容的抓取

            item_loader = StockstarItemLoader(item=StockstarItem(),selector=item_node)

            item_loader.add_css("code","td:nth-child(1) a::text")

            item_loader.add_css("abbr","td:nth-child(2) a::text")

            item_loader.add_css("last_trade","td:nth-child(3) span::text")

            item_loader.add_css("chg_ratio","td:nth-child(4) span::text")

            item_loader.add_css("chg_amt","td:nth-child(5) span::text")

            item_loader.add_css("chg_ratio_5min","td:nth-child(6) span::text")

            item_loader.add_css("volumn","td:nth-child(7)::text")

            item_loader.add_css("turn_over","td:nth-child(8)::text")

            stock_item = item_loader.load_item()

            yield stock_item

        if item_nodes:

            next_page = page+1

            next_url = response.url.replace("{0}.html".format(page),"{0}.html".format(next_page))

            yield  scrapy.Request(url=next_url,callback=self.parse)

在stockstar下添加一个main.py

from scrapy.cmdline import execute

execute(["scrapy","crawl","stock","-o","items.json"])

#等价于在cmd中输入：scrapy crawl stock -o items.json

执行：

Scrapy 抓取股票行情的更多相关文章

吴裕雄--天生自然PYTHON爬虫：使用Scrapy抓取股票行情
Scrapy框架它能够帮助提升爬虫的效率,从而更好地实现爬虫.Scrapy是一个为了抓取网页数据.提取结构性数据而编写的应用框架,该框架是封装的,包含request异步调度和处理.下载器(多线程的Do ...
通过Scrapy抓取QQ空间
毕业设计题目就是用Scrapy抓取QQ空间的数据,最近毕业设计弄完了,来总结以下: 首先是模拟登录的问题: 由于Tencent对模拟登录比较讨厌,各个防备,而本人能力有限,所以做的最简单的,手动登录后 ...
python scrapy 抓取脚本之家文章(scrapy 入门使用简介)
老早之前就听说过python的scrapy.这是一个分布式爬虫的框架,可以让你轻松写出高性能的分布式异步爬虫.使用框架的最大好处当然就是不同重复造轮子了,因为有很多东西框架当中都有了,直接拿过来使用就 ...
scrapy抓取淘宝女郎
scrapy抓取淘宝女郎准备工作首先在淘宝女郎的首页这里查看,当然想要爬取更多的话,当然这里要查看翻页的url,不过这操蛋的地方就是这里的翻页是使用javascript加载的,这个就有点尴尬了,找 ...
写一个shell脚本利用wget抓取股票历史数据
今天,大数据部老大交给我一项任务——抓取股票历史数据.于是乎,我自行在网上找了一下,发现wget真真是一个非常强大的linux下载工具.我已经被深深震撼到了.下面叙述今天的一些过程,还是比较坎坷的. ...
scrapy抓取拉勾网职位信息（一）——scrapy初识及lagou爬虫项目建立
本次以scrapy抓取拉勾网职位信息作为scrapy学习的一个实战演练 python版本:3.7.1 框架:scrapy(pip直接安装可能会报错,如果是vc++环境不满足,建议直接安装一个visua ...
scrapy抓取的中文结果乱码解决办法
使用scrapy抓取的结果,中文默认是Unicode,无法显示中文. 中文默认是Unicode,如: \u5317\u4eac\u5927\u5b66 在setting文件中设置: FEED_EXPO ...
分布式爬虫：使用Scrapy抓取数据
分布式爬虫:使用Scrapy抓取数据 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘. ...
解决Scrapy抓取中文网页保存为json文件时中文不显示而是显示unicode的问题
注意:此方法跟之前保存成json文件的写法有少许不同之处,注意区分情境再现: 使用scrapy抓取中文网页,得到的数据类型是unicode,在控制台输出的话也是显示unicode,如下所示 {'au ...

随机推荐

Spring boot 开发组件
一.Jboot 描述:Jboot是一个基于jfinal 和 undertow开发的微服务框架.提供了AOP.RPC.分布式缓存.限流.降级.熔断.统一配置中心.swagger api自动生成.Open ...
python处理Excel 之 xlrd-乾颐堂
python处理Excel常用到的模块是xlrd.使用xlrd可以非常方便的处理Excel文档,下面介绍一下基本用法 1.打开文件 import xlrd data= xlrd.open_workbo ...
Django中的元类-乾颐堂
看Django(1.6)的Form相关源代码时比较迷惑,于是节选了django.forms.forms.py中的几个代码片段来分析Django中是怎么使用元类的: 1 2 3 4 5 6 7 8 9 ...
spring.net事件的注入
.c#代码 TestObject source = new TestObject(); TestEventHandler eventListener1 = new TestEventHandler() ...
KNN算法python实现
1 KNN 算法 knn,k-NearestNeighbor,即寻找与点最近的k个点. 2 KNN numpy实现效果: k=1 k=2 3 numpy 广播,聚合操作. 这里求距离函数,求某点和集 ...
Type Hierarchy
Window - Preferences - General - Keys Name: Open Type Hierarchy Description: Open a type hie ...
第02章查询DSL进阶
本章内容 Lucene默认评分公式是如何工作的. 什么是查询重写. 查询二次评分是如何工作的. 如何在单次请求中实现批量准实时读取操作. 如何在单次请求中发送多个查询. 如何对包括嵌套文档和多值字段的 ...
CAD&CG GDC 2018大会论文录用名单
Section 1 增强现实与图形学: 报告时间:2018-8-25 14:00-15:30 报告地点:会议室1 P000009 基于增强现实的产品质量信息传递方法 P000104 重彩画的风格转移 ...
SVN客户端--TortoiseSVN使用说明【转】
TortoiseSVN是windows下其中一个非常优秀的SVN客户端工具.通过使用它,我们可以可视化的管理我们的版本库.不过由于它只是一个客户端,所以它不能对版本库进行权限管理. TortoiseS ...
[LeetCode 题解]: Permutations
Given a collection of numbers, return all possible permutations. For example,[1,2,3] have the follow ...

Scrapy 抓取股票行情

Scrapy 抓取股票行情的更多相关文章

随机推荐

热门专题