股票数据Scrapy爬虫实例（亲测有效）

步骤：

步骤1：建立工程和Spider模板

scrapy startproject BaiduStocks
cd BaiduStocks
scrapy genspider stocks baidu.com
进一步修改spiders/stocks.py

这一步自行完成~

步骤2：编写Spider

配置stocks.py文件
修改对返回页面的处理
修改对新增URL爬取请求的处理（stocks.py）

# -*- coding: utf-8 -*-

import scrapy

import re

class StocksSpider(scrapy.Spider):

    name = 'stocks'

    start_urls = ['http://quote.eastmoney.com/stock_list.html']

    def parse(self, response):

        for href in response.css('a::attr(href)').extract():

            try:

                stock = re.findall(r"[s][hz]\d{6}", href)[0]

                url = 'http://gu.qq.com/' + stock + '/gp'

                yield scrapy.Request(url, callback=self.parse_stock)

            except:

                continue

    def parse_stock(self, response):

        infoDict = {}

        stockName = response.css('.title_bg')

        stockInfo = response.css('.col-2.fr')

        name = stockName.css('.col-1-1').extract()[0]

        code = stockName.css('.col-1-2').extract()[0]

        info = stockInfo.css('li').extract()

        for i in info[:13]:

            key = re.findall('>.*?<', i)[1][1:-1]

            key = key.replace('\u2003', '')

            key = key.replace('\xa0', '')

            try:

                val = re.findall('>.*?<', i)[3][1:-1]

            except:

                val = '--'

            infoDict[key] = val

        infoDict.update({'股票名称': re.findall('\>.*\<', name)[0][1:-1] + \

                                 re.findall('\>.*\<', code)[0][1:-1]})

        yield infoDict

其中的key=re.replace('\u2003','')，key=re.replace('\xa0','')分别是为了除去爬取的字符串中的无用部分，如&nbsp等，网页抓取时会因为编码原因转化成\xa0，所以我们需要进行替换，得到较为美观的字符串.

步骤3：编写ITEM Pipelines

配置pipelines.py文件
定义对爬取项（Scrapy Item）的处理类（pipelines.py）

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

class ScrapyGupiaoPipeline:

    def process_item(self, item, spider):

        return item

class ScrapyGupiaoPipeline:

    def open_spider(self, spider):

        self.f = open('gupiao.txt', 'w')

    def close_spider(self, spider):

        self.f.close()

    def process_item(self, item, spider):

        try:

            line = str(dict(item)) + '\n'

            self.f.write(line)

        except:

            pass

        return item

步骤四：配置ITEM_PIPELINES选项（settings.py）

# Configure item pipelines

# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

   'BaiduStocks.pipelines.ScrapyGupiaoPipeline': 300,

}

股票数据Scrapy爬虫实例（亲测有效）的更多相关文章

股票数据Scrapy爬虫
功能描述: 技术路线:scrapy 目标:获取上交所和深交所所有股票的名称和交易信息输出:保存到文件中数据网站的确定获取股票列表: 东方财富网:http://quote.eastmoney.co ...
简单scrapy爬虫实例
简单scrapy爬虫实例流程分析抓取内容:网站课程页面:https://edu.hellobi.com 数据:课程名.课程链接及学习人数观察页面url变化规律以及页面源代码帮助我们获取所有数据 ...
scrapy爬虫实例(1)
爬虫实例对象阳光问政平台目标 : 主题,时间,内容爬取思路预先设置好items import scrapy class SuperspiderItem(scrapy.Item): title ...
Scrapy爬虫实例——校花网
学习爬虫有一段时间了,今天使用Scrapy框架将校花网的图片爬取到本地.Scrapy爬虫框架相对于使用requests库进行网页的爬取,拥有更高的性能. Scrapy官方定义:Scrapy是用于抓取网 ...
Scrapy爬虫实例教程（二）---数据存入MySQL
书接上回实例教程(一) 本文将详细描述使用scrapy爬去左岸读书所有文章并存入本地MySql数据库中,文中所有操作都是建立在scrapy已经配置完毕,并且系统中已经安装了Mysql数据库(有权限操 ...
Scrapy 爬虫实例教程（一）---简介及资源列表
Scrapy(官网 http://scrapy.org/)是一款功能强大的,用户可定制的网络爬虫软件包.其官方描述称:" Scrapy is a fast high-level screen ...
python scrapy 爬虫实例
1 创建一个项目 scrapy startproject basicbudejie 2 编写爬虫 import scrapy class Basicbudejie(scrapy.Spider): na ...
C++ Const 使用总结，代码实例亲测
1. 修饰普通变量修饰变量语法 const TYPE value <==> TYPE const value 两者等价, 变量不可修改,无需说明. 2. 修饰指针首先看下面一段代码 ...
【Python爬虫实战】Scrapy框架的安装搬运工亲测有效
windows下亲测有效 http://blog.csdn.net/liuweiyuxiang/article/details/68929999这个我们只是正确操作步骤详解的搬运工
实时获取股票数据，免费！——Python爬虫Sina Stock实战
更多精彩内容,欢迎关注公众号:数量技术宅,也可添加技术宅个人微信号:sljsz01,与我交流. 实时股票数据的重要性对于四大可交易资产:股票.期货.期权.数字货币来说,期货.期权.数字货币,可以从交 ...

随机推荐

Spark RDD编程
1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数:条件表达式 2. 生成单词的列表从列表创建RDD wor ...
HTTP-看这一篇就够了
HTTP和HTTPS有什么区别 1.传输过程中信息是否加密,HTTP是超文本传输协议,信息是明文传输,HTTPS是具有安全性的SSL加密的超文本传输协议,信息是加密传输: 2.服务端使用的端口号不一致 ...
Java8：LocalDate/ LocalDateTime与String、Date、TimeStamp的互转
LocalDate与String.Date.TimeStamp的互转: LocalDateTime与String.Date.TimeStamp的互转: 结果如下: 附代码: public static ...
MySQL中的json函数
json_valid 判断是否为合法json文档 json_unquote 去除json字符串的引号,将值转成string类型 json_extract 提取json值
vue element tree 上移下移
效果图需求是:上边没有了应该取最后一个下边没有了应该取第一个直接上代码: <template> <el-tree :key="tree_key" v ...
P77 3.12
#P77 3.12 #一年365天,初始水平值为1.0,每工作一天水平增加N, #不工作时水平不下降,一周连续工作4天,请编写程序运算 #结果并填写表格 n = 1.0 for j in range ...
angular项目语言切换功能
1.NzI18nService服务参考:https://ng.ant.design/docs/i18n/zh 2.ngx-translate插件 1)安装依赖 npm install @ngx-tr ...
Mybatis-plus的自定义分页搭配sql Server数据库使用
原文出处:mybatisplus查询分页并且排序报错解决方法,适用于自定义sql和sqlserver_十七梦的博客-CSDN博客一开始使用过的是官方文档来写分页,结果出现了如果不在最后添加ORDER ...
hexo相对路径图片显示
说明 hexo的图片默认不支持相对路径.需要配置 post_asset_folder 选项,设置从false改成true之后支持.但是要求图片目录必须和文件名相同. 由于我在typore下的markd ...
常用的typedef 定义
今天开始学习VC++基础,系统编程栏目下都是WinAPI和MFC的内容,此为浏览博客园时学习的一篇文章,觉得很实用,拿来做笔记. 出处见最底部. 三行代码: typedef char CHAR ...

股票数据Scrapy爬虫实例（亲测有效）

股票数据Scrapy爬虫实例（亲测有效）的更多相关文章

随机推荐

热门专题