scrapy实战

采用scrapy实现对股票网站的爬取

功能描述：

　　技术路线：scrapy

　　目标：获取上交所和深交所所有股票名称和交易信息并存储

实例编写：

　　步骤1：建立工程和spider爬虫模板

　　步骤2：编写spider

　　步骤3：编写item pipeline

新建工程：

生成名为stocks的爬虫

打开IDE，将项目导入，首先我们要编辑spider文件夹下的stocks.py文件，使其能处理返回的url

import scrapy

import re

class StocksSpider(scrapy.Spider):

    name = 'stocks'

    start_urls = ['http://quote.eastmoney.com/stocklist.html']

    def parse(self, response):

        for href in response.css('a::attr(href)').extract():   #将a标签中的链接进行提取

            try:

                stock = re.findall(r"[s][hz]\d{6}", href)[0]   #通过正则表达式库来获取股票代码

                url = 'https://gupiao.baidu.com/stock/' + stock + '.html'

                yield scrapy.Request(url, callback=self.parse_stock)  #给出了处理url的响应函数，定义出一个新的函数parse_stock

            except:

                continue

    def parse_stock(self, response):

        infoDict = {}

        stockInfo = response.css('.stock-bets')    #找到一个属性为stock-bets的区域

        name = stockInfo.css('.bets-name').extract()[0]   #提取股票名字

        keyList = stockInfo.css('dt').extract()           #提取每个dt标签

        valueList = stockInfo.css('dd').extract()         #提取每个dd标签

        for i in range(len(keyList)):                     #遍历每对标签，提取标签的键和值，并存入列表

            key = re.findall(r'>.*</dt>', keyList[i])[0][1:-5]

            try:

                val =re.findall(r'\d+\.?.*</dd>', valueList[i])[0][1:-5]

            except:

                val = '--'

            infoDict[key] = val

        infoDict.update(

            {'股票名称': re.findall('\s.*\(', name)[0].split()[0] + re.findall('\>.*\<', name)[0][1:-1]}

        )       #将页面内股票名称和代码存入列表

        yield infoDict        #以备将列表内的信息传递给ITEM pipeline

接下来要配置pipelines.py文件，定义对爬取项的处理类

class BaidustockPipeline(object):

    def process_item(self, item, spider):

        return item

class BaidustocksInfoPipeline(object):

    def open_spider(self, spider):  #爬虫被调用时，pipeline所启用的方法

        self.f = open('BaiduStockInfo.txt', 'w')

    def close_spider(self, spider): #爬虫关闭时，pipeline所启用的方法

        self.f.close()

    def process_item(self, item, spider):   #将每个股票的信息写入文件中

        try:

            line = str(dict(item)) + '\n'

            self.f.write(line)

        except:

            pass

        return item

在pipelines.py中定义了一个类，为了让程序能找到这个类，需要配置ITEM_PIPELINES选项

打开settings.py，找到ITEM_PIPELINES参数，删除注释号

执行命令：

scrapy实战的更多相关文章

简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
Python分布式爬虫开发搜索引擎 Scrapy实战视频教程
点击了解更多Python课程>>> Python分布式爬虫开发搜索引擎 Scrapy实战视频教程课程目录 |--第01集教程推介 98.23MB |--第02集 windows下 ...
Scrapy实战篇（六）之Scrapy配合Selenium爬取京东信息（上）
在之前的一篇实战之中,我们已经爬取过京东商城的文胸数据,但是前面的那一篇其实是有一个缺陷的,不知道你看出来没有,下面就来详细的说明和解决这个缺陷. 我们在京东搜索页面输入关键字进行搜索的时候,页面的返 ...
Scrapy实战-新浪网分类资讯爬虫
项目要求: 爬取新浪网导航页所有下所有大类.小类.小类里的子链接,以及子链接页面的新闻内容. 什么是Scrapy框架: Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应 ...
Scrapy实战篇（八）之爬取教育部高校名单抓取和分析
本节我们以网址https://daxue.eol.cn/mingdan.shtml为初始链接,爬取教育部公布的正规高校名单. 思路: 1.首先以上面的地址开始链接,抓取到下面省份对应的链接. 2.在解 ...
Scrapy实战篇（七）之爬取爱基金网站基金业绩数据
本篇我们以scrapy+selelum的方式来爬取爱基金网站(http://fund.10jqka.com.cn/datacenter/jz/)的基金业绩数据. 思路:我们以http://fund.1 ...
scrapy实战之scrapyrt的使用
scrapyrt为scrapy提供了一个http接口,有了它,我们不用再执行命令,而是直接请求一个http接口来启动项目,如果项目是部署在远程的,会比较方便. 1.安装: pip install sc ...
Scrapy实战篇（六）之爬取360图片数据和图片
本篇文章我们以360图片为例,介绍scrapy框架的使用以及图片数据的下载. 目标网站:http://images.so.com/z?ch=photography 思路:分析目标网站为ajax加载方式 ...
Scrapy实战篇（五）之爬取历史天气数据
本篇文章我们以抓取历史天气数据为例,简单说明数据抓取的两种方式: 1.一般简单或者较小量的数据需求,我们以requests(selenum)+beautiful的方式抓取数据 2.当我们需要的数据量较 ...
Scrapy实战篇（四）爬取京东商城文胸信息
创建scrapy项目 scrapy startproject jingdong 填充 item.py文件在这里定义想要存储的字段信息 import scrapy class JingdongItem ...

随机推荐

debug模式开启会做哪些事(源码分析)
以往开发中不管是django框架下开发还是其它框架下开发, 只知道在开发阶段要开启debug模式, 却一直没有深究它会我们做哪些事, 今天使用tornado时偶然看到源码中写的很清楚,故写下来加深印象 ...
Python学习笔记（六）测试开发之接口开发
Python的接口开发要使用到flask.Flask(__name__) 下面是一个简单的接口实例程序及访问效果: import flaskserver = flask.Flask(__name__) ...
Insertion Sort Gym - 101955C 思路+推公式
题目:题目链接题意:对长为n的1到n的数列的前k个数排序后数列的最长上升子序列长度不小于n-1的数列的种数,训练赛时怎么都读不明白这个题意,最后还是赛后问了旁队才算看懂,英语水平急需拯救55555 ...
Java基础知识：Collection接口
*本文是最近学习到的知识的记录以及分享,算不上原创. *参考文献见文末. 这篇文章主要讲的是java的Collection接口派生的两个子接口List和Set. 目录 Collection框架 Lis ...
快速从mysqldump文件中恢复一个表
快速从较大的mysqldump文件中恢复一个表到数据库中: 1.先获取目标表(md_gas_check_record)在文件中的位置 [publish@LF-PRO-DB-01 ~]$ cat dby ...
Vs2012 打开项目自动关闭并停止工作解决方法
来源:http://q.cnblogs.com/q/52530/ http://www.microsoft.com/zh-cn/download/details.aspx?id=36020 下载并安装 ...
Asp.net自定义控件开发任我行（附1）-属性一览众山小
元数据属性应用于服务器控件及其成员,从而提供由设计工具.ASP.NET 页分析器.ASP.NET 运行库以及公共语言运行库使用的信息.当页开发人员在可视化设计器中使用控件时,设计时属性能改进开发人员的 ...
N宫格
<!doctype html> <html> <head> <meta charset="utf-8"> <meta name ...
转载： CRichEditCtrl使用大全
richedit 常见使用问题一.常见问题 a.可以编译,不能执行的在需要在相应的对话框中加上InitInstance(void)函数中添加 AfxInitRichEdit(); b.升级默认的R ...
对CRC32的小结加上bugku一道题目:好多压缩包
CRC32就是校验值,一般来说不同的文件校验值不一样,所以我们可以挨个爆破,当然这是在文件比较小的时候.下面是几种情形. 1. 我新建了一个flag.txt文档,里面是我的生日20180818 然后我 ...

scrapy实战

scrapy实战的更多相关文章

随机推荐

热门专题