[python]初试页面抓取——抓取沪深股市交易龙虎榜数据

[python]抓取沪深股市交易龙虎榜数据

python 3.5.0下运行

没做自动建立files文件夹，需要手动在py文件目录下建立files文件夹后运行

#coding=utf-8

import gzipimport http.cookiejar

import urllib.request

import urllib.parse

import json

import os

import time

import datetime

def getOpener(head):

    # deal with the Cookies

    cj = http.cookiejar.CookieJar()

    pro = urllib.request.HTTPCookieProcessor(cj)

    opener = urllib.request.build_opener(pro)

    header = []

    for key, value in head.items():

        elem = (key, value)

        header.append(elem)

    opener.addheaders = header

    return opener

def ungzip(data):

    try:        # 尝试解压

        print('正在解压.....')

        data = gzip.decompress(data)

        print('解压完毕!')

    except:

        print('未经压缩, 无需解压')

    return datadef writeFile(fname,data):

    filename = r'files/'+fname+'.txt'

    if os.path.exists(filename):

        message = '文件 + '+filename +' 已存在，跳过'

    else:

        message = '文件 + '+filename +' 不存在，新建'

        f=open(filename,'w')

        f.write(data)

        f.close()

    print ('文件：'+fname+' 处理完毕。')

'''

读取抓取数据开始日期

如果不存在该日期，从10日前开始读取

如果存在从文件内日期开始读取

读到今天

'''

header = {

    'Connection': 'Keep-Alive',

    'Accept': '*/*',

    'Accept-Language': 'zh-CN,zh;q=0.8',

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.111 Safari/537.36',

    'Accept-Encoding': 'gzip, deflate',

    'Host': '',

    'Referer' : ''

}

shUrl = 'http://query.sse.com.cn/infodisplay/showTradePublicFile.do?dateTx='#2015-09-28

szUrl = ['http://www.szse.cn/szseWeb/common/szse/files/text/jy/jy',#150923.txt

         'http://www.szse.cn/szseWeb/common/szse/files/text/smeTxt/gk/sme_jy',#150708.txt

         'http://www.szse.cn/szseWeb/common/szse/files/text/nmTxt/gk/nm_jy']#150902.txt

startFileName = r'startDay.txt'

endDay = datetime.datetime.now()

if os.path.exists(startFileName):

    print('日期配置文件存在，开始读取')

    f=open(startFileName,'rt')

    s = f.readline()

    f.close()

    if s!='':

        print('将从日期：'+s+' 开始读取')

        timeArray = time.strptime(s, "%Y%m%d")

        timeStamp = int(time.mktime(timeArray))

        fromDay = datetime.datetime.utcfromtimestamp(timeStamp)

    else:

        print('日期配置文件为空，将从10日前日期开始读取')

        fromDay = endDay - datetime.timedelta(days = 10)

else:

    print('日期配置文件不存在，将从10日前日期开始读取')

    fromDay = endDay - datetime.timedelta(days = 10)

endDay = endDay + datetime.timedelta(days = 1)

while fromDay.strftime("%Y%m%d")!=endDay.strftime("%Y%m%d"):

    print(fromDay.strftime("%Y%m%d"))

    '''

    循环上面日期

    抓取上证，深证，中小创交易龙虎榜数据

    如果内容不为空

    文件不存在

    写入文件

    '''

    #抓取上证龙虎榜数据

    url = shUrl + fromDay.strftime("%Y-%m-%d")

    print('读取上证龙虎榜\n'+url)

    header['Host'] = 'query.sse.com.cn'

    header['Referer'] = 'http://www.sse.com.cn/disclosure/diclosure/public/'

    try:

        opener = getOpener(header)

        op = opener.open(url)

        data = op.read()

        data = data.decode()

        jsonData = json.loads(data)

        outData = ''

        if (jsonData['fileContents']!=''):

            for info in jsonData['fileContents']:

                outData= outData+ info+'\n'

            writeFile(fromDay.strftime("%Y-%m-%d")+'_上证',outData)

    except:

        print(fromDay.strftime("%Y-%m-%d")+'跳过')

    #抓取深证，中小创交易龙虎榜数据

    i=1

    for url in szUrl:

        if(i==1):

            name = '深证'

        elif(i==2):

            name = '中小板'

        else:

            name = '创业板'

        url = url + fromDay.strftime("%y%m%d")+'.txt'

        print('读取'+name+'龙虎榜\n'+url)

        header['Host'] = 'www.szse.cn'

        header['Referer'] = 'http://www.szse.cn'

        try:

            opener = getOpener(header)

            op = opener.open(url)

            data = op.read()

            data = ungzip(data)

            data = data.decode('gbk')

            writeFile(fromDay.strftime("%Y-%m-%d")+'_'+name,data)

        except:

            print(fromDay.strftime("%Y-%m-%d")+'跳过')

        i=i+1

    fromDay = fromDay + datetime.timedelta(days = 1)

#最后更新日期为当前日期

print('设置最新日期')

fromDay = fromDay - datetime.timedelta(days = 1)

f=open(startFileName,'w')

f.write(fromDay.strftime("%Y%m%d"))

f.close()

print('读取完成')

[python]初试页面抓取——抓取沪深股市交易龙虎榜数据的更多相关文章

python调用tushare获取沪深A股票资金流向数据
接口:moneyflow 描述:获取沪深A股票资金流向数据,分析大单小单成交情况,用于判别资金动向限量:单次最大提取4000行记录,总量不限制积分:用户需要至少1500积分才可以调取,基础积分有流 ...
[python]数据整理，将取得的众多的沪深龙虎榜数据整一整
将昨日取得的众多的沪深龙虎榜数据整一整提取文件夹内所有抓取下来的沪深龙虎榜数据,整理出沪深两市(含中小创)涨幅榜股票及前5大买入卖出资金净值,保存到csv文件再手动使用数据透视表进行统计原始数据 ...
python爬虫beta版之抓取知乎单页面回答（low 逼版）
闲着无聊,逛知乎.发现想找点有意思的回答也不容易,就想说要不写个爬虫帮我把点赞数最多的给我搞下来方便阅读,也许还能做做数据分析(意淫中--) 鉴于之前用python写爬虫,帮运营人员抓取过京东的商品品 ...
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表 ...
一次Python爬虫的修改，抓取淘宝MM照片
这篇文章是2016-3-2写的,时隔一年了,淘宝的验证机制也有了改变.代码不一定有效,保留着作为一种代码学习. 崔大哥这有篇>>小白爬虫第一弹之抓取妹子图不失为学python爬虫的绝佳教 ...
用python的requests第三方模块抓取王者荣耀所有英雄的皮肤
本文使用python的第三方模块requests爬取王者荣耀所有英雄的图片,并将图片按每个英雄为一个目录存入文件夹中,方便用作桌面壁纸下面时具体的代码,已通过python3.6测试,可以成功运行: ...
利用python脚本（xpath）抓取数据
有人会问re和xpath是什么关系?如果你了解js与jquery,那么这个就很好理解了. 上一篇:利用python脚本(re)抓取美空mm图片 # -*- coding:utf-8 -*- from ...

随机推荐

C#设计模式系列：简单工厂模式（Simple Factory）
1. 简单工厂模式简介 1.1 定义简单工厂模式定义一个Factory类,可以根据参数的不同返回不同类的实例,被创建的实例通常有共同的父类. 简单工厂模式只需要一个Factory类. 简单工厂模式又 ...
Ubuntu 14.04 64bit 安装tensorflow（GPU版本）
本博客主要用于在Ubuntu14.04 64bit 操作系统上搭建google开源的深度学习框架tensorflow. 0.安装CUDA和cuDNN 如果要安装GPU版本的tensorflow,就必须 ...
【原创】开源Math.NET基础数学类库使用(08)C#进行数值积分
本博客所有文章分类的总目录:[总目录]本博客博文总目录-实时更新开源Math.NET基础数学类库使用总目录:[目录]开源Math.NET基础数学类库使用总目录前言 ...
Web APi 2.0优点和特点？在Web APi中如何启动Session状态？
前言曾几何时,微软基于Web服务技术给出最流行的基于XML且以扩展名为.asmx结尾的Web Service,此服务在.NET Framework中风靡一时同时也被.NET业界同仁所青睐,几年后在此 ...
Objective-C中把URL请求的参数转换为字典
上一篇博客中是把URL转换为字典,那么我们如何把URL请求中的参数封装成字典,然后再封装成数组呢?对OC中字符串操作熟练的小伙伴们应该觉得这是一个a+b的问题,没错把URL中的参数转换为字典主要是对字 ...
Android动画学习(二)——Tween Animation
前两天写过一篇Android动画学习的概述,大致的划分了下Android Animation的主要分类,没有看过的同学请移步:Android动画学习(一)——Android动画系统框架简介.今天接着来 ...
II7.0 发布 MVC 4.0 三个小问题记录
1,403.14-Forbidden Web 服务器被配置为不列出此目录的内容根据提示更改:使用 IIS 管理器启用目录浏览. 打开 IIS 管理器. 在“功能”视图中,双击“目录浏览”. 在“目录 ...
T-Sql（三）存储过程（Procedure）
今天讲下T-sql语法中存储过程的用法,我们一开始学习数据库语言的时候就是用一些简单的insert,select等语法,但是随着我们学习数据库的深入,就会发现一些简单的语法满足不了我们的要求,比如处理 ...
php使用post动态选择头像和js事件动态改变头像
<html> <head> <meta http-equit="Content-type" content="text/html" ...
ZOJ Problem Set - 1331 Perfect Cubes 判断一个double是否为整数
zju对时间要求比较高,这就要求我们不能简单地暴力求解(三个循环搞定),就要换个思路:因为在循环时,已知a,确定b,c,d,在外重两层循环中已经给定了b和c,我们就不用遍历d,我们可以利用d^3=a^ ...

[python]初试页面抓取——抓取沪深股市交易龙虎榜数据

[python]初试页面抓取——抓取沪深股市交易龙虎榜数据的更多相关文章

随机推荐

热门专题