Python股票分析系列—

欢迎来到Python for Finance教程系列的第7部分。在之前的教程中，我们为整个标准普尔500强公司抓取了雅虎财经数据。在本教程中，我们将把这些数据组合到一个DataFrame中。

到此为止的代码：

import bs4 as bs

import datetime as dt

import os

import pandas_datareader.data as web

import pickle

import requests

def save_sp500_tickers():

    resp = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies')

    soup = bs.BeautifulSoup(resp.text, 'lxml')

    table = soup.find('table', {'class': 'wikitable sortable'})

    tickers = []

    for row in table.findAll('tr')[1:]:

        ticker = row.findAll('td')[0].text

        tickers.append(ticker)

    with open("sp500tickers.pickle", "wb") as f:

        pickle.dump(tickers, f)

    return tickers

# save_sp500_tickers()

def get_data_from_yahoo(reload_sp500=False):

    if reload_sp500:

        tickers = save_sp500_tickers()

    else:

        with open("sp500tickers.pickle", "rb") as f:

            tickers = pickle.load(f)

    if not os.path.exists('stock_dfs'):

        os.makedirs('stock_dfs')

    start = dt.datetime(2010, 1, 1)

    end = dt.datetime.now()

    for ticker in tickers:

        # just in case your connection breaks, we'd like to save our progress!

        if not os.path.exists('stock_dfs/{}.csv'.format(ticker)):

            df = web.DataReader(ticker, 'morningstar', start, end)

            df.reset_index(inplace=True)

            df.set_index("Date", inplace=True)

            df = df.drop("Symbol", axis=1)

            df.to_csv('stock_dfs/{}.csv'.format(ticker))

        else:

            print('Already have {}'.format(ticker))

get_data_from_yahoo()

尽管我们掌握了所有数据，但我们可能想要一起评估数据。为此，我们将把所有的股票数据集合在一起。目前的每个股票文件都有：开盘价，最高价，最低价，收盘价，成交量和调整收盘价。至少要开始，我们现在大多只对调整后的收盘感兴趣。

def compile_data():

    with open("sp500tickers.pickle","rb") as f:

        tickers = pickle.load(f)

    main_df = pd.DataFrame()

首先，我们拉取我们之前制作的代码列表，并从一个名为main_df的空数据框开始。现在，我们准备读取每个股票的数据集合：

    for count,ticker in enumerate(tickers):

        df = pd.read_csv('stock_dfs/{}.csv'.format(ticker))

        df.set_index('Date', inplace=True)

你不需要在这里使用Python的枚举，我只是使用它，所以我们知道我们在读取所有数据的过程中。你可以迭代代码。从这一点，我们*可以*生成有趣数据的额外列，如：

        df ['{} _ HL_pct_diff'.format（ticker）] =（df ['High'] - df ['Low']）/ df ['Low']

        df ['{} _ daily_pct_chng'.format（ticker）] =（df ['Close'] - df ['Open']）/ df ['Open']

但现在，我们不会因此而烦恼。只要知道这可能是一条追寻道路的道路。相反，我们真的只是对Adj Adj列感兴趣：

        df.rename(columns={'Adj Close':ticker}, inplace=True)

        df.drop(['Open','High','Low','Close','Volume'],1,inplace=True)

现在我们已经有了这个专栏（或者像上面那样额外的......但是请记住，在这个例子中，我们没有做HL_pct_diff或daily_pct_chng）。请注意，我们已将Adj Adj列重命名为任何股票代码名称。我们开始构建共享数据框：

        if main_df.empty:

            main_df = df

        else:

            main_df = main_df.join(df, how='outer')

如果main_df中没有任何内容，那么我们将从当前的df开始，否则我们将使用Pandas的加入。

仍然在这个for循环中，我们将再添加两行：

        if count % 10 == 0:

            print(count)

这将只输出当前股票的数量，如果它可以被10整除。什么样的计数％10给我们的是余数，如果计数除以10.因此，如果我们问如果计数％10 == 0，我们是只有看到if语句，如果当前计数除以10，余数为0，或者如果它完全可以被10整除，那么才会出现True。

当我们完成for循环时：

    print(main_df.head())

    main_df.to_csv('sp500_joined_closes.csv')

这个函数调用它到这一点：

    with open("sp500tickers.pickle","rb") as f:

        tickers = pickle.load(f)

    main_df = pd.DataFrame()

    for count,ticker in enumerate(tickers):

        df = pd.read_csv('stock_dfs/{}.csv'.format(ticker))

        df.set_index('Date', inplace=True)

        df.rename(columns={'Adj Close':ticker}, inplace=True)

        df.drop(['Open','High','Low','Close','Volume'],1,inplace=True)

        if main_df.empty:

            main_df = df

        else:

            main_df = main_df.join(df, how='outer')

        if count % 10 == 0:

            print(count)

    print(main_df.head())

    main_df.to_csv('sp500_joined_closes.csv')

compile_data()

当前完整的代码为：

import bs4 as bs

import datetime as dt

import os

import pandas as pd

import pandas_datareader.data as web

import pickle

import requests

def save_sp500_tickers():

    resp = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies')

    soup = bs.BeautifulSoup(resp.text, 'lxml')

    table = soup.find('table', {'class': 'wikitable sortable'})

    tickers = []

    for row in table.findAll('tr')[1:]:

        ticker = row.findAll('td')[0].text

        tickers.append(ticker)

    with open("sp500tickers.pickle", "wb") as f:

        pickle.dump(tickers, f)

    return tickers

# save_sp500_tickers()

def get_data_from_yahoo(reload_sp500=False):

    if reload_sp500:

        tickers = save_sp500_tickers()

    else:

        with open("sp500tickers.pickle", "rb") as f:

            tickers = pickle.load(f)

    if not os.path.exists('stock_dfs'):

        os.makedirs('stock_dfs')

    start = dt.datetime(2010, 1, 1)

    end = dt.datetime.now()

    for ticker in tickers:

        # just in case your connection breaks, we'd like to save our progress!

        if not os.path.exists('stock_dfs/{}.csv'.format(ticker)):

            df = web.DataReader(ticker, 'morningstar', start, end)

            df.reset_index(inplace=True)

            df.set_index("Date", inplace=True)

            df = df.drop("Symbol", axis=1)

            df.to_csv('stock_dfs/{}.csv'.format(ticker))

        else:

            print('Already have {}'.format(ticker))

def compile_data():

    with open("sp500tickers.pickle", "rb") as f:

        tickers = pickle.load(f)

    main_df = pd.DataFrame()

    for count, ticker in enumerate(tickers):

        df = pd.read_csv('stock_dfs/{}.csv'.format(ticker))

        df.set_index('Date', inplace=True)

        df.rename(columns={'Adj Close': ticker}, inplace=True)

        df.drop(['Open', 'High', 'Low', 'Close', 'Volume'], 1, inplace=True)

        if main_df.empty:

            main_df = df

        else:

            main_df = main_df.join(df, how='outer')

        if count % 10 == 0:

            print(count)

    print(main_df.head())

    main_df.to_csv('sp500_joined_closes.csv')

compile_data()

在下一个教程中，我们将试图查看我们是否能够快速找到数据中的任何关系。

Python股票分析系列——数据整合.p7的更多相关文章

Python股票分析系列——数据整理和绘制.p2
该系列视频已经搬运至bilibili: 点击查看欢迎来到Python for Finance教程系列的第2部分. 在本教程中,我们将利用我们的股票数据进一步分解一些基本的数据操作和可视化. 我们将要 ...
Python股票分析系列——系列介绍和获取股票数据.p1
本系列转载自youtuber sentdex博主的教程视频内容 https://www.youtube.com/watch?v=19yyasfGLhk&index=4&list=PLQ ...
Python股票分析系列——基础股票数据操作（二）.p4
该系列视频已经搬运至bilibili: 点击查看欢迎来到Python for Finance教程系列的第4部分.在本教程中,我们将基于Adj Close列创建烛台/ OHLC图,这将允许我介绍重新采 ...
Python股票分析系列——基础股票数据操作（一）.p3
该系列视频已经搬运至bilibili: 点击查看欢迎来到Python for Finance教程系列的第3部分.在本教程中,我们将使用我们的股票数据进一步分解一些基本的数据操作和可视化.我们将要使用 ...
Python股票分析系列——自动获取标普500股票列表.p5
该系列视频已经搬运至bilibili: 点击查看欢迎来到Python for Finance教程系列的第5部分.在本教程和接下来的几节中,我们将着手研究如何为更多公司提供大量的定价信息,以及如何一次 ...
Python股票分析系列——获得标普500的所有公司股票数据.p6
该系列视频已经搬运至bilibili: 点击查看欢迎来到Python for Finance教程系列的第6部分. 在之前的Python教程中,我们介绍了如何获取我们感兴趣的公司名单(在我们的案例中是 ...
python量化分析系列之---5行代码实现1秒内获取一次所有股票的实时分笔数据
python量化分析系列之---5行代码实现1秒内获取一次所有股票的实时分笔数据最近工作太忙了,有一个星期没有更新文章了,本来这一期打算分享一些对龙虎榜数据的分析结果的,现在还没有把数据内的价值很好 ...
金融量化分析-python量化分析系列之---使用python获取股票历史数据和实时分笔数据
财经数据接口包tushare的使用(一) Tushare是一款开源免费的金融数据接口包,可以用于获取股票的历史数据.年度季度报表数据.实时分笔数据.历史分笔数据,本文对tushare的用法,已经存在的 ...
python提取分析表格数据
#/bin/python3.4# -*- coding: utf-8 -*- import xlrd def open_excel(file="file.xls"): try: d ...

随机推荐

【效率工具】史上最好用的SSH一键登录脚本，第三版更新！
说明时隔一周,GotoSSH又迎来了一次重大更新,让这个史诗级的shell工具变得更加丝般顺滑了~ 这次的主要更新是对自定义全局命令以及自定义属性的支持,让设置更加灵活,此外,对各个细节进行了调整, ...
Redis常用命令【列表】
一.简介基于Linked List实现,元素是字符串类型,列表头尾增删快,中间增删慢,增删元素是常态. 元素可以重复出现,最多包含2^32-1个元素. 二.命令 1.说明 1.1 B block 块 ...
Android 加了自定义Application后报错 Unable to instantiate activity ComponentInfo ClassNotFoundException
在Android自定义一个类继承集成Application后,并在AndroidManifest.xml里面配置了application的name属性为该类名称后报错: Unable to insta ...
怎么将后缀为.opt,.frm，.myd，.myi文件还原或者是导入mySQL中
其实这个问题的解决方案很简单,把这些文件连同这些文件所在的文件夹原封不动地复制到你的 mysql 文件夹下的 data 里面 (在我的电脑里面是D:\xampp\mysql\data), 然后你进my ...
LeetCode算法题-Reverse String（Java实现）
这是悦乐书的第205次更新,第217篇原创 01 看题和准备今天介绍的是LeetCode算法题中Easy级别的第73题(顺位题号是344).编写一个以字符串作为输入并返回字符串的函数.例如: 输入: ...
Java多线程（一）什么是线程
声明:本系列大多是翻译自https://www.javatpoint.com,加上自己的增删改,尽力写的系统而通俗易懂,后文不再重复声明. 点我跳过黑哥的卑鄙广告行为,进入正文. Java多线程系列更 ...
MYSQL基本操作（下）
好了,废话不多说,接着开始Mysql剩下部分的小结了 Mysql 之基础下事务事务:一系列将要发生或正在发生的连续操作,旨在保证数据操作的完整性.在事务开启之后,所有的操作都会被临时存储到事务日 ...
NGINX Load Balancing - HTTP Load Balancer
This chapter describes how to use NGINX and NGINX Plus as a load balancer. Overview Load balancing a ...
如何使用JVisualVM进行性能分析
地址:https://visualvm.dev.java.net/ 连接 1.本地机器的程序直接可以监听到 2.远程机器的程序需要加上JVM参数 -Dcom.sun.management.jmxrem ...
Codeforces Round #546 (Div. 2) C. Nastya Is Transposing Matrices
C. Nastya Is Transposing Matrices time limit per test 1 second memory limit per test 256 megabytes i ...

Python股票分析系列——数据整合.p7

Python股票分析系列——数据整合.p7的更多相关文章

随机推荐

热门专题