Python股票分析系列——自动获取标普500股票列表.p5

该系列视频已经搬运至bilibili：点击查看

欢迎来到Python for Finance教程系列的第5部分。在本教程和接下来的几节中，我们将着手研究如何为更多公司提供大量的定价信息，以及如何一次处理所有这些数据。

首先，我们需要一份公司名单。我可以给你一个清单，但实际上获得股票清单可能只是你可能遇到的众多挑战之一。在我们的案例中，我们需要一个标准普尔500公司的Python列表。

无论您是在寻找道琼斯公司，标准普尔500指数还是罗素3000指数，都有可能在某个地方发布了这些公司的帖子。你会想确保它是最新的，但它可能还不是完美的格式。在我们的例子中，我们将从维基百科获取列表：http://en.wikipedia.org/wiki/List_of_S%26P_500_companies。

维基百科中的代号/符号组织在一张桌子上。为了解决这个问题，我们将使用HTML解析库，Beautiful Soup。

首先，我们从一些库开始：

import bs4 as bs

import pickle

import requests

bs4是beautifulsoup，pickle让我们可以很容易地保存这些公司名单，而不是每次运行时都敲击维基百科（尽管记住，及时更新这个清单！），我们将使用requests从Wikipedia的页面获取源代码。

开始我们的功能：

def save_sp500_tickers():

    resp = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies')

    soup = bs.BeautifulSoup(resp.text, 'lxml')

    table = soup.find('table', {'class': 'wikitable sortable'})

首先，我们访问维基百科页面，并给出响应，其中包含我们的源代码。为了对待我们想要的源代码，我们希望访问.text属性，我们使用BeautifulSoup转向soup。如果您不熟悉BeautifulSoup为您所做的工作，它基本上将源代码转换为BeautifulSoup对象，突然可以将其视为更典型的Python对象。

有一次维基百科试图拒绝对Python的访问。目前，在我写这篇文章的时候，代码的工作原理没有改变头文件。如果您发现原始源代码（resp.text）似乎不像您在家用计算机上看到的那样返回相同页面，请添加以下内容并更改resp var code：

    headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.27 Safari/537.17'}

    resp = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies',

                        headers=headers)

一旦我们有了我们的soup，我们可以通过简单地搜索 wikitable sortable classes。我知道指定此表的唯一原因是因为我首先在浏览器中查看了源代码。可能会有一段时间，你想解析一个不同的网站的股票列表，也许它是在一个表中，或者它可能是一个列表，也可能是一些div标签。这只是一个非常具体的解决方案。从这里开始，我们只是遍历表格：

    tickers = []

    for row in table.findAll('tr')[1:]:

        ticker = row.findAll('td')[0].text

        tickers.append(ticker)

对于每一行，在标题行之后（这就是为什么我们要从[1：]开始），我们说的是股票行情是“table data”（td），我们抓住它的.text，我们将此代码添加到我们的列表中。

现在，如果我们可以保存这份清单，那就太好了。我们将为此使用pickle模块，它为我们序列化Python对象。

    with open("sp500tickers.pickle","wb") as f:

        pickle.dump(tickers,f)

    return tickers

我们希望继续并保存这些内容，这样我们就不用每天多次请求维基百科。在任何时候，我们都可以更新这个列表，或者我们可以编程它每月检查一次......等等。

完整的代码到目前为止：

import bs4 as bs

import pickle

import requests

def save_sp500_tickers():

    resp = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies')

    soup = bs.BeautifulSoup(resp.text, 'lxml')

    table = soup.find('table', {'class': 'wikitable sortable'})

    tickers = []

    for row in table.findAll('tr')[1:]:

        ticker = row.findAll('td')[0].text

        tickers.append(ticker)

    with open("sp500tickers.pickle","wb") as f:

        pickle.dump(tickers,f)

    return tickers

save_sp500_tickers()

现在我们知道了代号，我们准备好将所有信息都提取出来，这是我们将在下一个教程中做的事情。

下一篇教程：Python股票分析系列——获得标普500的所有公司股票数据.p6

Python股票分析系列——自动获取标普500股票列表.p5的更多相关文章

Python股票分析系列——基础股票数据操作（二）.p4
该系列视频已经搬运至bilibili: 点击查看欢迎来到Python for Finance教程系列的第4部分.在本教程中,我们将基于Adj Close列创建烛台/ OHLC图,这将允许我介绍重新采 ...
Python股票分析系列——系列介绍和获取股票数据.p1
本系列转载自youtuber sentdex博主的教程视频内容 https://www.youtube.com/watch?v=19yyasfGLhk&index=4&list=PLQ ...
python量化分析系列之---5行代码实现1秒内获取一次所有股票的实时分笔数据
python量化分析系列之---5行代码实现1秒内获取一次所有股票的实时分笔数据最近工作太忙了,有一个星期没有更新文章了,本来这一期打算分享一些对龙虎榜数据的分析结果的,现在还没有把数据内的价值很好 ...
Python股票分析系列——基础股票数据操作（一）.p3
该系列视频已经搬运至bilibili: 点击查看欢迎来到Python for Finance教程系列的第3部分.在本教程中,我们将使用我们的股票数据进一步分解一些基本的数据操作和可视化.我们将要使用 ...
Python股票分析系列——数据整理和绘制.p2
该系列视频已经搬运至bilibili: 点击查看欢迎来到Python for Finance教程系列的第2部分. 在本教程中,我们将利用我们的股票数据进一步分解一些基本的数据操作和可视化. 我们将要 ...
Spring Ioc源码分析系列--自动注入循环依赖的处理
Spring Ioc源码分析系列--自动注入循环依赖的处理前言前面的文章Spring Ioc源码分析系列--Bean实例化过程(二)在讲解到Spring创建bean出现循环依赖的时候并没有深入去分 ...
C#分析URL参数获取参数和值得对应列表
原文: C#分析URL参数获取参数和值得对应列表 /// <summary> /// 分析url链接,返回参数集合 /// </summary> /// <param n ...
C#分析URL参数获取参数和值得对应列表(一)
C#操作Url参数 http://www.cnblogs.com/RobotH/archive/2008/11/17/1335322.html 用 C# 分析 URL 中的参数信息 http://ww ...
Python股票分析系列——获得标普500的所有公司股票数据.p6
该系列视频已经搬运至bilibili: 点击查看欢迎来到Python for Finance教程系列的第6部分. 在之前的Python教程中,我们介绍了如何获取我们感兴趣的公司名单(在我们的案例中是 ...

随机推荐

Javascript数组系列二之迭代方法1
我们在<Javascript数组系列一之栈与队列 >中介绍了一些数组的用法.比如:数组如何表现的和「栈」一样,用什么方法表现的和「队列」一样等等一些方法,因为 Javascript 中的数 ...
c++屏蔽Win10系统快捷键
很久之前实现的功能,也是参考其他人的实现,时间太久,具体参考哪里已经记不得了. 这里不仅能屏蔽一般的快捷键,还可以屏蔽ctrl+atl+del. ; HHOOK keyHook = NULL; HHO ...
The process could not read file xxx due to OS error 53
在不同地域的两个SQL Server服务器上配置了复制(Replication)用于同步数据(生产环境配置有Replication,测试环境也配有Replication),两地通过专线连接起来,这 ...
Troubleshooting SQL Server RESOURCE_SEMAPHORE Waittype Memory Issues
前言: 本文是对博客https://www.mssqltips.com/sqlservertip/2827/troubleshooting-sql-server-resourcesemaphore-w ...
[20181220]使用提示OR_EXPAND优化.txt
[20181220]使用提示OR_EXPAND优化.txt --//链接http://www.itpub.net/thread-2107240-2-1.html,http://www.itpub.ne ...
mssql 怎么配置指定的表不允许删除数据？
http://www.maomao365.com/?p=5089 <span style="color:red;font-weight:bold;">前言: 前几天收到 ...
ELF文件的加载过程(load_elf_binary函数详解)--Linux进程的管理与调度（十三）
加载和动态链接从编译/链接和运行的角度看,应用程序和库程序的连接有两种方式. 一种是固定的.静态的连接,就是把需要用到的库函数的目标代码(二进制)代码从程序库中抽取出来,链接进应用软件的目标映像中: ...
【Git 学习三】深入理解git reset 命令
重置命令(git reset)是Git 最常用的命令之一,也是最危险最容易误用的命令.来看看git reset命令用法. --------------------------------------- ...
[Hive_11] Hive 的高级聚合函数
0. 说明 Hive 的高级聚合函数 union all | grouping sets | cube | rollup pv //page view 页面访问量 uv //user view 访问人 ...
Git&GitHub语法大全
目录 1. GitHub与Git万用语法 1)创建库 2)添加和提交到仓库 3)版本回退 4)缓存区和暂存区 5)撤销和删除文件 6)远程仓库 7)创建和合并分支 2. 更多Git语法 1. GitH ...

Python股票分析系列——自动获取标普500股票列表.p5

Python股票分析系列——自动获取标普500股票列表.p5的更多相关文章

随机推荐

热门专题