股票数据定向爬虫.py（亲测有效）

import requests

from bs4 import BeautifulSoup

import traceback

import re

def getHTMLText(url,code='utf-8'):

    try:

        r = requests.get(url,timeout=30)

        r.encoding = code

        return r.text

    except:

        return ""

def getStockList(lst,stockURL):

    html = getHTMLText(stockURL)

    soup = BeautifulSoup(html,'html.parser')

    a = soup.find_all('tr')

    for i in a:

        try:

            href = i.attrs['id']

            lst.append(re.findall(r'[tr]\d{6}',href)[0])

        except:

            continue

def getStockInfo(lst,stockURL,fpath):

    count = 0

    for stock in lst:

        url = stockURL + stock[1:] +".html"

        html = getHTMLText(url)

        try:

            if html == "":

                continue

            infoDict = {}

            soup = BeautifulSoup(html,'html.parser')

            stockInfo = soup.find('div',attrs={'class':'merchandiseDetail'})

            name = stockInfo.find_all(attrs={'class':'fundDetail-tit'})[0]

            infoDict.update({'股票名称':name.text.split()[0]})

            keylist = stockInfo.find_all('dt')

            valuelist = stockInfo.find_all('dd')

            for i in range(len(keylist)):

                key = keylist[i].text

                print(key)

                val = valuelist[i].text

                infoDict[key] = val

            with open(fpath,'a',encoding='utf-8')as f:

                f.write(str(infoDict)+'\n')

                count = count+1

                print('\r当前速度：{:.2f}%'.format(count*100/len(lst)),end='')

        except:

            count = count + 1

            print('\r当前速度：{:.2f}%'.format(count * 100 / len(lst)), end='')

            traceback.print_exc()

            continue

def main():

    stock_list_url = 'https://fund.eastmoney.com/fund.html#os_0;isall_0;ft_;pt_1'

    stock_info_url = 'https://fund.eastmoney.com/'

    output_file = 'D://桌面//BaiduStockInfo.txt'

    slist = []

    getStockList(slist,stock_list_url)

    getStockInfo(slist,stock_info_url,output_file)

main()

股票数据定向爬虫.py（亲测有效）的更多相关文章

股票数据Scrapy爬虫
功能描述: 技术路线:scrapy 目标:获取上交所和深交所所有股票的名称和交易信息输出:保存到文件中数据网站的确定获取股票列表: 东方财富网:http://quote.eastmoney.co ...
爬虫之手机APP抓包教程-亲测HTTP和HTTPS均可实现
当下很多网站都有做自己的APP端产品,一个优秀的爬虫工程师,必须能够绕过难爬取点而取捷径,这是皆大欢喜的.但是在网上收罗和查阅了无数文档和资料,本人亲测无数次,均不能正常获取HTTPS数据,究其原因是 ...
实时获取股票数据，免费！——Python爬虫Sina Stock实战
更多精彩内容,欢迎关注公众号:数量技术宅,也可添加技术宅个人微信号:sljsz01,与我交流. 实时股票数据的重要性对于四大可交易资产:股票.期货.期权.数字货币来说,期货.期权.数字货币,可以从交 ...
python爬虫成长之路（一）：抓取证券之星的股票数据
获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...
Python爬虫股票数据爬取
前一篇提到了与股票数据相关的可能几种数据情况,本篇接着上篇,介绍一下多个网页的数据爬取.目标抓取平安银行(000001)从1989年~2017年的全部财务数据. 数据源分析地址分析 http://m ...
使用python爬虫爬取股票数据
前言: 编写一个爬虫脚本,用于爬取东方财富网的上海股票代码,并通过爬取百度股票的单个股票数据,将所有上海股票数据爬取下来并保存到本地文件中系统环境: 64位win10系统,64位python3.6, ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
MATLAB爬虫爬取股票数据
近年来,大数据盛行,有关爬虫的教程层次不穷.那么,爬虫到底是什么呢? 什么是爬虫? 百度百科是这样定义的: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种 ...
本地ES集群数据通过_reindex方式迁移到腾讯云服务器（亲测有效）
本地ES集群数据通过_reindex方式迁移到腾讯云服务器(亲测有效) 随着业务量的增加,本地的ES集群服务器性能和磁盘空间有点不够使用,项目组考虑使用腾讯云服务器,以下是我测试的使用_reindex ...
【Python爬虫实战】Scrapy框架的安装搬运工亲测有效
windows下亲测有效 http://blog.csdn.net/liuweiyuxiang/article/details/68929999这个我们只是正确操作步骤详解的搬运工

随机推荐

NGINX+Lua模块编译安装
NGINX+Lua 环境配置目录 NGINX+Lua 环境配置一.环境装备二.解压安装相应的软件测试Lua环境上面都是经过安装的一些坑之后安装完成的,下面是安装过程中出现的坑一.环境装备 ...
算法题：消除字符串中全部的b和连续的ac
最近碰到了一道面试题,虽然不难但是临试没想出好的解法,记录下来以作分享. 题目:消除字符串中全部的b和连续的ac 用例: 'aabbc' -> 'a' 'aaabbbccc' -> '' ...
上传路径Class替换无效
路径配置文件使用的常量,其它文件使用路径时,编译class时为静态常量信息,改变不同的路径常量则不生效
opencv3 7.3 重映射仿射变换
重映射的概念将一幅图像某位置的像素放置到另外一幅图像的指定位置上,需要对非整数像素坐标重映射来表达每个像素的新位置. g(x,y)=f(h(x,y)); 实现重映射 remap()函数 dst(x, ...
Python 使用json存储数据
一.前言很多程序都要求用户输入某种信息,如让用户存储游戏首选项或提供要可视化的数据.不管专注的是什么,程序都把用户提供的信息存储在列表和字典等数据结构中.用户关闭程序时,你几乎总是要保存他们提供的信 ...
jmeter之【报错记录】
{ "code": "E0001", "success": false, "description": "Co ...
cat、more、less、tail、head文件查看指令辨析
1.cat 简介 cat [OPTION]... [FILE]... cat 可以将多个文本连接起来并输出,当省略输入文件或输入文件用字符-替代时,读取标准输入常用参数 -n \(~~~~\)输出行 ...
浏览器对象模型（BOM）中的History对象模型
jsp第4个作业（2）
<%@ page language="java" import="java.util.*" pageEncoding="utf-8"% ...
MacOS使用iTerm2 tab不区分大小写解答
打开控制台输入 vim ~/.zshrc 按下 i 之后 // i == insert插入字符粘贴以下代码复制到该文件中 autoload -Uz compinit && co ...

股票数据定向爬虫.py（亲测有效）

股票数据定向爬虫.py（亲测有效）的更多相关文章

随机推荐

热门专题