首先登录珞珈一号数据系统查询想要的数据

利用浏览器审查元素获取包含下载信息的源码

将最右侧的table相关的网页源码copy到剪切板备用

利用python下载数据

## utf-8

import requests

import os

# import urllib.request

from bs4 import BeautifulSoup

from tqdm import tqdm

import pandas as pd 

def saveFile(url,fileName):

    # ''' 保存文件'''

    r = requests.get(url, stream=True)

    chunkSize = 256

    # print('dowloading...',fileName)

    with open('data/'+fileName, 'wb') as f:

        pbar = tqdm( unit="B", total=int( r.headers['Content-Length'] ) ,desc = "downloading..."+fileName)

        for chunk in r.iter_content(chunk_size=chunkSize):

            if chunk: # filter out keep-alive new chunks

                pbar.update (len(chunk))

                f.write(chunk)

html = '''将table的源码粘贴到这里'''

##  get download url and file name

soup = BeautifulSoup(html)

tbody = soup.findAll('tbody')[0]

trs = tbody.findAll("tr")

data = []

for tr in trs:

    tds = tr.findAll("td")[-4:]

    temp = []

    #

    for td in tds[:-1]:

        temp.append(td.text)

    a = tds[-1].findAll("a")[-1]

##   download url

    href = "http://59.175.109.173:8888" + a["href"]

    temp.append(href)

    data.append(temp)

dataSet = pd.DataFrame(data,columns = ["weixing","chuanganqi","time","url"])

###file name

dataSet.loc[:,"fileName"] = dataSet.loc[:,"weixing"] + dataSet.loc[:,"chuanganqi"] + dataSet.loc[:,"time"] + "-" + dataSet.index.map(str) + ".tar.gz"

#### dowload

for i in tqdm(range(dataSet.shape[0])):

    # if i<start:

    #     continue

    # if i > 200:

    #     continue

    row = dataSet.loc[i,:]

    fileName = row["fileName"]

    url = row["url"]

    saveFile(url,fileName)

python爬取珞珈1号卫星数据的更多相关文章

python 爬取天猫美的评论数据
笔者最近迷上了数据挖掘和机器学习,要做数据分析首先得有数据才行.对于我等平民来说,最廉价的获取数据的方法,应该是用爬虫在网络上爬取数据了.本文记录一下笔者爬取天猫某商品的全过程,淘宝上面的店铺也是类似 ...
python爬取微信公众号
爬取策略 1.需要安装python selenium模块包,通过selenium中的webdriver驱动浏览器获取Cookie的方法.来达到登录的效果 pip3 install selenium c ...
使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)
前言第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...
使用python爬取东方财富网机构调研数据
最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...
python爬取安居客二手房网站数据（转）
之前没课的时候写过安居客的爬虫,但那也是小打小闹,那这次呢, 还是小打小闹哈哈,现在开始正式进行爬虫书写首先,需要分析一下要爬取的网站的结构: 作为一名河南的学生,那就看看郑州的二手房信息吧! 在 ...
[转]使用python爬取东方财富网机构调研数据
最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...
Python爬取6271家死亡公司数据，一眼看尽十年创业公司消亡史！
小五利用python将其中的死亡公司数据爬取下来,借此来观察最近十年创业公司消亡史. 获取数据 F12,Network查看异步请求XHR,翻页. 成功找到返回json格式数据的url, 很多人 ...
Python 爬取大众点评 50 页数据，最好吃的成都火锅竟是它！
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 胡萝卜酱 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
Python爬取上交所一年大盘数据
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 半个码农2018 PS:如有需要Python学习资料的小伙伴可以加点 ...

随机推荐

Window7 定制 Explore中的右键菜单
win+R 命令运行 regedit ,打开注册表在 HKEY_CLASSES_ROOT\*\shell\VisualCode下创建针对文件的新增命令 command 在HKEY_CLASSE ...
fhq treap
学了一下,好像明白了(背下来了) 不想写main函数了 PS:这个比treap好写(私以为) #include<bits/stdc++.h> using namespace std; in ...
Web安全基础——小白自学
2019-02-23 19:41:49 话不多说,直接分享我学习到的东西~ Web万维网(World Wide Web,WWW),这个名称我们熟悉不过啦.跟它密切相关就是HTTP,叫做超文本传输协 ...
上传代码到github
上传代码前需配置连接秘钥和设置本地git账号密码. 1．检查上传文件目录状态 git status 2．将更改文件添加到缓存区 git add . 3．添加本次代码更改说明 git commit -m ...
第31月第19天 NV12
1. //设置CIContext,并从CIImage -> CGImage -> UIImage CIContext *context = [CIContext contextWithOp ...
IO流的操作规律。
1. 明确源和目的源代表输入流: InputStream, Reader 目的代表输出流: OutputStream, Writer 2. 操作数据是否纯文本纯文本:字符流非纯文本: 字节流 ...
2018-2019-2 网络对抗技术 20165221 Exp3 免杀原理与实践
2018-2019-2 网络对抗技术 20165221 Exp3 免杀原理与实践基础问题回答杀软是如何检测出恶意代码的? 主要依托三种恶意软件检测机制. 基于特征码的检测:一段特征码就是一段或者多 ...
基于XML搭建SpringMVC项目
*如果你需要将应用部署到不支持Servlet3.0容器中或者你只是对web.xml情有独钟,那我们只能按照传统的方式,通过web.xml来配置SpringMVC. *搭建SpringMVC需要在w ...
shell利用mysql表项的icmp检测
作者:邓聪聪利用mysql的表项记录IP地址和对应状态 +----+-----------------+--------+--------+ | id | ip_host | desc | stat ...
LeetCode.接雨水
题外话:LeetCode上一个测试用例总是通不过(我在文章末贴出通不过的测试用例),给的原因是超出运行时间,我拿那个测试用例试了下2.037ms运行完.我自己强行给加了这句: && m ...

python爬取珞珈1号卫星数据

首先登录珞珈一号数据系统查询想要的数据

利用浏览器审查元素获取包含下载信息的源码

利用python下载数据

python爬取珞珈1号卫星数据的更多相关文章

随机推荐

热门专题