爬虫下载City Scape数据

CityScape是道路场景的经典数据集，但是如right Img8bit_sequence_trainvaltest达到322G，需要用服务器下载比较方便。

需求场景

由于服务器没有GUI的浏览器，CityScape的这部分数据又需要申请下载，找不到对应的url，因此直接wget是不行的，于是博主又开始用python干起了爬虫的老本行。

不同的是，这次下载的数据集达到322G，因此显然不能一次性下到内存，需要分块下载

代码

import requests

import contextlib

import sys

def download(url, session_id, save_path):

    cookies = {

        'PHPSESSID': session_id

    }

    headers = {

        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

        'Accept-Encoding': 'gzip, deflate, br',

        'Accept-Language': 'en-US,en;q=0.5',

        'Connection': 'keep-alive',

        'Cookie': f'PHPSESSID={session_id}',

        'DNT': '1',

        'Host': 'www.cityscapes-dataset.com',

        'Referer': 'https://www.cityscapes-dataset.com/downloads/',

        'Upgrade-Insecure-Request': '1',

        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Safari/537.36'

    }

    res = requests.get(url, headers=headers, cookies=cookies, stream=True)

    with contextlib.closing(res) as r:

        accepts = 0

        with open(save_path, "wb") as f:

            for chunk in res.iter_content(chunk_size=4096):

                if chunk:

                    f.write(chunk)

                    accepts += len(chunk)

                    progress = accepts / int(r.headers['Content-Length'])

                    sys.stdout.write(("%.3f\n" % progress))

download(

    url='https://www.cityscapes-dataset.com/file-handling/?packageID=10',  # 想下的资源

    session_id='h0ukmht9lecft5lqsim3mov9l2',   # 注意session_id可能会过期，需要自己修改

    save_path='test.zip'

)

小结

这份代码其实是为帮学长下数据集而定制的，实验室搬砖之余，顺便复习一下自动下载～

爬虫下载City Scape数据的更多相关文章

java调用Linux执行Python爬虫，并将数据存储到elasticsearch--（环境脚本搭建）
java调用Linux执行Python爬虫,并将数据存储到elasticsearch中一.以下博客代码使用的开发工具及环境如下: 1.idea: 2.jdk:1.8 3.elasticsearch: ...
利用Python编写网络爬虫下载文章
#coding: utf-8 #title..href... str0='blabla<a title="<论电影的七个元素>——关于我对电影的一些看法以及<后会无期 ...
Python爬虫丨大众点评数据爬虫教程（1）
大众点评数据获取 --- 基础版本大众点评是一款非常受普罗大众喜爱的一个第三方的美食相关的点评网站. 因此,该网站的数据也就非常有价值.优惠,评价数量,好评度等数据也就非常受数据公司的欢迎. 今天就 ...
NET 5 爬虫框架/抓取数据
爬虫大家或多或少的都应该接触过的,爬虫有风险,抓数需谨慎. 爬虫有的是抓请求,有的是抓网页再解析本着研究学习的目的,记录一下在 .NET Core 下抓取数据的实际案例.爬虫代码一般具有时效性,当 ...
Python 应用爬虫下载QQ音乐
Python应用爬虫下载QQ音乐目录: 1.简介怎样实现下载QQ音乐的过程: 2.代码 1.下载QQ音乐的过程首先我们先来到QQ音乐的官网: https://y.qq.com/,在搜索栏上输入一首 ...
Python下载Yahoo!Finance数据
Python下载Yahoo!Finance数据的三种工具: (1)yahoo-finance package. (2)ystockquote. (3)pandas.
java poi 从服务器下载模板写入数据再导出
最近写了一个,Excel 的写入和导出. 需求是这样的. 在新建合同的时候,会有导出合同的数据, 导出的模板是固定的,,需要在模板里面写入合同的信息. first : 下载模板 ...
python爬虫下载文件
python爬虫下载文件下载东西和访问网页差不多,这里以下载我以前做的一个安卓小游戏为例地址为:http://hjwachhy.site/game/only_v1.1.1.apk 首先下载到内存 ...
python3爬虫——下载unsplash美图到本地
最近发现一个网站www.unsplash.com ( 没有广告费哈,纯粹觉得不错 ),网页做得很美观,上面也都是一些免费的摄影照片,觉得很好看,就决定利用蹩脚的技能写个爬虫下载图片. 先随意感受一下这 ...

随机推荐

华南理工大学“三七互娱杯”程序设计竞赛（重现赛）（ HRY and array 高精度除法模板）
题目链接:https://ac.nowcoder.com/acm/contest/874/D 题目大意:给你两个数列a和b然后对a可以进行排列,对b可以任意排列,问你sigma(a(i)*b(i))的 ...
vue 前端框架 (三)
VUE 生命周期 <!DOCTYPE html> <html> <head> <meta charset="utf-8"> < ...
TP5架构下链接SQL数据库的一种方法
1.database设置 2.连接到所需要的表格 *.数据库目录
Python自动化中的键盘事件
1) from selenium import webdriver 加载模块 2) b = webdriver.Friefox() 打开浏览器 3) b.get(‘http://xxxxxxx’) 打 ...
python封装configparser模块获取conf.ini值
configparser模块是python自带的从文件中获取固定格式参数的模块,因为是python只带的,大家用的应该很多,我觉得这个参数模块比较灵活,添加参数.修改参数.读取参数等都有对应的参数供用 ...
jenkins主要目录用途
主目录除了Jenkins的WAR包所在目录,Jenkins还有一个更重要的目录——Jenkins的所有重要数据都存放在这个独立的目录中,称为Jenkins主目录,它的默认位置是在当前用户根目录的隐藏 ...
C# 解压缩工具类GZip
using System; using System.Collections.Generic; using System.IO; using System.IO.Compression; using ...
jqGrid基础写法
$("#jqGrid").jqGrid({ url: baseURL + 'sys/scheduleLog/list', datatype: "json", c ...
Flask简介&入门
1 了解框架 Flask作为Web框架,它的作用主要是为了开发Web应用程序.那么我们首先来了解下Web应用程序.Web应用程序 (World Wide Web)诞生最初的目的,是为了利用互联网交流工 ...
主席树——求区间第k个不同的数字（向右密集hdu5919）
和向左密集比起来向右密集只需要进行小小的额修改,就是更新的时候从右往左更新.. 自己写的被卡死时间.不知道怎么回事,和网上博客的没啥区别.. /* 给定一个n个数的序列a 每次询问区间[l,r],求出 ...

爬虫下载City Scape数据

爬虫下载City Scape数据

需求场景

代码

小结

爬虫下载City Scape数据的更多相关文章

随机推荐

热门专题