python下载网页上公开数据集

URL很简单，数据集分散开在一个URL页面上，单个用手下载很慢，这样可以用python辅助下载；

问题：很多国外的数据集，收到网络波动的影响很大，最好可以添加一个如果失败就继续请求的逻辑，这里还没有实现；

参考链接：

https://blog.csdn.net/sinat_36246371/article/details/62426444

代码都是这位大神的，感谢，我再上面稍微改了一点点，加了异常处理。

'''

downloading dataset on one html page

'''

import requests

from bs4 import BeautifulSoup

archive_url = your_target_url

def get_target_links():

    r = requests.get(archive_url)

    soup = BeautifulSoup(r.content, 'html5lib')

    links = soup.findAll('a')

    video_links = []

    #video_links = [archive_url + link['href'] forlink in links if (link['href'].endswith('atr') or link['href'].endswith('dat') or link['href'].endswith('hea') )]

    for link in links:

        try:

            if((link['href'].endswith('atr') or link['href'].endswith('dat') or link['href'].endswith('hea') )):

                video_links.append(archive_url + link['href'])

        except KeyError:

            print('keyerror, keep going!')

    for i in video_links:

        print(i, '\n')

    return video_links

def download_target_series(video_links):

    failed_list = []

    for link in video_links:

        file_name = link.split('/')[-1]

        file_name = ‘your_local_folder’ + file_name

        print("Downloading file:%s" % file_name)

        print(link)

        try:

            r = requests.get(link, stream=True)

        except Exception:

            failed_list.append(file_name.split('\\')[-1])

            print('download failed. go to down next one\n')

        # download started

        with open(file_name, 'wb') as f:

            for chunk in r.iter_content(chunk_size=1024 * 1024):

                if chunk:

                    f.write(chunk)

        print("%s downloaded!\n" % file_name)

    print("All videos downloaded!")

    print(failed_list) #record which one is failed to download

    return

if __name__ == "__main__":

    target_links = get_target_links()

    download_target_series(target_links)

python下载网页上公开数据集的更多相关文章

Python下载网页的几种方法
get和post方式总结 get方式:以URL字串本身传递数据参数,在服务器端可以从'QUERY_STRING'这个变量中直接读取,效率较高,但缺乏安全性,也无法来处理复杂的数据(只能是字符串,比如在 ...
Python——零基础向-四行代码下载网页上的一张图片
一.确保安装了requests模块还没安装的可以百度一下如何安装,很简单的. 这里简单的说一下方法:win+R,输入cmd,打开命令行窗口,输入命令:pip install requests ,即可 ...
python下载网页转化成pdf
最近在学习一个网站补充一下cg基础.但是前几天网站突然访问不了了,同学推荐了waybackmachine这个网站,它定期的对网络上的页面进行缓存,但是好多图片刷不出来,很憋屈.于是网站恢复访问后决定把 ...
如何使用python下载网站上的视频
youtube-dl 从名字上也能看出来,是专门用来下载YouTube的视频. 不过本人对YouTube不感兴趣,但是这个模块可以用来下载bilibili上的视频我们就来试一试首先pip insta ...
利用python定位网页上的元素
1. 想对网页上的元素进行操作,首先需要定位到元素. 以百度首页为例: 输入以下代码,打开百度首页: # coding = gbk from selenium import webdriver chr ...
Python从网页上爬取图片
在搜索壁纸的时候,想把壁纸保存到本地,一张一张的保存太过麻烦,所以想到用Python来爬取壁纸. 设计思路: 1.首先先去找有壁纸的网页: http://www.acfun.cn/a/ac334521 ...
如何下载网页上的视频和flash的方法
下面介绍一种下载视频的简便方法,这种方法不需要安装任何下载软件,而且适合所有 FLV(Flash Video)格式的视频文件. 第一步清空Temporary Internet Files(临时网络文 ...
如何下载网页上的视频并且 flv 格式转化成 MP4
链接:http://www.jb51.net/softjc/222135.html https://jingyan.baidu.com/article/25648fc162f2899190fd0042 ...
python下载网页视频
因网站不同需要修改. 下载 mp4 连接 from bs4 import BeautifulSoup import requests import urllib import re import js ...

随机推荐

HTTP Headers Client Identification
用户信息通过HTTP头部承载:不能实现用户唯一性标识. w HTTP The Definitive Guide Table 11-1 shows the seven HTTP request head ...
SQL Server 常用分页SQL(转)
发现网上好多都是错的.网上经常查到的那个Top Not in 或者Max 大部分都不实用,很多都忽略了Order和性能问题.为此上网查了查,顺带把2000和2012版本的也补上了. 先说说网上常见SQ ...
Unity系统自带函数生命周期以及相互关系
官方参考手册:http://docs.unity3d.com/Manual/ExecutionOrder.html unity脚本从唤醒到销毁都有着一套比较完善的生命周期,添加任何脚本都要遵守生命周期 ...
matlab实现MSER（最大极值稳定区域）来进行文本定位
一.自然场景文本定位综述场景图像中文本占据的范围一般都较小,图像中存在着大范围的非文本区域.因此,场景图像文本定位作为一个独立步骤越来越受到重视.这包括从最先的CD和杂志封面文本定位到智能交通系 ...
java 多线程 day12 读写锁
import java.util.Random;import java.util.concurrent.locks.ReadWriteLock;import java.util.concurrent. ...
理解tomcat之搭建简易http服务器
做过java web的同学都对tomcat非常熟悉.我们在使用tomcat带来的便利的同时,是否想过tomcat是如何工作的呢?tomcat本质是一个http服务器,本篇文章将搭建一个简单的http服 ...
boost编译很慢的解决方法
场景:使用boost库的正则模块时出现编译超慢的情况,看了头文件 #include <boost/regex.hpp> 的引用关系,它依赖的头文件相当多,这应该就是根本原因吧. 目前知道可 ...
python 之操作mysql 数据库实例
对于python操作mysql 数据库,具体的步骤应为: 1. 连接上mysql host 端口号数据库账号密码2. 建立游标3. 执行sql(注意,如果是update,insert,delet ...
linxu系统压缩解压命令
使用cat命令进行文件的纵向合并两种文件的纵向合并方法归档文件和归档技术归档的目的什么是归档 tar命令的功能 tar命令的常用选项使用tar命令创建.查看及抽取归档文件使用tar命令创建 ...
mysql数据库从删库到跑路之mysql其他
一 IDE工具介绍生产环境还是推荐使用mysql命令行,但为了方便测试,可以使用IDE工具下载链接:https://pan.baidu.com/s/1bpo5mqj 掌握: #1. 测试+链接数据 ...

python下载网页上公开数据集

python下载网页上公开数据集的更多相关文章

随机推荐

热门专题