python 爬取媒体文件（无防火墙）

#coding = utf-8

import requests

import pandas as pd

import os,time

root_path = './根目录/'

input_file = '码表.xlsx'

url = 'http://api.map.baidu.com/geocoder/v2/?id = %s&local=1'

fail_file = root_path +'fail.csv'

class Auto_down:

    def __init__(self):

        print("--start--")

    def read_excel(self):

        # pd.read_excel(converters = {u'列名':str})按照str类型读入，不会出现0被舍去的情况

        sheet = pd.read_excel(input_file,converters = {u'列名':str},sheetname = '子表名')

        cust_Id = sheet['cust_id']

        void_Id = sheet['void_id']

        for i in range(len(cust_Id)):

            self.create_file(cust_Id[i],void_Id[i])

    def download_voice(self,custid_filename,voiceid):

        print(voiceid)

        try:

            r = requests.get(url%voiceid)

            return_code = r.status_code

            if return_code == 200:

                voice_filename = '%s/%s.mp3'%(custid_filename,voiceid)

                with open(voice_filename, 'wb') as fd:

                    fd.write(r.content)

            else:

                with open(fail_file, 'a+') as ff:

                    ff.write(voiceid + '\n')

        except:

            print('request url is fail!!')

            with open(fail_file, 'a+') as ff:

                ff.write(voiceid + '\n')

    def create_file(self, custid, voiceid):

        custid_filename = root_path + custid

        if not os.path.exists(custid_filename):

            os.mkdir(custid_filename)

        else:

            self.download_voice(custid_filename,voiceid)

if __name__ == '__main__':

    tStart = time.clock()

    AD = Auto_down()

    AD.read_excel()

    tEnd = time.clock()

    print("%s s"%(tEnd - tStart))

#coding = utf-8

import requests

root_path = "./下载/"

url = ""

fail_file = root_path + 'fail.csv'

voiceid = ''

for i in range(3):

    try:

        r = requests.get(url)

        return_code = r.status_code

        if r.status_code == 200:

            voice_filename = root_path + 'dada.fdf'

            with open(voice_filename,'wb') as fd:

                fd.write(r.content)

        else:

            with open(fail_file,'a+') as ff:

                ff.write(voiceid + '\n')

    except:

        prin("fail")

        with open(fail_file,'a+') as ff:

            ff.write(voiceid + '\n')

r = request.get(url)
r.status_code 获取响应状态码
r.text 获取响应内容
r.headers 获取响应头
r.encoding 获取响应编码
r.content 获取二进制响应内容
r.json() 获取JSON响应内容

python 爬取媒体文件（无防火墙）的更多相关文章

python 爬取媒体文件（使用chrome代理，启动客户端，有防火墙）
#coding = utf-8 ''' 中文转经纬度 ''' import time,json import urllib.request from selenium import webdriver ...
scrapy --爬取媒体文件示例详解
scrapy 图片数据的爬取基于scrapy进行图片数据的爬取: 在爬虫文件中只需要解析提取出图片地址,然后将地址提交给管道配置文件中写入文件存储位置:IMAGES_STORE = './imgs ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取网站数据保存使用的方法
这篇文章主要介绍了使用Python从网上爬取特定属性数据保存的方法,其中解决了编码问题和如何使用正则匹配数据的方法,详情看下文编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这 ...
Python爬取中国天气网
Python爬取中国天气网基于requests库制作的爬虫. 使用方法:打开终端输入 “python3 weather.py 北京(或你所在的城市)" 程序正常运行需要在同文件夹下加入一个 ...
用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕！
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...
毕设之Python爬取天气数据及可视化分析
写在前面的一些P话:(https://jq.qq.com/?_wv=1027&k=RFkfeU8j) 天气预报我们每天都会关注,我们可以根据未来的天气增减衣物.安排出行,每天的气温.风速风向. ...
Python 爬取途虎养车全系车型轮胎保养数据
Python 爬取途虎养车全系车型轮胎保养数据 2021.7.27 更新增加标题.发布时间参数 demo文末自行下载,需要完整数据私聊我 2021.2.19 更新增加大保养数据 2020. ...

随机推荐

Mysql综述--数据是如何读存的？（2）
页的结构页是一种InnoDB管理存储空间的基本单位,它一般大小在16kb左右.实际上存在着许多不同类型的页,我们这次主要介绍的页是用来存储数据的,也叫做索引页. 接下来看看索引页的结构图: 比较重要 ...
c#之添加window服务(定时任务)
本文讲述使用window服务创建定时任务 1.如图,新建项目,windows桌面->windows服务 2.如图,右键,添加安装程序 3.在下图安装程序 serviceInstaller1 上右 ...
jmeter5.1分布式压测
在使用jmeter压测过程中,可能会度遇到内存溢出的错误,这是为什么呢?因为jmeter是java写的应用,java应用jvm堆内存heap受负载机硬件限制,虽然我们可以调整堆内存大小,但是单机无法支 ...
Python 安装第三方库，pip install 安装慢，安装不上的解决办法
今天来说一下,有些刚刚接触python的朋友,在使用pip install安装python 第三方库的过程中会出现网速很慢,或者是安装下载到中途,停止,卡主,或者是下载报错等问题.如下图: 还有一些 ...
010.[转] maven的三大生命周期
一.Maven的生命周期 Maven的生命周期就是对所有的构建过程进行抽象和统一.包含了项目的清理.初始化.编译.测试.打包.集成测试.验证.部署和站点生成等几乎所有的构建步骤. Maven的生命周期 ...
10.InfluxDB-InfluxQL基础语法教程--OFFSET 和SOFFSET子句
本文翻译自官网,官网地址:(https://docs.influxdata.com/influxdb/v1.7/query_language/data_exploration/) OFFSET 和SO ...
Centos7 安装 zabbix 4.0
参考文档: https://www.zabbix.com/download?zabbix=4.0&os_distribution=centos&os_version=7&db= ...
influxdb-1.7.8（centos 7) 部署
1.官方下载: https://dl.influxdata.com/influxdb/releases/influxdb-1.7.8.x86_64.rpm 2.安装软件 sudo yum locali ...
Django框架（二十一）--Django rest_framework-频率组件
一.作用为了控制用户对某个url请求的频率,比如,一分钟以内,只能访问三次二.自定义频率类 # 写一个频率认证类 class MyThrottle: visit_dic = {} visit_ti ...
PHP7.1-soap扩展安装
1.下载php7.1.27源码包 cd /root & wget -O php7.1.27.tar.gz http://cn2.php.net/get/php-7.1.27.tar.gz/fr ...

python 爬取媒体文件（无防火墙）

python 爬取媒体文件（无防火墙）的更多相关文章

随机推荐

热门专题