一：前言

本次爬取的是喜马拉雅的热门栏目下全部电台的每个频道的信息和频道中的每个音频数据的各种信息，然后把爬取的数据保存到mongodb以备后续使用。这次数据量在70万左右。音频数据包括音频下载地址，频道信息，简介等等，非常多。
昨天进行了人生中第一次面试，对方是一家人工智能大数据公司，我准备在这大二的暑假去实习，他们就要求有爬取过音频数据，所以我就来分析一下喜马拉雅的音频数据爬下来。目前我还在等待三面中，或者是通知最终面试消息。（因为能得到一定肯定，不管成功与否都很开心）

二：运行环境

IDE：Pycharm 2017
Python3.6
pymongo 3.4.0
requests 2.14.2
lxml 3.7.2
BeautifulSoup 4.5.3

三：实例分析

1.首先进入这次爬取的主页面http://www.ximalaya.com/dq/all/ ，可以看到每页12个频道，每个频道下面有很多的音频，有的频道中还有很多分页。抓取计划：循环84个页面，对每个页面解析后抓取每个频道的名称，图片链接，频道链接保存到mongodb。

热门频道

2.打开开发者模式，分析页面，很快就可以得到想要的数据的位置。下面的代码就实现了抓取全部热门频道的信息，就可以保存到mongodb中。

start_urls = ['http://www.ximalaya.com/dq/all/{}'.format(num) for num in range(1, 85)]

for start_url in start_urls:

    html = requests.get(start_url, headers=headers1).text

    soup = BeautifulSoup(html, 'lxml')

    for item in soup.find_all(class_="albumfaceOutter"):

        content = {

            'href': item.a['href'],

            'title': item.img['alt'],

            'img_url': item.img['src']

        }

        print(content)

分析频道

３.下面就是开始获取每个频道中的全部音频数据了，前面通过解析页面获取到了美国频道的链接。比如我们进入http://www.ximalaya.com/6565682/album/237771　这个链接后分析页面结构。可以看出每个音频都有特定的ID，这个ID可以在一个div中的属性中获取。使用split()和int()来转换为单独的ID。

频道页面分析

4.接着点击一个音频链接，进入开发者模式后刷新页面然后点击XHR，再点击一个json链接可以看到这个就包括这个音频的全部详细信息。

html = requests.get(url, headers=headers2).text

numlist = etree.HTML(html).xpath('//div[@class="personal_body"]/@sound_ids')[0].split(',')

for i in numlist:

    murl = 'http://www.ximalaya.com/tracks/{}.json'.format(i)

    html = requests.get(murl, headers=headers1).text

    dic = json.loads(html)

音频页面分析

5.上面只是对一个频道的主页面解析全部音频信息，但是实际上频道的音频链接是有很多分页的。

html = requests.get(url, headers=headers2).text

ifanother = etree.HTML(html).xpath('//div[@class="pagingBar_wrapper"]/a[last()-1]/@data-page')

if len(ifanother):

    num = ifanother[0]

    print('本频道资源存在' + num + '个页面')

    for n in range(1, int(num)):

        print('开始解析{}个中的第{}个页面'.format(num, n))

        url2 = url + '?page={}'.format(n)

        # 之后就接解析音频页函数就行，后面有完整代码说明

分页

6.全部代码
完整代码地址github.com/rieuse/learnPython

__author__ = '布咯咯_rieuse'

import json

import random

import time

import pymongo

import requests

from bs4 import BeautifulSoup

from lxml import etree

clients = pymongo.MongoClient('localhost')

db = clients["XiMaLaYa"]

col1 = db["album"]

col2 = db["detaile"]

UA_LIST = []  # 很多User-Agent用来随机使用可以防ban，显示不方便不贴出来了

headers1 = {} # 访问网页的headers，这里显示不方便我就不贴出来了

headers2 = {} # 访问网页的headers这里显示不方便我就不贴出来了

def get_url():

    start_urls = ['http://www.ximalaya.com/dq/all/{}'.format(num) for num in range(1, 85)]

    for start_url in start_urls:

        html = requests.get(start_url, headers=headers1).text

        soup = BeautifulSoup(html, 'lxml')

        for item in soup.find_all(class_="albumfaceOutter"):

            content = {

                'href': item.a['href'],

                'title': item.img['alt'],

                'img_url': item.img['src']

            }

            col1.insert(content)

            print('写入一个频道' + item.a['href'])

            print(content)

            another(item.a['href'])

        time.sleep(1)

def another(url):

    html = requests.get(url, headers=headers2).text

    ifanother = etree.HTML(html).xpath('//div[@class="pagingBar_wrapper"]/a[last()-1]/@data-page')

    if len(ifanother):

        num = ifanother[0]

        print('本频道资源存在' + num + '个页面')

        for n in range(1, int(num)):

            print('开始解析{}个中的第{}个页面'.format(num, n))

            url2 = url + '?page={}'.format(n)

            get_m4a(url2)

    get_m4a(url)

def get_m4a(url):

    time.sleep(1)

    html = requests.get(url, headers=headers2).text

    numlist = etree.HTML(html).xpath('//div[@class="personal_body"]/@sound_ids')[0].split(',')

    for i in numlist:

        murl = 'http://www.ximalaya.com/tracks/{}.json'.format(i)

        html = requests.get(murl, headers=headers1).text

        dic = json.loads(html)

        col2.insert(dic)

        print(murl + '中的数据已被成功插入mongodb')

if __name__ == '__main__':

    get_url()

7.如果改成异步的形式可以快一点，只需要修改成下面这样就行了。我试了每分钟要比普通的多获取近100条数据。这个源代码也在github中。

异步

五：总结

这次抓取的数据量在70万左右，这些数据后续可以进行很多研究，比如播放量排行榜、时间区段排行、频道音频数量等等。后续我将继续学习使用科学计算和绘图工具来进行数据分析，清洗的工作。

学习过程中遇到什么问题或者想获取学习资源的话，欢迎加入学习交流群
626062078，我们一起学Python！

Python爬虫音频数据的更多相关文章

python 爬虫与数据可视化--python基础知识
摘要:偶然机会接触到python语音,感觉语法简单.功能强大,刚好朋友分享了一个网课<python 爬虫与数据可视化>,于是在工作与闲暇时间学习起来,并做如下课程笔记整理,整体大概分为4个 ...
Python爬虫股票数据爬取
前一篇提到了与股票数据相关的可能几种数据情况,本篇接着上篇,介绍一下多个网页的数据爬取.目标抓取平安银行(000001)从1989年~2017年的全部财务数据. 数据源分析地址分析 http://m ...
Python爬虫与数据图表的实现
要求: 1. 参考教材实例20,编写Python爬虫程序,获取江西省所有高校的大学排名数据记录,并打印输出. 2. 使用numpy和matplotlib等库分析数据,并绘制南昌大学.华东交通大学.江西 ...
在我的新书里，尝试着用股票案例讲述Python爬虫大数据可视化等知识
我的新书,<基于股票大数据分析的Python入门实战>,预计将于2019年底在清华出版社出版. 如果大家对大数据分析有兴趣,又想学习Python,这本书是一本不错的选择.从知识体系上来看, ...
从python爬虫以及数据可视化的角度来为大家呈现“227事件”后，肖战粉丝的数据图
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取t.cn ...
python 爬虫与数据可视化--数据提取与存储
一.爬虫的定义.爬虫的分类(通用爬虫.聚焦爬虫).爬虫应用场景.爬虫工作原理(最后会发一个完整爬虫代码) 二.http.https的介绍.url的形式.请求方法.响应状态码 url的形式: 请求头: ...
python 爬虫与数据可视化--matplotlib模块应用
一.数据分析的目的(利用大数据量数据分析,帮助人们做出战略决策) 二.什么是matplotlib? matplotlib: 最流行的Python底层绘图库,主要做数据可视化图表,名字取材于MATLAB ...
Python 爬虫-股票数据的Scrapy爬虫
2017-08-06 19:52:21 目标:获取上交所和深交所所有股票的名称和交易信息输出:保存到文件中技术路线:scrapy 获取股票列表:东方财富网:http://quote.eastmone ...
python爬虫之数据的三种解析方式
一.正则解析单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字.字母.下划线.中文 \W : 非\ ...

随机推荐

vue-cli开发时，ajax跨域详细解决办法
在config/index.js中进行如下配置 [即在进行ajax请求时,地址中任何以/api开头的请求地址都被解析为目标地址,target就是你想要的后台接口地址] proxyTable: { '/ ...
Elasticsearch 更新索引settings
1.更新索引设置:将副本减至0,修改索引分析器为ik_max_word和检索分词器为ik_smart 2.需要先将索引关闭,然后再PUT setings POST user/_close PUT us ...
Intervals ZOJ - 3953 （区间贪心）
Chiaki has n intervals and the i-th of them is [li, ri]. She wants to delete some intervals so that ...
解决华为手机用rem单位，内容超出屏幕宽度问题
在H5手机页面上,用rem单位布局,配合js计算出一个根节点的font-size(原理是屏幕宽度乘以一个固定比例,如1/100),之后页面中所有的px全都换算成了rem单位来写,优点是能适配各种不同屏 ...
[技巧篇]12.从Spring的编码过滤器说起
有一枚学生问问了我一个问题,突然灵感爆发,他使用的Spring的过滤器,前台利用GET方式向后端发出一个请求,由于里面含有中文数据,结果在后端显示的是乱码,他问我为什么?明明在Spring里面也配了字 ...
You can't specify target table 'table' for update in FROM clause
delete from table1 where ID not in(select max(ID) ID from table1 group by row1) and row1 ) # 出现错误 # ...
8.IO模型
一.事件驱动模型服务器处理模型程序,通常有以下几种: (1)收到一个请求则创建一个新的进程来处理这个请求 (2)收到一个请求则创建一个新的线程来处理这个请求 (3)收到一个请求,把它放入事件列表,让 ...
HDU 2154 跳舞毯 | DP | 递推 | 规律
Description 由于长期缺乏运动,小黑发现自己的身材臃肿了许多,于是他想健身,更准确地说是减肥. 小黑买来一块圆形的毯子,把它们分成三等分,分别标上A,B,C,称之为“跳舞毯”,他的运动方式是 ...
Maven -- 将引用的本地jar文件打进war包里
我们在做maven项目开发中有时候引用了本地第三方包,例如: <dependency> <groupId>org.artofsolving.jodconverter</g ...
【BZOJ4880】排名的战争 [暴力]
排名的战争 Time Limit: 8 Sec Memory Limit: 256 MB[Submit][Status][Discuss] Description 小Q是一名出色的质检员,他负责质检 ...