requests爬取百度音乐

使用requests爬取百度音乐，我想把当前热门歌手的音乐信息爬下来。

首先进行url分析，可以看到：

歌手网页：

薛之谦网页：

可以看到，似乎这些路劲的获取一切都很顺利，然后可以写代码：

# -*- coding: utf-8 -*-

"""

Created on Sat Dec 30 14:18:33 2017

@author: 24630

"""

import requests

from lxml import etree

import urllib.parse as urlparse

# 获得热门的前几个有封面的歌手

def get_info_artist(url):

    html = requests.get(url).text

    html=etree.HTML(html)

    hotlist = html.xpath('//div[@class="hot-head clearfix"]/dl/dd/a[1]/@href')

    return hotlist

def get_info_single(url):

    html = requests.get(url).text

    html=etree.HTML(html)

    songlist = html.xpath('//div[@class="song-item"]//span[@class="song-title "]/a[1]/text()')

    albumlist = html.xpath('//div[@class="song-item"]//span[@class="album-title"]/a[1]/text()')

    downloadUrl = html.xpath('//div[@class="song-item"]//span[@class="song-title "]/a[1]/@href')

    #无法找到下一页的跳转连接

    #next_page = //div[@class="page-inner"]/a[last()]/text()

    print(len(songlist))

url = 'http://music.baidu.com/artist'

hotlist = get_info_artist(url)

#urljoin主要是拼接URL，

#它以base作为其基地址，

#然后与url中的相对地址相结合组成一个绝对URL地址。

#函数urljoin在通过为URL基地址附加新的文件名的方式来处理同一位置处的若干文件的时候格外有用。

#需要注意的是：

#如果基地址并非以字符/结尾的话，那么URL基地址最右边部分就会被这个相对路径所替换。

#如果希望在该路径中保留末端目录，应确保URL基地址以字符/结尾。

for u in hotlist:

    #获得单个歌手的链接

    url_singer = urlparse.urljoin(url,u)

    get_info_single(url_singer)

　　可以看到，我读完一页后，想要继续进行下一页的数据的获取就没那么容易了。

有时候显示：

至于怎么获得下一页的信息：

通过上面可以分析，上面三处有数据的地方分别是点击下一页的时候产生的，可以在上面找一下。

这个时候，可以分析到：

实际上，跳转路径的动态请求隐藏在：

这样一个路径下。

因此，实际上可以构建该路径进行获取歌曲信息。

可以看到，该路径下动态请求的页面是一个json格式数据，可以通过json解析，获取其中的html源码。

代码修改为：

import requests

from lxml import etree

import urllib.parse as urlparse

import json,re,os

import sqlite3

def writeDB(song_dict):

    global num

    c = conn.cursor()

    sql = '''insert into baiduMusic (id, songName,singer,albumname,download) values (?,?,?,?,?)'''

    para = (num,song_dict['歌曲'],song_dict['歌手'],song_dict['专辑'],song_dict['下载路径'])

    c.execute(sql,para)

    conn.commit()

    num += 1

# 获得热门的前几个有封面的歌手

def get_info_artist(url):

    html = requests.get(url).text

    html=etree.HTML(html)

    hotlist = html.xpath('//div[@class="hot-head clearfix"]/dl/dd/a[1]/@href')

    return hotlist

def get_info_single(url):

    re_com = re.compile('artist/(\d+)')

    ting_uid = re_com.findall(url)[0]

    get_info_single_page(0,ting_uid)

def get_info_single_page(i,ting_uid):

    page = 'http://music.baidu.com/data/user/getsongs?start={0}&ting_uid={1}'.format(i,ting_uid)

    html = requests.get(page).text

    html = json.loads(html)["data"]["html"]

    html=etree.HTML(html)

    songlist = html.xpath('//div[@class="song-item"]//span[@class="song-title "]/a[1]/text()')

    albumlist = html.xpath('//div[@class="song-item"]//span[@class="album-title"]/a[1]/text()')

    downloadUrl = html.xpath('//div[@class="song-item"]//span[@class="song-title "]/a[1]/@href')

    try:

        singer = html.xpath('//div[@class="song-item"]//span[@class="song-title "]/a[1]/@title')[0]

        re_com = re.compile('(\S+?)《') 

        #这种解析歌手的方法不好，为了省事先这么弄的

        singer = re_com.findall(singer)[0]

    except:

        singer = ' '

    print(singer)

    for songName,album,download in zip(songlist,albumlist,downloadUrl):

        song_dict = {}

        song_dict['歌曲'] = songName

        song_dict['歌手'] = singer

        song_dict['专辑'] = album

        song_dict['下载路径'] = download

        writeDB(song_dict)

    #歌曲都获取全了，即获得某一页歌曲数少于25

    if (len(songlist) == 25):

        get_info_single_page(i+25,ting_uid)

num = 1

if not os.path.isfile('test.db'):

    conn = sqlite3.connect('test.db')

    c = conn.cursor()

    c.execute('''create table baiduMusic (id integer primary key,songName varchar(10),singer varchar(10),

                                                   albumname varchar(10),

                                                   download varchar(10));''')

    conn.commit()

else:

    conn = sqlite3.connect('test.db')

url = 'http://music.baidu.com/artist'

hotlist = get_info_artist(url)

#urljoin主要是拼接URL，

#它以base作为其基地址，

#然后与url中的相对地址相结合组成一个绝对URL地址。

#函数urljoin在通过为URL基地址附加新的文件名的方式来处理同一位置处的若干文件的时候格外有用。

#需要注意的是：

#如果基地址并非以字符/结尾的话，那么URL基地址最右边部分就会被这个相对路径所替换。

#如果希望在该路径中保留末端目录，应确保URL基地址以字符/结尾。

for u in hotlist:

    #获得单个歌手的链接

    url_singer = urlparse.urljoin(url,u)

    get_info_single(url_singer)

conn.close()

最终获得效果：

当然，上面的download链接是歌曲的跳转链接，如果需要下载的话，可以继续分析:

如上，可以继续分析如何构建歌曲文件的url，然后完成下载。

requests爬取百度音乐的更多相关文章

python+requests爬取百度文库ppt
实验网站:https://wenku.baidu.com/view/c7752014f18583d04964594d.html 在下面这种类型文件中的请求头的url打开后会得到一个页面你会得到如下图 ...
Python 爬虫实例（14）爬取百度音乐
#-*-coding:utf-8-*- from common.contest import * import urllib def spider(): song_types = ['新歌','热歌' ...
requests爬取百度贴吧：python 美女 3
import requests import sys class Tieba(object): def __init__(self, tieba_name, pn): self.tieba_name ...
requests+xpath+map爬取百度贴吧
# requests+xpath+map爬取百度贴吧 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 # 分解: # requests获取网页 # xpath提取内容 # map实现多线程爬虫 impo ...
利用python的爬虫技术爬取百度贴吧的帖子
在爬取糗事百科的段子后,我又在知乎上找了一个爬取百度贴吧帖子的实例,为了巩固提升已掌握的爬虫知识,于是我打算自己也做一个. 实现目标:1,爬取楼主所发的帖子 2,显示所爬去的楼层以及帖子题目 3,将爬 ...
Python3实现QQ机器人自动爬取百度文库的搜索结果并发送给好友（主要是爬虫）
一.效果如下: 二.运行环境: win10系统:python3:PyCharm 三.QQ机器人用的是qqbot模块用pip安装命令是: pip install qqbot (前提需要有request ...
python3 爬取qq音乐作者所有单曲并且下载歌曲
1 import requests import re import json import os # 便于存放作者的姓名 zuozhe = [] headers = {'User-Agent': ' ...
写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影在类型地区年代各个标签下电影的名字评分和图片连接以及电影连接首先我们先在mysql中建表 create table liubo4( id in ...
Python爬虫实战一之爬取QQ音乐
一.前言前段时间尝试爬取了网易云音乐的歌曲,这次打算爬取QQ音乐的歌曲信息.网易云音乐歌曲列表是通过iframe展示的,可以借助Selenium获取到iframe的页面元素, 而QQ音乐采用的是 ...

随机推荐

http方式传递参数值转义或乱码的处理（base64）
如果通过http方式传递参数url编码了,可用urlEncode和urlDecode,这种方式不同开发语言编码出来的可能不同,所以不同开发语言最好用base64编码和解码来处理: base64加密: ...
ubuntun16.04+cuda9.0+cudnn7+anaconda3+pytorch+anaconda3下py2安装pytorch
一.电脑配置说明: 电脑配置: LEGION笔记本CPU Inter Core i7 8代GPU NVIDIA GeForce GTX1060Windows10 所需的环境: Anaconda3(6 ...
Electron 开发环境下总是 crash
全局安装一个 electron devtool 关掉崩溃时选择重新打开
图片压缩之 PNG
作者:程志达链接:https://zhuanlan.zhihu.com/p/19570424来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. PNG(Portable N ...
【codeforces】【比赛题解】#849 CF Round #431 (Div.2)
cf的比赛越来越有难度了……至少我做起来是这样. 先看看题目吧:点我. 这次比赛是北京时间21:35开始的,算是比较良心. [A]奇数与结束 "奇数从哪里开始,又在哪里结束?梦想从何处起航, ...
go 切片练习
下列程序输出什么? package main import "fmt" func main() { var sa = make([]string, 5, 10) f ...
MySQL分布式集群之MyCAT（一）简介【转】
隔了好久,才想起来更新博客,最近倒腾的数据库从Oracle换成了MySQL,研究了一段时间,感觉社区版的MySQL在各个方面都逊色于Oracle,Oracle真的好方便!好了,不废话,这次准备记录一些 ...
ASP.NET 实现Base64文件流下载PDF
因为业务需要调用接口获取的是 Base64文件流需要提供给客户下载PDF文档源码部分借鉴网上,具体地址忘记了. //Base64文件流 byte[] buffer = Convert.FromBa ...
MVC Ajax Form & Ajax Valida(笔记)
1.引入必要的文件 <script src=.min.js")" type="text/javascript"></script> &l ...
[HBase] 服务端RPC机制及代码梳理
基于版本:CDH5.4.2 上述版本较老,但是目前生产上是使用这个版本,所以以此为例. 1. 概要说明: 客户端API发送的请求将会被RPCServer的Listener线程监听到. Listene ...

requests爬取百度音乐

requests爬取百度音乐的更多相关文章

随机推荐

热门专题