使用requests爬取百度音乐,我想把当前热门歌手的音乐信息爬下来。

首先进行url分析,可以看到:

歌手网页:

薛之谦网页:

可以看到,似乎这些路劲的获取一切都很顺利,然后可以写代码:

# -*- coding: utf-8 -*-
"""
Created on Sat Dec 30 14:18:33 2017 @author: 24630
""" import requests
from lxml import etree
import urllib.parse as urlparse # 获得热门的前几个有封面的歌手
def get_info_artist(url):
html = requests.get(url).text
html=etree.HTML(html)
hotlist = html.xpath('//div[@class="hot-head clearfix"]/dl/dd/a[1]/@href')
return hotlist def get_info_single(url):
html = requests.get(url).text
html=etree.HTML(html)
songlist = html.xpath('//div[@class="song-item"]//span[@class="song-title "]/a[1]/text()')
albumlist = html.xpath('//div[@class="song-item"]//span[@class="album-title"]/a[1]/text()')
downloadUrl = html.xpath('//div[@class="song-item"]//span[@class="song-title "]/a[1]/@href') #无法找到下一页的跳转连接
#next_page = //div[@class="page-inner"]/a[last()]/text()
print(len(songlist)) url = 'http://music.baidu.com/artist'
hotlist = get_info_artist(url)
#urljoin主要是拼接URL,
#它以base作为其基地址,
#然后与url中的相对地址相结合组成一个绝对URL地址。
#函数urljoin在通过为URL基地址附加新的文件名的方式来处理同一位置处的若干文件的时候格外有用。
#需要注意的是:
#如果基地址并非以字符/结尾的话,那么URL基地址最右边部分就会被这个相对路径所替换。
#如果希望在该路径中保留末端目录,应确保URL基地址以字符/结尾。 for u in hotlist:
#获得单个歌手的链接
url_singer = urlparse.urljoin(url,u)
get_info_single(url_singer)

  可以看到,我读完一页后,想要继续进行下一页的数据的获取就没那么容易了。

有时候显示:

至于怎么获得下一页的信息:

通过上面可以分析,上面三处有数据的地方分别是点击下一页的时候产生的,可以在上面找一下。

这个时候,可以分析到:

实际上,跳转路径的动态请求隐藏在:

这样一个路径下。

因此,实际上可以构建该路径进行获取歌曲信息。

可以看到,该路径下动态请求的页面是一个json格式数据,可以通过json解析,获取其中的html源码。

代码修改为:

import requests
from lxml import etree
import urllib.parse as urlparse
import json,re,os
import sqlite3 def writeDB(song_dict):
global num
c = conn.cursor()
sql = '''insert into baiduMusic (id, songName,singer,albumname,download) values (?,?,?,?,?)'''
para = (num,song_dict['歌曲'],song_dict['歌手'],song_dict['专辑'],song_dict['下载路径'])
c.execute(sql,para)
conn.commit()
num += 1 # 获得热门的前几个有封面的歌手
def get_info_artist(url):
html = requests.get(url).text
html=etree.HTML(html)
hotlist = html.xpath('//div[@class="hot-head clearfix"]/dl/dd/a[1]/@href')
return hotlist def get_info_single(url):
re_com = re.compile('artist/(\d+)')
ting_uid = re_com.findall(url)[0]
get_info_single_page(0,ting_uid) def get_info_single_page(i,ting_uid):
page = 'http://music.baidu.com/data/user/getsongs?start={0}&ting_uid={1}'.format(i,ting_uid) html = requests.get(page).text
html = json.loads(html)["data"]["html"]
html=etree.HTML(html)
songlist = html.xpath('//div[@class="song-item"]//span[@class="song-title "]/a[1]/text()')
albumlist = html.xpath('//div[@class="song-item"]//span[@class="album-title"]/a[1]/text()')
downloadUrl = html.xpath('//div[@class="song-item"]//span[@class="song-title "]/a[1]/@href')
try:
singer = html.xpath('//div[@class="song-item"]//span[@class="song-title "]/a[1]/@title')[0]
re_com = re.compile('(\S+?)《') #这种解析歌手的方法不好,为了省事先这么弄的
singer = re_com.findall(singer)[0]
except:
singer = ' '
print(singer)
for songName,album,download in zip(songlist,albumlist,downloadUrl):
song_dict = {}
song_dict['歌曲'] = songName
song_dict['歌手'] = singer
song_dict['专辑'] = album
song_dict['下载路径'] = download
writeDB(song_dict)
#歌曲都获取全了,即获得某一页歌曲数少于25
if (len(songlist) == 25):
get_info_single_page(i+25,ting_uid) num = 1
if not os.path.isfile('test.db'):
conn = sqlite3.connect('test.db') c = conn.cursor()
c.execute('''create table baiduMusic (id integer primary key,songName varchar(10),singer varchar(10),
albumname varchar(10),
download varchar(10));''')
conn.commit()
else:
conn = sqlite3.connect('test.db')
url = 'http://music.baidu.com/artist'
hotlist = get_info_artist(url)
#urljoin主要是拼接URL,
#它以base作为其基地址,
#然后与url中的相对地址相结合组成一个绝对URL地址。
#函数urljoin在通过为URL基地址附加新的文件名的方式来处理同一位置处的若干文件的时候格外有用。
#需要注意的是:
#如果基地址并非以字符/结尾的话,那么URL基地址最右边部分就会被这个相对路径所替换。
#如果希望在该路径中保留末端目录,应确保URL基地址以字符/结尾。 for u in hotlist:
#获得单个歌手的链接
url_singer = urlparse.urljoin(url,u)
get_info_single(url_singer) conn.close()

  

最终获得效果:

当然,上面的download链接是歌曲的跳转链接,如果需要下载的话,可以继续分析:

如上,可以继续分析如何构建歌曲文件的url,然后完成下载。

requests爬取百度音乐的更多相关文章

  1. python+requests爬取百度文库ppt

    实验网站:https://wenku.baidu.com/view/c7752014f18583d04964594d.html 在下面这种类型文件中的请求头的url打开后会得到一个页面 你会得到如下图 ...

  2. Python 爬虫实例(14) 爬取 百度音乐

    #-*-coding:utf-8-*- from common.contest import * import urllib def spider(): song_types = ['新歌','热歌' ...

  3. requests爬取百度贴吧:python 美女 3

    import requests import sys class Tieba(object): def __init__(self, tieba_name, pn): self.tieba_name ...

  4. requests+xpath+map爬取百度贴吧

    # requests+xpath+map爬取百度贴吧 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 # 分解: # requests获取网页 # xpath提取内容 # map实现多线程爬虫 impo ...

  5. 利用python的爬虫技术爬取百度贴吧的帖子

    在爬取糗事百科的段子后,我又在知乎上找了一个爬取百度贴吧帖子的实例,为了巩固提升已掌握的爬虫知识,于是我打算自己也做一个. 实现目标:1,爬取楼主所发的帖子 2,显示所爬去的楼层以及帖子题目 3,将爬 ...

  6. Python3实现QQ机器人自动爬取百度文库的搜索结果并发送给好友(主要是爬虫)

    一.效果如下: 二.运行环境: win10系统:python3:PyCharm 三.QQ机器人用的是qqbot模块 用pip安装命令是: pip install qqbot (前提需要有request ...

  7. python3 爬取qq音乐作者所有单曲 并且下载歌曲

    1 import requests import re import json import os # 便于存放作者的姓名 zuozhe = [] headers = {'User-Agent': ' ...

  8. 写一个python 爬虫爬取百度电影并存入mysql中

    目标是利用python爬取百度搜索的电影 在类型 地区 年代各个标签下 电影的名字 评分 和图片连接 以及 电影连接 首先我们先在mysql中建表 create table liubo4( id in ...

  9. Python爬虫实战一之爬取QQ音乐

    一.前言   前段时间尝试爬取了网易云音乐的歌曲,这次打算爬取QQ音乐的歌曲信息.网易云音乐歌曲列表是通过iframe展示的,可以借助Selenium获取到iframe的页面元素, 而QQ音乐采用的是 ...

随机推荐

  1. HDU 1556 Color the ball (树状数组 区间更新+单点查询)

    题目链接 Problem Description N个气球排成一排,从左到右依次编号为1,2,3....N.每次给定2个整数a b(a <= b),lele便为骑上他的"小飞鸽&quo ...

  2. 最大团 HDU-1530

    传送门: 洛谷 Vjudge    (题目略有不同) 题目描述 • 给定一个图 tt = (V, E) • 求一个点集 S ,使得对于任意 x ≠ y ∈ S ,x 和 y 都有一条边 • |V | ...

  3. 文件操作fstream

    c++文件操作详解 2009-04-16 20:46:35|  分类: C/C++|举报|字号 订阅 C++ 通过以下几个类支持文件的输入输出: ofstream: 写操作(输出)的文件类 (由ost ...

  4. iOS学习笔记(1)— UIView 渲染和内容管理

    iOS中应用程序基本上都是基于MVC模式开发的.UIView就是模型-视图-控制器中的视图,在iOS终端上看到的.摸到的都是UIView. UIView在屏幕上定义了一个矩形区域和管理区域内容的接口. ...

  5. cin.get()和cin.getline()之间的区别

    cin.getline()和cin.get()都是对输入的面向行的读取,即一次读取整行而不是单个数字或字符,但是二者有一定的区别. cin.get()每次读取一整行并把由Enter键生成的换行符留在输 ...

  6. Hibernate5笔记1--Hibernate简介和第一个程序

    Hibernate简介: Hibernate是一个开放源代码的ORM(对象关系映射)框架,它对JDBC进行了非常轻量级的对象封装,使得Java程序员可以随心所欲的使用对象编程思维来操纵数据库. Hib ...

  7. KVM,QEMU,libvirt入门学习笔记【转】

    转自:http://blog.csdn.net/julykobe/article/details/27571387 注:本文内容均来自网络,我只是在此做了一些摘抄和整理的工作,来源均有注明. 0.虚拟 ...

  8. spin_lock & mutex_lock的区别? 【转】

    转自:http://blog.csdn.net/wilsonboliu/article/details/19190861 本文由该问题引入到内核锁的讨论,归纳如下   为什么需要内核锁? 多核处理器下 ...

  9. URL的井号

    2010年9月,twitter改版. 一个显著变化,就是URL加入了"#!"符号.比如,改版前的用户主页网址为 http://twitter.com/username 改版后,就变 ...

  10. Bootstrap FileInput 多图上传插件 文档属性说明

    Bootstrap FileInput 多图上传插件   原文链接:http://blog.csdn.net/misterwho/article/details/72886248?utm_source ...