一、前言

　　前段时间尝试爬取了网易云音乐的歌曲，这次打算爬取QQ音乐的歌曲信息。网易云音乐歌曲列表是通过iframe展示的，可以借助Selenium获取到iframe的页面元素，

　而QQ音乐采用的是异步加载的方式，套路不一样，这是主流的页面加载方式，爬取有点难度，不过也是对自己的一个挑战。

二、Python爬取QQ音乐单曲

之前看的慕课网的一个视频, 很好地讲解了一般编写爬虫的步骤，我们也按这个来。

　　　　　　　　　　爬虫步骤

1.确定目标

首先我们要明确目标，本次爬取的是QQ音乐歌手刘德华的单曲。

（百度百科）->分析目标（策略：url格式（范围）、数据格式、网页编码）->编写代码->执行爬虫

2.分析目标

歌曲链接：https://y.qq.com/n/yqq/singer/003aQYLo2x8izP.html#tab=song&

从左边的截图可以知道单曲采用分页的方式排列歌曲信息，每页显示30条，总共30页。点击页码或者最右边的">"会跳转到下一页，浏览器会向服务器发送ajax异步请求，从链接可以看到begin和num参数，分别代表起始歌曲下标（截图是第2页，起始下标是30）和一页返回30条，服务器响应返回json格式的歌曲信息（MusicJsonCallbacksinger_track({"code":0,"data":{"list":[{"Flisten_count1":......]})），如果只是单独想获取歌曲信息，可以直接拼接链接请求和解析返回的json格式的数据。这里不采用直接解析数据格式的方法，我采用的是Python Selenium方式，每获取和解析完一页的单曲信息，点击 ">" 跳转到下一页继续解析，直至解析并记录所有的单曲信息。最后请求每个单曲的链接，获取详细的单曲信息。

右边的截图是网页的源码，所有歌曲信息都在类名为mod_songlist的div浮层里面，类名为songlist_list的无序列表ul下，每个子元素li展示一个单曲，类名为songlist__album下的a标签，包含单曲的链接，名称和时长等。

3.编写代码

1）下载网页内容，这里使用Python 的Urllib标准库，自己封装了一个download方法：

 def download(url, user_agent='wswp', num_retries=2):

     if url is None:

         return None

     print('Downloading:', url)

     headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}

     request = urllib.request.Request(url, headers=headers)  # 设置用户代理wswp(Web Scraping with Python)

     try:

         html = urllib.request.urlopen(request).read().decode('utf-8')

     except urllib.error.URLError as e:

         print('Downloading Error:', e.reason)

         html = None

         if num_retries > 0:

             if hasattr(e, 'code') and 500 <= e.code < 600:

                 # retry when return code is 5xx HTTP erros

                 return download(url, num_retries-1)  # 请求失败，默认重试2次,

     return html

2）解析网页内容，这里使用第三方插件BeautifulSoup,具体可以参考BeautifulSoup API 。

 def music_scrapter(html, page_num=0):

     try:

         soup = BeautifulSoup(html, 'html.parser')

         mod_songlist_div = soup.find_all('div', class_='mod_songlist')

         songlist_ul = mod_songlist_div[1].find('ul', class_='songlist__list')

         '''开始解析li歌曲信息'''

         lis = songlist_ul.find_all('li')

         for li in lis:

             a = li.find('div', class_='songlist__album').find('a')

             music_url = a['href']  # 单曲链接

             urls.add_new_url(music_url)  # 保存单曲链接

             # print('music_url:{0} '.format(music_url))

         print('total music link num:%s' % len(urls.new_urls))

         next_page(page_num+1)

     except TimeoutException as err:

         print('解析网页出错:', err.args)

         return next_page(page_num + 1)

     return None

 def get_music():

      try:

         while urls.has_new_url():

             # print('urls count:%s' % len(urls.new_urls))

             '''跳转到歌曲链接，获取歌曲详情'''

             new_music_url = urls.get_new_url()

             print('url leave count:%s' % str( len(urls.new_urls) - 1))

             html_data_info = download(new_music_url)

             # 下载网页失败，直接进入下一循环，避免程序中断

             if html_data_info is None:

                 continue

             soup_data_info = BeautifulSoup(html_data_info, 'html.parser')

             if soup_data_info.find('div', class_='none_txt') is not None:

                 print(new_music_url, '   对不起，由于版权原因，暂无法查看该专辑！')

                 continue

             mod_songlist_div = soup_data_info.find('div', class_='mod_songlist')

             songlist_ul = mod_songlist_div.find('ul', class_='songlist__list')

             lis = songlist_ul.find_all('li')

             del lis[0]  # 删除第一个li

             # print('len(lis):$s' % len(lis))

             for li in lis:

                 a_songname_txt = li.find('div', class_='songlist__songname').find('span', class_='songlist__songname_txt').find('a')

                 if 'https' not in a_songname_txt['href']:  #如果单曲链接不包含协议头，加上

                     song_url = 'https:' + a_songname_txt['href']

                 song_name = a_songname_txt['title']

                 singer_name = li.find('div', class_='songlist__artist').find('a').get_text()

                 song_time =li.find('div', class_='songlist__time').get_text()

                 music_info = {}

                 music_info['song_name'] = song_name

                 music_info['song_url'] = song_url

                 music_info['singer_name'] = singer_name

                 music_info['song_time'] = song_time

                 collect_data(music_info)

      except Exception as err:  # 如果解析异常，跳过

          print('Downloading or parse music information error continue:', err.args)

4.执行爬虫

爬虫跑起来了，一页一页地去爬取专辑的链接，并保存到集合中，最后通过get_music()方法获取单曲的名称，链接，歌手名称和时长并保存到Excel文件中。

三、Python爬取QQ音乐单曲总结

1.单曲采用的是分页方式，切换下一页是通过异步ajax请求从服务器获取json格式的数据并渲染到页面，浏览器地址栏链接是不变的，不能通过拼接链接来请求。一开始想过都通过Python Urllib库来模拟ajax请求，后来想想还是用Selenium。Selenium能够很好地模拟浏览器真实的操作，页面元素定位也很方便，模拟单击下一页，不断地切换单曲分页，再通过BeautifulSoup解析网页源码，获取单曲信息。

2.url链接管理器，采用集合数据结构来保存单曲链接，为什么要使用集合？因为多个单曲可能来自同一专辑（专辑网址一样），这样可以减少请求次数。

 class UrlManager(object):

     def __init__(self):

         self.new_urls = set()  # 使用集合数据结构，过滤重复元素

         self.old_urls = set()  # 使用集合数据结构，过滤重复元素

     def add_new_url(self, url):

         if url is None:

             return

         if url not in self.new_urls and url not in self.old_urls:

             self.new_urls.add(url)

     def add_new_urls(self, urls):

         if urls is None or len(urls) == 0:

             return

         for url in urls:

             self.add_new_url(url)

     def has_new_url(self):

         return len(self.new_urls) != 0

     def get_new_url(self):

         new_url = self.new_urls.pop()

         self.old_urls.add(new_url)

         return new_url

3.通过Python第三方插件openpyxl读写Excel十分方便，把单曲信息通过Excel文件可以很好地保存起来。

 def write_to_excel(self, content):

     try:

         for row in content:

             self.workSheet.append([row['song_name'], row['song_url'], row['singer_name'], row['song_time']])

         self.workBook.save(self.excelName)  # 保存单曲信息到Excel文件

     except Exception as arr:

         print('write to excel error', arr.args)

四、后语

最后还是要庆祝下，毕竟成功把QQ音乐的单曲信息爬取下来了。本次能够成功爬取单曲，Selenium功不可没，这次只是用到了selenium一些简单的功能，后续会更加深入学习Selenium，不仅在爬虫方面还有UI自动化。

后续还需要优化的点：

1.下载的链接比较多，一个一个下载起来比较慢，后面打算用多线程并发下载。

2.下载速度过快，为了避免服务器禁用IP，后面还要对于同一域名访问过于频繁的问题，有个等待机制，每个请求之间有个等待间隔。

3. 解析网页是一个重要的过程，可以采用正则表达式，BeautifulSoup和lxml，目前采用的是BeautifulSoup库，在效率方面，BeautifulSoup没lxml效率高，后面会尝试采用lxml。

Python爬虫小白---（二）爬虫基础--Selenium PhantomJS的更多相关文章

[Python爬虫] 之二十七：Selenium +phantomjs 利用 pyquery抓取今日头条视频
一.介绍本例子用Selenium +phantomjs爬取今天头条视频(http://www.tvhome.com/news/)的信息,输入给定关键字抓取图片信息. 给定关键字:视频:融合:电视二 ...
[Python爬虫] 之二十三：Selenium +phantomjs 利用 pyquery抓取智能电视网数据
一.介绍本例子用Selenium +phantomjs爬取智能电视网(http://news.znds.com/article/news/)的资讯信息,输入给定关键字抓取资讯信息. 给定关键字:数字 ...
[Python爬虫] 之二十一：Selenium +phantomjs 利用 pyquery抓取36氪网站数据
一.介绍本例子用Selenium +phantomjs爬取36氪网站(http://36kr.com/search/articles/电视?page=1)的资讯信息,输入给定关键字抓取资讯信息. 给 ...
[Python爬虫] 之二十：Selenium +phantomjs 利用 pyquery通过搜狗搜索引擎数据
一.介绍本例子用Selenium +phantomjs 利用 pyquery通过搜狗搜索引擎数据()的资讯信息,输入给定关键字抓取资讯信息. 给定关键字:数字:融合:电视抓取信息内如下: 1.资讯 ...
[Python爬虫] 之十五：Selenium +phantomjs根据微信公众号抓取微信文章
借助搜索微信搜索引擎进行抓取抓取过程 1.首先在搜狗的微信搜索页面测试一下,这样能够让我们的思路更加清晰在搜索引擎上使用微信公众号英文名进行“搜公众号”操作(因为公众号英文名是公众号唯一的,而中文 ...
[Python爬虫] 之十九：Selenium +phantomjs 利用 pyquery抓取超级TV网数据
一.介绍本例子用Selenium +phantomjs爬取超级TV(http://www.chaojitv.com/news/index.html)的资讯信息,输入给定关键字抓取资讯信息. 给定关键 ...
[Python爬虫] 之十八：Selenium +phantomjs 利用 pyquery抓取电视之家网数据
一.介绍本例子用Selenium +phantomjs爬取电视之家(http://www.tvhome.com/news/)的资讯信息,输入给定关键字抓取资讯信息. 给定关键字:数字:融合:电视抓 ...
[Python爬虫] 之十六：Selenium +phantomjs 利用 pyquery抓取一点咨询数据
本篇主要是利用 pyquery来定位抓取数据,而不用xpath,通过和xpath比较,pyquery效率要高. 主要代码: # coding=utf-8 import os import re fro ...
[Python爬虫] 之十四：Selenium +phantomjs抓取媒介360数据
具体代码如下: # coding=utf-8import osimport refrom selenium import webdriverimport selenium.webdriver.supp ...

随机推荐

张小龙的野心：用小程序重构web|小程序好处及可能的不足
一:张小龙的野心:用小程序重构web 一很多年以前,张小龙写了一款软件:Foxmail. 这款软件当年有数百万用户,这是一个相当庞大的量,因为彼时网民也只有千万当量级的规模. 我是一个非常忠实的用户 ...
DES加密例子
Java密码学结构设计遵循两个原则: 1) 算法的独立性和可靠性. 2) 实现的独立性和相互作用性. 算法的独立性是通过定义密码服务类来获得.用户只需了解密码算法的概念,而不用去关心如何实现这些概念. ...
屌丝技能--转Json(Newtonsoft.Json.dll)
妈妈再也不用为我转Json而担忧了!! 很简单,没什么好说明的,嗯! public class ShowTablePage<T> where T : class, new() { publ ...
C#操作CAD-初始化、引用dll
操作cad等方式有很多,比如C,C++,vb.lisp(效率最高,但是语言结构性太差)和C#,因为我等个人习惯和方便等原因,在此讲解一下用C#操作流程,后续会更新操作图层.扩展数据.绘图等操作步骤.当 ...
JVM的内存区域划分以及垃圾回收机制详解
在我们写Java代码时,大部分情况下是不用关心你New的对象是否被释放掉,或者什么时候被释放掉.因为JVM中有垃圾自动回收机制.在之前的博客中我们聊过Objective-C中的MRC(手动引用计数)以 ...
VR上天了！全景商业化落地了！——VR全景智慧城市
几年前,VR创业公司SpaceVR就启动了旨在将宇航员视觉体验带给普通人的虚拟现实(VR)项目.SpaceVR计划将VR相机卫星送入太空,并将相机拍摄到的太空视频发送回地球,从而让VR用户身临其境地看 ...
ABP入门系列（18）—— 使用领域服务
ABP入门系列目录--学习Abp框架之实操演练源码路径:Github-LearningMpaAbp 1.引言自上次更新有一个多月了,发现越往下写,越不知如何去写.特别是当遇到DDD中一些概念术语的 ...
3.Node.js 自定义微信菜单
文章目录: 1.Node.js 接入微信公众平台开发 2.Node.js access_token的获取.存储及更新 3.Node.js 自定义微信菜单 ...
【2017-06-06】Ajax完整结构、三级联动的制作
一.Ajax完整结构 $.ajax({ url:"Main.ashx", data:{}, dataType:"json", type:"post&q ...
Postgres Linux 维护随笔1（启动篇）
关于postgres 起停操作随笔 Linux 环境下,对Postgres 起停常用代码 Postgres 启动 : pg_ctl start Postgres 停止 : pg_ctl stop Po ...