selenium + phantomjs 爬取落网音乐

题记：

　　作为一个业余程序猿，最大的爱好就是电影和音乐了，听音乐当然要来点有档次的。落网的音乐的逼格有点高，一听听了10年。学习python一久了，于是想用python技术把落网的音乐爬下来随便听。

目的：

　　将每一期的落网音乐下载到电脑上。

=====================================================================================

版本一：

　　刚开始，学习了爬虫技术中的urllib,urllib2,httplib，然后学习了用requests + beautifulsoup获取数据（python理念：能简单为啥还要复杂）。

于是，就有了这个版本。

图1：

图2：

图3：

缺点：

　　1、从html元素查找title，再从request请求查看每一首音乐的url，这个半手动的违背了自动下载的初衷。

　　2、这个音乐url是规律的命名，如果不规律的话，便不能用了。

　　3、单线程下载，速度慢。

需要改进的地方：

　　1、音乐url应能自动在网页里搜索，而不需要手动查看request请求的header。

　　2、使用多线程。提高下载速度。

=================================================================

版本二：

分析：

　　1、打开落网每一期音乐的页面，查看源代码中，不能看到音乐的url，那判定该音乐是由js发起的请求。

　　2、要查看web页面中js发起的请求时，用requests模块只能获取静态的url，如果是动态的就没办法了。

　　3、通过搜索查阅，找到一款神器，selenium + phantomjs。

　　　　selenium是web自动化测试包，测试直接运行在浏览器中，就像真正的用户在操作一样，详见官网 http://www.seleniumhq.org。

　　　　phantomjs是基于webkit的javascript API，可以编译解释执行JavaScript代码。详见：官网 http://phantomjs.org。

　　　　webdriver api 见 http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.remote.webdriver。

　　4、Time fly，just do it。

　　在分析过程中，开始一直是requests模块的思维，由于落网的js是压缩过的，想到解压js，再查找相关的dom元素，再进行webElement的click提交，查看请求，但是这种方法一直没有结果。用了chrome 及 opera 的开发者工具，仍然无果。

　　换个思路，用了firefox的firebug试试。打开页面后，发现这个东西：

　　看了看内容，这就是js对象呀。再仔细查看，找到了这个：

　　哎哟，这不就是我要找的东西么，真是破铁鞋无觅处、得来全不费工夫呀。。。

　　但是，如果通过代码得到这个东西呢，一直没想到好的办法（业余菜鸟，对http请求了解太少）。

　　偶然看到这篇帖子：http://blog.csdn.net/pushiqiang/article/details/51290509

　　里面有一句代码得到启发：

　　这是返回js变量，那我需要的代码变量应用就是firebug里的luooPlayer了。

　　测试：

　　得到结果：

　　终于，主要的内容搞定。那接下来就是download每一期了，再加上多线程，就能下载了。

代码：

 #coding:utf-8

 '''

 Auth:daivlin

 Date:2016-12-22

 '''

 import os

 import time

 import urllib

 import threading

 from selenium import webdriver

 class Luoo(object):

     def __init__(self,issue):

         ''' init ,参数为期数 '''

         self.issue_url = r"http://www.luoo.net/music/" + "%03d"%issue

         driver = webdriver.PhantomJS()

         driver.get(self.issue_url)

         #每期名称如: VOL666 欢迎来到巴黎

         self.issue_name = "VOL." + "%03d"%issue + " " + driver.title

         luooPlayer = driver.execute_script("return luooPlayer") #读取js变量

         #音乐列表为元组：(name,url)

         self.music_list = []

         var = 1

         for i in luooPlayer["playlist"]:

             self.music_list.append(("%02d"%var,i["mp3"]))

             var += 1

         driver.quit()

     def get_issue_name(self):

         ''' 获取期刊号 '''

         return self.issue_name

     def get_music_list(self):

         ''' 获取音乐列表 '''

         return self.music_list

 class DownloadThread(threading.Thread):

     ''' 下载线程'''

     def __init__(self,dirname,name,url):

         super(DownloadThread,self).__init__()

         self.dirname = dirname

         self.name = name

         self.url = url

     def run(self):

         ''' 下载音乐 '''

         ABSPATH = os.path.dirname(os.path.realpath(__file__))

         DOWNDIR = os.path.join(os.path.join(ABSPATH,"Luoo"),"%s"%self.dirname)

         MUSICPATH = os.path.join(DOWNDIR,"%s.mp3"%self.name)

         try:

             os.mkdir(DOWNDIR)

         except:

             pass

         if not os.path.exists(MUSICPATH):

             urllib.urlretrieve(self.url, MUSICPATH)

             print "%s.mp3 was downloaded"%self.name

 for i in range(867,888):

     r = Luoo(i)

     name = r.get_issue_name()

     tds = []

     for j in r.get_music_list():

         tds.append(DownloadThread(name,j[0],j[1]))

     print "start download %s"%name

     for td in tds:

         td.start()

     for tj in tds:

         tj.join()

     print "%s download complate"%name

     print "========================="

 print "All have downloaded"

下载效果：

待改进的地方：

　　1、因为编码问题报错，文件名称用序号代替，需改为真实音乐名称。

==============================================================================

webdriver执行js代码，得到返回的值代码如下：

jscode = '''

            var img_src = $("img.vol-cover");

            return img_src.attr("src");

        '''

img_cover = driver.execute_script(jscode)

==============================================================================

　　爬虫只供参考

　　做个厚道的程序猿

　　别增加人家的服务器压力

==============================================================================

　　人生苦短，我用python！

selenium + phantomjs 爬取落网音乐的更多相关文章

Python3.x：Selenium+PhantomJS爬取带Ajax、Js的网页
Python3.x:Selenium+PhantomJS爬取带Ajax.Js的网页前言现在很多网站的都大量使用JavaScript,或者使用了Ajax技术.这样在网页加载完成后,url虽然不改变但 ...
selenium+phantomjs爬取京东商品信息
selenium+phantomjs爬取京东商品信息今天自己实战写了个爬取京东商品信息,和上一篇的思路一样,附上链接:https://www.cnblogs.com/cany/p/10897618. ...
selenium+phantomjs爬取bilibili
selenium+phantomjs爬取bilibili 首先我们要下载phantomjs 你可以到 http://phantomjs.org/download.html 这里去下载下载完之后解压到 ...
python+selenium+PhantomJS爬取网页动态加载内容
一般我们使用python的第三方库requests及框架scrapy来爬取网上的资源,但是设计javascript渲染的页面却不能抓取,此时,我们使用web自动化测试化工具Selenium+无界面浏览 ...
selenium + PhantomJS 爬取js页面
from selenium import webdriver import time _url="http://xxxxxxxx.com" driver = webdriver.P ...
Selenium+PhantomJs 爬取网页内容
利用Selenium和PhantomJs 可以模拟用户操作,爬取大多数的网站.下面以新浪财经为例,我们抓取新浪财经的新闻版块内容. 1.依赖的jar包.我的项目是普通的SSM单间的WEB工程.最后一个 ...
Python3.x：Selenium+PhantomJS爬取带Ajax、Js的网页及获取JS返回值
前言现在很多网站的都大量使用JavaScript,或者使用了Ajax技术.这样在网页加载完成后,url虽然不改变但是网页的DOM元素内容却可以动态的变化.如果处理这种网页是还用requests库或者 ...
看我怎么扒掉CSDN首页的底裤（python selenium+phantomjs爬取CSDN首页内容）
这里只是学习一下动态加载页面内容的抓取,并不适用于所有的页面. 使用到的工具就是python selenium和phantomjs,另外调试的时候还用了firefox的geckodriver.exe. ...
selenium+phantomjs爬取动态页面数据
1.安装selenium pip/pip3 install selenium 注意依赖关系 2.phantomjs for windows 下载地址:http://phantomjs.org/down ...

随机推荐

SILVERLIGHT 应急卫生模拟演练项目之GRID布局
上篇文章我介绍了LOADING界面 loading加载完成后会进入主界面效果图如下这里我要给大家说一下我在布局方面的应用说起布局做过SL开发的一定都知道 Grid,StackPanel和 ...
Java中的List操作
1. 数组转List String[] arr={"1","2","3"}; List<String> list = Array ...
jquery怎么获取radio选中的值
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
c语言数据结构之插入排序
算法:从第二个元素开始,与前一个元素进行比较,如果小于前一个元素,两者交换位置,一直循环到不再小为止编译器:VS2013 代码 #include "stdafx.h"#inclu ...
Enhanced Mitigation Experience Toolkit 软件安全性强化工具
Enhanced Mitigation Experience Toolkit软件是微软为应对互联网中层出不穷的漏洞而推出的一款安全工具,可以在Window Update未获取到补丁前,对系统进行保护. ...
修改oracle实例名orcl为demo
修改oracle实例名有六步: 1.sqlplus username/password as sysdba登陆,然后从spfile文件创建pfile文件 :create pfile from spfi ...
Hello Docker (Docker 入门分享)
Hello Docker 1 PPT @ http://download.csdn.net/download/liangread/9431056 TBD
android studio 中添加.so 文件
传送门: http://jingyan.baidu.com/article/e3c78d644baaf23c4d85f57d.html 注意在Build.gradle中添加的位置
wiseinstall 制做安装包小记
好久没写博客了..昨天未来的自己给自己托了个梦,说以后你肯定会忘了你今天白天是怎么制做安装包的,所以又来记录了..希望以后可以保持这个好习惯. 程序安装完后,可执行程序是 Wise32.exe 第一步 ...
NetflixOSS：Hollow正式发布
http://www.infoq.com/cn/articles/netflixoss-hollow-officially-released "如果你能非常有效地缓存一切 ,那么通 ...

selenium + phantomjs 爬取落网音乐

selenium + phantomjs 爬取落网音乐的更多相关文章

随机推荐

热门专题