Python爬虫小白入门（七）爬取豆瓣音乐top250

抓取目标：

豆瓣音乐top250的歌名、作者（专辑）、评分和歌曲链接

使用工具：

requests + lxml + xpath。

我认为这种工具组合是最适合初学者的，requests比python自带的urllib库好用，功能更强大。关于requests的使用方法，建议看它的官方文档：

http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

使用lxml来解析网页，速度是最快的，至少比BeatifulSoup快。关于lxml的使用方法，建议看这个：

http://lxml.de/

而xpath更是傻白甜的使用方式：直接在浏览器中复制即可，如果想要掌握xpath更具体的语法，建议看w3school的xpath教程：

http://www.w3school.com.cn/xpath/

首先目标url是： https://music.douban.com/top250?start=0

image.png

点击下一页，我们多观察几个页面的url：

image.png

我们会发现url的start=是以25的倍数增长的，起始为start=0，然后是start=25，每页25首音乐，一共十页。

所以，我们可以使用一个for循环来得出这十个页面的url：

for i in range(10):

    # 一共有10个页面，每个页面25首音乐

    url = "https://music.douban.com/top250?start={}".format(i * 25)

关于format()函数的使用方法，可以看菜鸟教程上的讲解：

http://www.runoob.com/python/att-string-format.html

关于range()函数的使用方法，可以看菜鸟教程上的讲解：

http://www.runoob.com/python/python-func-range.html

然后我们使用requests.get()来进行网页请求：

import requests

headers = {"User_Agent": "Mozilla/5.0(compatible; MSIE 5.5; Windows 8)"}

data = requests.get(url, headers=headers).text

使用lxml来解析网页：

from lxml import etree

s = etree.HTML(data)

接下来我们开始提取数据，打开目标页面，将每首音乐的完整信息的xpath信息复制下来：

image.png

重复这样的操作，多复制几首音乐的xpath信息，观察它的规律：

//*[@id="content"]/div/div[1]/div/table[1]

//*[@id="content"]/div/div[1]/div/table[2]

//*[@id="content"]/div/div[1]/div/table[3]

这样子规律就很明显了，每首音乐就是table后的序号不同。只要我们将序号去掉，就可以提取所有音乐的全部信息了：

# 歌曲整体的xpath

musics = s.xpath('//*[@id="content"]/div/div[1]/div/table')

我们再使用同样的方法来获取歌名的xpath信息：

image.png

多复制几个歌名信息的xpath来对比一下：

# 歌名的xpath

# //*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/a

# //*[@id="content"]/div/div[1]/div/table[2]/tbody/tr/td[2]/div/a

这是注意一下，上面的xpath路径中，/tbody是多余的，我们要将其删掉，不然会出错，所以，有时候直接在浏览器复制xpath信息也不一定靠谱，这里要注意一下。

这样我们就可以提取出每首歌的歌名：

for music in musics:

    music_name = music.xpath('./tr/td[2]/div/a/text()')[0].strip()

如果不加[0]，我们得到的结果将是一个list类型，每个结果都被中括号[]裹起来，比较碍眼，所以使用[0]取出list的第一个值就可以了。strip()函数可以去除多余的空格。

还有，音乐的链接和名字的xpath路径是相同的，只是一个取href值，一个取text值。
所以每首歌的链接如下：

for music in musics:

    music_name = music.xpath('./tr/td[2]/div/a/@href')[0]

我们再使用同样的方法复制作者（专辑）的xpath信息：

image.png

多复制几个作者的xpath信息来对比一下：

# //*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/p[1]

# //*[@id="content"]/div/div[1]/div/table[2]/tbody/tr/td[2]/div/p[1]

同样要将/tbody从xpath路径中删掉，这样我们可以提取到每首歌的作者信息：

for music in musics:

    music_author = music.xpath('./tr/td[2]/div/p[1]/text()')[0].strip()

我们还使用同样的方法复制评分的xpath信息：

image.png

多复制几个评分的xpath信息来对比一下：

# //*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/div/span[2]

# //*[@id="content"]/div/div[1]/div/table[2]/tbody/tr/td[2]/div/div/span[2]

同理，我们就可以提取出每首歌的评分了：

for music in musics:

    music_score = music.xpath('./tr/td[2]/div/div/span[2]/text()')[0]

到现在，我们已经获取了我们想要的所有信息。现在来整合一下代码，存储为TXT文件：

import requests

from lxml import etree

import time

with open("豆瓣音乐top250.txt", "w", encoding="utf-8") as f:

    for i in range(10):

        # 一共有10个页面，每个页面25首音乐

        url = "https://music.douban.com/top250?start={}".format(i * 25)

        headers = {"User_Agent": "Mozilla/5.0(compatible; MSIE 5.5; Windows 8)"}

        data = requests.get(url, headers=headers).text

        s = etree.HTML(data)                       

        # 歌曲整体的xpath

        musics = s.xpath('//*[@id="content"]/div/div[1]/div/table')

        time.sleep(2)                  

        for music in musics:

            music_name = music.xpath('./tr/td[2]/div/a/text()')[0].strip()  # 歌名

            music_author = music.xpath('./tr/td[2]/div/p[1]/text()')[0].strip()  # 作者

            music_score = music.xpath('./tr/td[2]/div/div/span[2]/text()')[0]  # 评分

            music_href = music.xpath('./tr/td[2]/div/a/@href')[0]  # 链接

            f.write("{} {} {} {}\n".format(music_name, music_author, music_score, music_href))

如上，一共23行代码。

爬取结果如下：

image.png

本来我想存为CSV文件的，结果发现有的歌曲有多个歌手，而且几个歌手之间是用逗号(，)分开的，这就和CSV中的逗号产生了混淆，导致结果比较错乱。

好吧，我暂时不知道存为CSV格式时，怎样消除其本身携带的逗号产生的影响。

当然，同样的爬取思路，我们还可以爬取豆瓣电影top250、豆瓣图书top250。只需要将url和xpath路径修改一下就可以了。

每天学习一点点，每天进步一点点。

Python爬虫小白入门（七）爬取豆瓣音乐top250的更多相关文章

Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...
Python爬虫之利用BeautifulSoup爬取豆瓣小说（一）——设置代理IP
自己写了一个爬虫爬取豆瓣小说,后来为了应对请求不到数据,增加了请求的头部信息headers,为了应对豆瓣服务器的反爬虫机制:防止请求频率过快而造成“403 forbidden”,乃至封禁本机ip的情况 ...
python爬虫：利用正则表达式爬取豆瓣读书首页的book
1.问题描述: 爬取豆瓣读书首页的图书的名称.链接.作者.出版日期,并将爬取的数据存储到Excel表格Douban_I.xlsx中 2.思路分析: 发送请求--获取数据--解析数据--存储数据 1.目 ...
Python爬虫实战一之爬取QQ音乐
一.前言前段时间尝试爬取了网易云音乐的歌曲,这次打算爬取QQ音乐的歌曲信息.网易云音乐歌曲列表是通过iframe展示的,可以借助Selenium获取到iframe的页面元素, 而QQ音乐采用的是 ...
Python爬虫使用lxml模块爬取豆瓣读书排行榜并分析
上次使用了BeautifulSoup库爬取电影排行榜,爬取相对来说有点麻烦,爬取的速度也较慢.本次使用的lxml库,我个人是最喜欢的,爬取的语法很简单,爬取速度也快. 本次爬取的豆瓣书籍排行榜的首页地 ...
Scrapy爬虫（4）爬取豆瓣电影Top250图片
在用Python的urllib和BeautifulSoup写过了很多爬虫之后,本人决定尝试著名的Python爬虫框架--Scrapy. 本次分享将详细讲述如何利用Scrapy来下载豆瓣电影To ...
实例学习——爬取豆瓣音乐TOP250数据
开发环境:(Windows)eclipse+pydev+MongoDB 豆瓣TOP网址:传送门一.连接数据库打开MongoDBx下载路径,新建名为data的文件夹,在此新建名为db的文件夹,d ...
爬取豆瓣音乐TOP250的数据
参考网址:https://music.douban.com/top250 因为详细页的信息更丰富,本次爬虫在详细页中进行,因此先爬取进入详细页的网址链接,进而爬取数据. 需要爬取的信息有:歌曲名.表演 ...
Python爬虫之利用BeautifulSoup爬取豆瓣小说（二）——回车分段打印小说信息
在上一篇文章中,我主要是设置了代理IP,虽然得到了相关的信息,但是打印出来的信息量有点多,要知道每打印一页,15个小说的信息全部会显示而过,有时因为屏幕太小,无法显示全所有的小说信息,那么,在这篇文章 ...

随机推荐

DP+容斥 BZOJ1042
1042: [HAOI2008]硬币购物 Time Limit: 10 Sec Memory Limit: 162 MBSubmit: 2558 Solved: 1539[Submit][Stat ...
java——assert(断言)方法
包:org.junit.Assert; assertEqual(a,b,[msg='测试失败时打印的信息']): 断言a和b是否相等,相等则测试用例通过. assertNotEqual(a,b,[ms ...
java——引入第三方jar包
第一步:项目->New->Folder:创建一个文件夹: 第二步:把要引入的jar包粘贴到新建的文件夹中: 第三步:选中引入的jar包->Build Path->Add to ...
001_C语言中运算符的优先级
总的来说就是: 1. 最高:单目运算符(() > * 解引用,&取地址,-取相反数,++等自增(或减)运算,!取反运算...); 2. 次之:双目运算符(算数运算符 > 移位运算符 ...
OpenResty应用实践
一. 安装OpenResty 创建OpenResty用户 # useradd -M www -s /usr/sbin/nologin 安装OpenResty # apt-get install lib ...
[COCOS2DX-LUA]0-005.cocos2dx中关于全面屏和折叠屏的适配的一些见解
1.随着科技的发展,我们可以看到从iphoneX的刘海屏开始,引发了各种全面屏和异形屏的出现.这是科技的进步,但是对于各大的应用厂商来说,苦不堪言. 2.当然 ,吐槽归吐槽,我们还是要理智的去对待这个 ...
Charles截获iPhone网络请求
Charles介绍:Charles是在Mac下常用的截取网络封包的工具,在做iOS开发时,有时为了调试与服务器端的网络通讯协议,常常需要服务端原因一起调试.有了Charles客户端人员自娱自乐了,想怎 ...
[SD心灵鸡汤]004.每月一则 - 2015.08
1.事常与人违,事总在人为. 2.骏马是跑出来的,强兵是打出来的. 3.驾驭命运的舵是奋斗.不抱有一丝幻想,不放弃一点机会,不停止一日努力. 4.如果惧怕前面跌宕的山岩,生命就永远只能是死水一潭. 5 ...
python 03—字符串分割
字符串分割例:sentenc = "I am an Englist sentenc" sentence.split() split()把字符串按照空格进行分割,所以得到的结果是 ...
多线程与RunLoop
iOS开发中的多线程一个iOS程序,默认开启1条线程--主线程orUI线程主线程主要作用: 显示/刷新UI界面处理UI事件(点击.滚动.拖拽事件等) 主线程使用注 ...

Python爬虫小白入门（七）爬取豆瓣音乐top250

Python爬虫小白入门（七）爬取豆瓣音乐top250的更多相关文章

随机推荐

热门专题