实例学习——爬取豆瓣音乐TOP250数据

开发环境：（Windows）eclipse+pydev+MongoDB

豆瓣TOP网址：传送门

一、连接数据库

打开MongoDBx下载路径，新建名为data的文件夹，在此新建名为db的文件夹，db文件夹即用于存储数据

在bin路径下输入配置信息——>mongod --dbpath D:\MongoDB\data\db (此处为存储文件路径)

再打开新的命令行窗口，输入——>mongo

注意：启动服务的命令行窗口不要关闭

打开可视化管理工具Robomongo，点击Connections对话框，在右侧新建connect

保持默认设置，单击save，最后单击Connect即可连接到数据库

### 二、运行爬虫

# -*- coding:utf-8 -*-

import pymongo

from lxml import etree

import re

import requests

import time 

client =pymongo.MongoClient('localhost',27017)    #创建并连接数据库

mydb = client['mydb']

musictop = mydb['musictop']

headers = {'User=Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'}    #请求头

def get_url_music(url):                #获得详细url的函数

    html = requests.get(url, headers = headers)

    selector = etree.HTML(html.text)

    music_hrefs = selector.xpath('//a[@class="nbg"]/@href')

    for music_href in music_hrefs:

        get_music_info(music_href)

def get_music_info(url):               #获取详细信息的函数

    html = requests.get(url, headers=headers)

    selector = etree.HTML(html.text)

    name = selector.xpath('//*[@id="wrapper"]/h1/span/text()')[0]      #xpath

    author = re.findall('表演者:.*?>(.*?)</a>',html.text,re.S)[0]      #正则表达式

    styles = re.findall('<span class="pl">流派:</span>&nbsp;(.*?)<br/>',html.text,re.S)

    if len(styles)==0:

        style = '未知'

    else:

        style = styles[0].strip()

    time = re.findall('发行时间:</span>&nbsp;(.*?)<br/>',html.text,re.S)[0].strip()

    publishers = re.findall('出版者:.*?>(.*?)</a>',html.text,re.S)

    if len(publishers)==0:

        publisher = "未知"

    else:

        publisher = publishers[0].strip()

    score =selector.xpath('//*[@id="interest_sectl"]/div/div[2]/strong/text()')[0]

    print(name,author,style,time,publisher,score)

    info = {

        'name':name,

        'author':author,

        'style':style,

        'time':time,

        'publisher':publisher,

        'score':score,

        }

    musictop.insert_one(info)

if __name__=='__main__':             #主程序入口

    urls = ['https://music.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)]

    for url in urls:

        get_url_music(url)

        time.sleep(2)

成果展示：

获取author字段信息时，采用正则是因为各详细页中标签位置略有不同，若通过定位标签获取信息，一些详细页信息匹配可能出错。

“表演者”字段在网页源代码中的相对位置是一样，可考虑正则表达式获取信息。

流派、发行时间、出版者信息若用Xpath方式爬取，会数据杂乱，多个标签嵌套，甚至存在乱码符号。

实例学习——爬取豆瓣音乐TOP250数据的更多相关文章

实例学习——爬取豆瓣网TOP250数据
开发环境:(Windows)eclipse+pydev 网址:https://book.douban.com/top250?start=0 from lxml import etree #解析提取数据 ...
Python爬虫小白入门（七）爬取豆瓣音乐top250
抓取目标: 豆瓣音乐top250的歌名.作者(专辑).评分和歌曲链接使用工具: requests + lxml + xpath. 我认为这种工具组合是最适合初学者的,requests比pytho ...
爬取豆瓣音乐TOP250的数据
参考网址:https://music.douban.com/top250 因为详细页的信息更丰富,本次爬虫在详细页中进行,因此先爬取进入详细页的网址链接,进而爬取数据. 需要爬取的信息有:歌曲名.表演 ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
Python爬虫：现学现用xpath爬取豆瓣音乐
爬虫的抓取方式有好几种,正则表达式,Lxml(xpath)与BeautifulSoup,我在网上查了一下资料,了解到三者之间的使用难度与性能三种爬虫方式的对比. 这样一比较我我选择了Lxml(xpa ...
python2.7爬取豆瓣电影top250并写入到TXT，Excel，MySQL数据库
python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务爬取豆瓣电影top250 以txt文件保存以Excel文档保存将数据录入数据库 2.分析电影 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
python 爬虫&爬取豆瓣电影top250
爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml impor ...
【转】爬取豆瓣电影top250提取电影分类进行数据分析
一.爬取网页,获取需要内容我们今天要爬取的是豆瓣电影top250页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入主题吧! 知道我们需要的内容在哪里了, ...

随机推荐

Unity3D_(游戏)甜品消消乐02_游戏核心算法
甜品消消乐01_游戏基础界面传送门甜品消消乐02_游戏核心算法传送门甜品消消乐03_游戏UI设计传送门 GameManager脚本上修改Fill Time可以改变消消乐移动速度实现过 ...
idea为项目添加ignore文件忽略unversion的文件
最近初学Git,而且在使用的IDE是IntelliJ IDEA,发现IDEA在提交项目到本地仓库的时候,会把.idea文件夹中的内容也提交上去,这里面放的是一些项目的配置信息,包括历史记录,版本控制信 ...
C++入门经典-例6.18-数组的动态分配，动态获得斐波那契数列
1:有时在获得一定的信息之前,我们并不确定数组的大小.动态分配数组则可以使用变量作为数组的大小,使数组的大小符合我们的要求. 2:科普一下斐波纳契数列:斐波那契数列指的是这样一个数列 1, 1, 2, ...
2019Java第十三周课程总结
这周主要是学习了监听器还有制作记事本,主要可以由一下代码来体现监听器实验代码 package text12; import java.awt.Container; import java.awt. ...
DS博客大作业--树（陈梓灿组）
1.树的存储结构说明定义的结构体中,name是用于存放文件名称,string类型是字符串类型,定义了child孩子结点和brother兄弟结点. 2.树的函数说明 1.main函数 main函数中主 ...
函数-this
1.this. 解析器在调用函数的时候,每次都会向函数内部传递进一个隐含的参数(即this): this指向一个对象,这个对象称为函数执行的上下文对象.根据函数的调用方式的不同,this会指向不同的对 ...
Win10无法修改编辑hosts文件
Win10无法修改编辑hosts文件一.总结一句话总结: 这里我的问题是windows的某次更新中把hosts文件或者上级目录设置成了只读,在文件属性中去掉这个只读就好后文的操作相当于是给文件添 ...
OpenCV学习笔记(5)——颜色空间转换
学习如歌对图像进行颜色空间转换,从BGR到灰度图,或者从BGR到HSV等创建一个程序用来从一幅图像中获取某个特定颜色的物体 1.转换颜色空间 OpenCV中有超过150种进行颜色空间转化的方法,但是 ...
StringBuilder&StringBuffer 源码阅读
StringBuilder 和 StringBuffer StringBuilder 和 StringBuffer 都继承了 AbstractStringBuilder 类,所有实际的字符操作都在父类 ...
【Python】格式化输出json
参考文档: Python JSON JSON 函数使用 JSON 函数需要导入 json 库:import json. 函数描述 json.dumps 将 Python 对象编码成 JSON 字 ...

实例学习——爬取豆瓣音乐TOP250数据

一、连接数据库

实例学习——爬取豆瓣音乐TOP250数据的更多相关文章

随机推荐

热门专题