selenium和phantomjs,完成豆瓣音乐排行榜的内容爬取

代码要多敲注释要清晰哪怕再简单

#使用selenium和phantomjs,完成豆瓣音乐排行榜的内容爬取

#地址：https://music.douban.com/chart

#导入需要的模块

from selenium import webdriver

import os

from lxml import etree

import time

from bs4 import BeautifulSoup

#生成浏览器对象

driver = webdriver.PhantomJS()

#创建文件夹存储music信息

root_dir = 'douban_music'

if not os.path.exists(root_dir):

    os.mkdir(root_dir)

#抓取页面函数

def spider():

    base_url = 'https://music.douban.com/chart'

    #用浏览器获取网页

    driver.get(base_url)

    #等待页面加载

    time.sleep(4)

    # 获取页面资源

    content = driver.page_source

    # print(content)

    #在解析函数中解析页面元素

    content_parser(content)

def content_parser(content):

    # 用xpath解析得到的页面资源  将content生成树结构

    tree = etree.HTML(content)

    # print(tree)

    #拿取所有的歌曲列表

    music_list = tree.xpath('//ul[@class="col5"]/li[@class="clearfix"]')

    #遍历所有的歌曲列表

    for music in music_list:

        #拿取歌曲排名

        music_ranking = music.xpath('.//span[@class="green-num-box"]')

        #判断歌曲排名是否是非空

        if music_ranking != []:

            #获取歌曲排名文本信息

            music_ranking = music_ranking[0].text

        #拿取图片信息链接

        music_src = music.xpath('./a/img/@src')

        if music_src != []:

            music_src = music_src[0]

        #拿取歌曲名称

        music_name = music.xpath('./div/h3/a')

        if music_name != []:

            music_name = music_name[0].text

        else:

            #有一部分歌曲名的xpath路径不一样

            music_name = music.xpath('./div/p/a')[0].text

        #拿取singer歌手名称以及播放次数

        singer = music.xpath('./div/p')

        # print(list(singer))

        if singer != []:

            #歌手没有全部拿取

            singer = singer[0].text

        #拿取上榜天数

        music_days = music.xpath('./span')

        # 趋势

        music_trend = music_days[2].text

        if music_days != []:

            music_days = music_days[1].text

        #打印所有拿取到的歌曲信息

        print(music_ranking,music_src,music_name,singer,music_days,music_trend)

#主进程

if __name__ == '__main__':

    spider()

'''

music:

<ul class="col5">

    <li class="clearfix">

        <span class="green-num-box">1</span>

        <a class="face" href="https://site.douban.com/baishui/" target="_blank">

            <img src="https://img3.doubanio.com/view/site/small/public/1aa014ef81b271d.jpg">

        </a>

        <div class="intro">

            <h3 class="icon-play" data-sid="721211">

              <a href="javascript:;">另一首情歌 (feat. 袁田)</a>

            </h3>

            <p>白水&nbsp;/&nbsp;5748次播放</p>

        </div>

        <span class="days">(上榜11天)</span>

        <span class="trend arrow-stay"> 0 </span>

    </li>

</ul>

'''

selenium和phantomjs,完成豆瓣音乐排行榜的内容爬取的更多相关文章

Pyhton网络爬虫实例_豆瓣电影排行榜_Xpath方法爬取
-----------------------------------------------------------学无止境------------------------------------- ...
Pyhton网络爬虫实例_豆瓣电影排行榜_BeautifulSoup4方法爬取
-----------------------------------------------------------学无止境------------------------------------- ...
selenium在爬虫中的应用之动态数据爬取
一.selenium概念 selenium 是一个基于浏览器自动化的模块 selenium爬虫之间的关联: 1.便捷的获取动态加载的数据 2.实现模拟登录基本使用 pip install selen ...
selenium配合phantomjs实现爬虫功能，并把抓取的数据写入excel
# -*- coding: UTF-8 -*- ''' Created on 2016年5月13日 @author: csxie ''' import datetime from Base impor ...
豆瓣电影排行简单数据爬取_pyhton
先安装一下requests和bs4库: cmd下面:python -m pip install bs4 -i https://pypi.douban.com/simple 代码: import req ...
Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)
1. 爬虫设计的技术 1)数据获取,通过http获取网站的数据,如urllib,urllib2,requests等模块: 2)数据提取,将web站点所获取的数据进行处理,获取所需要的数据,常使用的技 ...
Python selenium+phantomjs的js动态爬取
Selenium是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE.Mozilla Firefox.Chrome等.Phanto ...
python爬虫:了解JS加密爬取网易云音乐
python爬虫:了解JS加密爬取网易云音乐前言大家好,我是"持之以恒_liu",之所以起这个名字,就是希望我自己无论做什么事,只要一开始选择了,那么就要坚持到底,不管结果如何 ...
python+selenium+xpath 爬取天眼查工商基本信息
# -*- coding:utf-8 -*-# author: kevin# CreateTime: 2018/8/16# software-version: python 3.7 import ti ...

随机推荐

推荐一个 Java 里面比较牛逼的公众号！
今天给大家推荐一个牛逼的纯 Java 技术公众号:Java技术栈,作者:栈长. Java程序员.Java爱好者扫码关注吧! 确实牛逼,几十万人关注了,原创文章350+,好友都 3000+ 关注了. 栈 ...
[Codeforces 639F] Bear and Chemistry (Tarjan+虚树)(有详细注释)
[Codeforces 639F] Bear and Chemistry(Tarjan+虚树) 题面给出一个n个点,m条边的无向图(不保证连通,可能有自环和重边),有q次询问,每次询问给出p个点和q ...
P4126 [AHOI2009]最小割（网络流+tarjan）
P4126 [AHOI2009]最小割边$(x,y)$是可行流的条件: 1.满流:2.残量网络中$x,y$不连通边$(x,y)$是必须流的条件: 1.满流:2.残量网络中$x,S$与$y,T$分别 ...
Go语言_流程控制语句：for、if、else、switch 和 defer
流程控制语句:for.if.else.switch 和 defer 学习如何使用条件.循环.分支和推迟语句来控制代码的流程. Go 作者组编写,Go-zh 小组翻译. https://go-zh.or ...
Linux拷贝、移动、删除
cp:拷贝文件或文件夹(copy) - cp original_filename copy_filename(在当前目录生成拷贝文件,并改名为copy_filename) - cp original_ ...
【记录】mysql 查看某数据库各个表容量大小SQL
有时候我们可能需要了解数据库中各个表的容量及大小,好了解数据库情况. 现只需要一条SQL就可以直观的展示出来. SELECT table_schema AS '数据库', table_name AS ...
Elastic Search快速入门
https://blog.csdn.net/weixin_42633131/article/details/82902812 通过这个篇文章可以快速入门,快速搭建一个elastic search de ...
better-scroll 的使用
1.安装 cnpm install better-scroll --save 2.引入 import BScroll from "better-scroll"; 3.初始化 dat ...
jmeter 参数化5_Count 计数器
如果需要引用的数据量较大,且要求不能重复或者需要自增,那么可以使用计数器来实现. 计数器(counter):允许用户创建一个在线程组之内都可以被引用的计数器. 计数器允许用户配置一个起点,一个最大值, ...
ftp 上传文件时报 cant open output connection for file "ftp://129.28.149.240/shop/web/index.html". Reason: "550 Permission denied.".
原因:没有写入权限修改权限即可 vsftpd.conf vim /etc/vsftpd.conf write_enable=YES #加入这句

selenium和phantomjs,完成豆瓣音乐排行榜的内容爬取

selenium和phantomjs,完成豆瓣音乐排行榜的内容爬取的更多相关文章

随机推荐

热门专题