使用Xpath爬取酷狗TOP500的歌曲信息

　　使用xpath爬取酷狗TOP500的歌曲信息, 将排名、歌手名、歌曲名、歌曲时长，提取的结果以文件形式保存下来。参考网址：http://www.kugou.com/yy/rank/home/1-8888.html

　　大概步骤：谷歌F12打开开发者工具-->在Elements找到想爬取的信息-->右键Copy XPath（或是根据Network里Response的代码手动写出Xpath路径）-->对比这类信息的xpath，再定位并提取这类信息

　　注意：我们获取的Network里Response的代码，Elements的html代码是经过渲染的，仅供参考

import time

import json

import requests

from lxml import etree

def get_one_page(url):

    try:

        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}

        response = requests.get(url, headers=headers)

        response.encoding = response.apparent_encoding

        if response.status_code == 200:

            return response.text

        else:

            return None

        return None

    except RequestException:

        return None

def parse_one_page(text, id):

    html = etree.HTML(text)

    ranking = html.xpath('//*[@id="rankWrap"]/div[2]/ul/li/span[3]//text()')

    #top3的text()文本信息在strong标签下，是span的子孙节点，所以用//

    title = html.xpath('//*[@id="rankWrap"]/div[2]/ul/li/@title')

    length = html.xpath('//*[@id="rankWrap"]/div[2]/ul/li/span[4]/span/text()')

    if (id == 1):

        ranking = [i for i in ranking if i.strip() != '']

    #去除第一页提取到的空白信息

    for i in range(len(length)):

        yield {

            'ranking': ranking[i].strip(),

            'singer': title[i].split('-')[0].strip(),

            #以-分割，取第0个，并去除首尾空白

            'song': title[i].split('-')[1].strip(),

            'length': length[i].strip()

        }

def write_to_file(content):

    with open('kugou.txt', 'a', encoding='utf-8') as f:

        f.write(json.dumps(content, ensure_ascii=False) + '\n')

        #ensure_ascii=False不为acsii码，为中文

def main(id):

    url = "http://www.kugou.com/yy/rank/home/" + str(id) + "-8888.html"

    text = get_one_page(url)

    for item in parse_one_page(text, id):

        print(item)

        write_to_file(item)

if __name__ == '__main__':

    for id in range(1,24):

        main(id)

        time.sleep(1)

使用Xpath爬取酷狗TOP500的歌曲信息的更多相关文章

【Python】【爬虫】爬取酷狗TOP500
好啦好啦,那我们来拉开我们的爬虫之旅吧~~~ 这一只小爬虫是爬取酷狗TOP500的,使用的爬取手法简单粗暴,目的是帮大家初步窥探爬虫长啥样,后期会慢慢变得健壮起来的. 环境配置在此之前需要下载一个谷 ...
爬虫实例学习——爬取酷狗TOP500数据
酷狗网址:https://www.kugou.com/yy/rank/home/1-8888.html?from=rank 环境:eclipse+pydev import requests from ...
Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码)
在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天 ...
python使用beautifulsoup4爬取酷狗音乐
声明:本文仅为技术交流,请勿用于它处. 小编经常在网上听一些音乐但是有一些网站好多音乐都是付费下载的正好我会点爬虫技术,空闲时间写了一份,截止4月底没有问题的,会下载到当前目录,只要按照bs4库就好, ...
python爬取酷狗音乐排行榜
本文为大家分享了python爬取酷狗音乐排行榜的具体代码,供大家参考,具体内容如下
Python爬取酷狗飙升榜前十首（100）首，写入CSV文件
酷狗飙升榜,写入CSV文件爬取酷狗音乐飙升榜的前十首歌名.歌手.时间,是一个很好的爬取网页内容的例子,对爬虫不熟悉的读者可以根据这个例子熟悉爬虫是如何爬取网页内容的. 需要用到的库:requests ...
使用scrapy 爬取酷狗音乐歌手及歌曲名并存入mongodb中
备注还没来得及写,共爬取八千多的歌手,每名歌手平均三十首歌曲算,大概二十多万首歌曲 run.py #!/usr/bin/env python # -*- coding: utf-8 -*- __aut ...
python爬取酷狗音乐
url:https://www.kugou.com/yy/html/rank.html 我们随便访问一个歌曲可以看到url有个hash https://www.kugou.com/song/#hash ...
爬去酷狗top500的数据
import requests from bs4 import BeautifulSoup import time headers={ #'User-Agent':'Nokia6600/1.0 (3. ...

随机推荐

2019IT运维大会上海站智和信通解析等保2.0支撑
2019IT运维大会上海站智和信通解析等保2.0支撑 2019年11月14日上午8:30-12:10,上海锦荣国际大酒店二层锦荣厅
【二】、UML基础知识——图图解乾坤
[二].UML基础知识 UML概述 UML是一个通用的可视化建模语言,不同于编程语言,它通过一些标准的图形符号和文字来对系统进行建模.用于对软件进行描述.可视化处理.构建软件系统的文档.是一套总结了以 ...
复杂系统架构设计<1>
这两天开始读由Edward Crawley(爱德华克劳利).Bruce Cameron(布鲁斯卡梅隆).Daniel Selva(丹尼尔塞尔瓦)著作的系统架构,一开始看目录以为是介绍系统软件架构 ...
Mac下升级ruby至最新版本
Mac自身的ruby 版本 2.x,通过ruby -v可以查看版本号. 为更新到ruby的最新版本,可通过以下命令解决: brew update brew install ruby 执行完命令后,ru ...
python随用随学20200221-生成器中的send(),throw()和close()方法
send()方法文档定义 generator.send(value) Resumes the execution and "sends" a value into the gen ...
使用十年的电脑在家用记事本调试 .NET 程序
引言春节放假回老家,没有把笔记本电脑带上,由于肺炎疫情的原因只能呆在家里,写的一个WinForm程序无法正常使用,需要及时修复,看我如何使用家里十年的台式机来调试修复 .NET 应用程序. WinF ...
Openshift V3系列各组件版本
Openshift V3.* 系列各组件版本 Components 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.9 3.10 3.11 Core Components dock ...
MySQL 的一条语句是怎么执行的
该文为< MySQL 实战 45 讲>的学习笔记,感谢查看,如有错误,欢迎指正一.MySQL 的基础架构以下就是 MySQL 的基础架构图. 在 Linux 中安装 MySQL 时,最 ...
Linux学习记录(一)：常用命令
此篇文章为博主在Linux学习过程中的一些记录,记录在此方便查阅. 常用命令总结 ls 显示目录内容 (list directory contents) ls 不显示隐藏的文件和子目录 ls -a 显 ...
IDEA安装Flutter遇到的坑
环境: ①IDEA2019.3.3 ②JAVA12 ③Android-SDK29.0.3 ④Flutter1.14.6 ⑤WINDOWS10.0.18363.657 ⑥AL10实体机,Android8 ...

使用Xpath爬取酷狗TOP500的歌曲信息

使用Xpath爬取酷狗TOP500的歌曲信息的更多相关文章

随机推荐

热门专题