使用Xpath爬取酷狗TOP500的歌曲信息

　　使用xpath爬取酷狗TOP500的歌曲信息, 将排名、歌手名、歌曲名、歌曲时长，提取的结果以文件形式保存下来。参考网址：http://www.kugou.com/yy/rank/home/1-8888.html

　　大概步骤：谷歌F12打开开发者工具-->在Elements找到想爬取的信息-->右键Copy XPath（或是根据Network里Response的代码手动写出Xpath路径）-->对比这类信息的xpath，再定位并提取这类信息

　　注意：我们获取的Network里Response的代码，Elements的html代码是经过渲染的，仅供参考

import time

import json

import requests

from lxml import etree

def get_one_page(url):

    try:

        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}

        response = requests.get(url, headers=headers)

        response.encoding = response.apparent_encoding

        if response.status_code == 200:

            return response.text

        else:

            return None

        return None

    except RequestException:

        return None

def parse_one_page(text, id):

    html = etree.HTML(text)

    ranking = html.xpath('//*[@id="rankWrap"]/div[2]/ul/li/span[3]//text()')

    #top3的text()文本信息在strong标签下，是span的子孙节点，所以用//

    title = html.xpath('//*[@id="rankWrap"]/div[2]/ul/li/@title')

    length = html.xpath('//*[@id="rankWrap"]/div[2]/ul/li/span[4]/span/text()')

    if (id == 1):

        ranking = [i for i in ranking if i.strip() != '']

    #去除第一页提取到的空白信息

    for i in range(len(length)):

        yield {

            'ranking': ranking[i].strip(),

            'singer': title[i].split('-')[0].strip(),

            #以-分割，取第0个，并去除首尾空白

            'song': title[i].split('-')[1].strip(),

            'length': length[i].strip()

        }

def write_to_file(content):

    with open('kugou.txt', 'a', encoding='utf-8') as f:

        f.write(json.dumps(content, ensure_ascii=False) + '\n')

        #ensure_ascii=False不为acsii码，为中文

def main(id):

    url = "http://www.kugou.com/yy/rank/home/" + str(id) + "-8888.html"

    text = get_one_page(url)

    for item in parse_one_page(text, id):

        print(item)

        write_to_file(item)

if __name__ == '__main__':

    for id in range(1,24):

        main(id)

        time.sleep(1)

使用Xpath爬取酷狗TOP500的歌曲信息的更多相关文章

【Python】【爬虫】爬取酷狗TOP500
好啦好啦,那我们来拉开我们的爬虫之旅吧~~~ 这一只小爬虫是爬取酷狗TOP500的,使用的爬取手法简单粗暴,目的是帮大家初步窥探爬虫长啥样,后期会慢慢变得健壮起来的. 环境配置在此之前需要下载一个谷 ...
爬虫实例学习——爬取酷狗TOP500数据
酷狗网址:https://www.kugou.com/yy/rank/home/1-8888.html?from=rank 环境:eclipse+pydev import requests from ...
Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码)
在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天 ...
python使用beautifulsoup4爬取酷狗音乐
声明:本文仅为技术交流,请勿用于它处. 小编经常在网上听一些音乐但是有一些网站好多音乐都是付费下载的正好我会点爬虫技术,空闲时间写了一份,截止4月底没有问题的,会下载到当前目录,只要按照bs4库就好, ...
python爬取酷狗音乐排行榜
本文为大家分享了python爬取酷狗音乐排行榜的具体代码,供大家参考,具体内容如下
Python爬取酷狗飙升榜前十首（100）首，写入CSV文件
酷狗飙升榜,写入CSV文件爬取酷狗音乐飙升榜的前十首歌名.歌手.时间,是一个很好的爬取网页内容的例子,对爬虫不熟悉的读者可以根据这个例子熟悉爬虫是如何爬取网页内容的. 需要用到的库:requests ...
使用scrapy 爬取酷狗音乐歌手及歌曲名并存入mongodb中
备注还没来得及写,共爬取八千多的歌手,每名歌手平均三十首歌曲算,大概二十多万首歌曲 run.py #!/usr/bin/env python # -*- coding: utf-8 -*- __aut ...
python爬取酷狗音乐
url:https://www.kugou.com/yy/html/rank.html 我们随便访问一个歌曲可以看到url有个hash https://www.kugou.com/song/#hash ...
爬去酷狗top500的数据
import requests from bs4 import BeautifulSoup import time headers={ #'User-Agent':'Nokia6600/1.0 (3. ...

随机推荐

AJAX传输图片文件
AJAX传输例:const xhr = new XMLHttpRequest(); // 此方法因为状态改变被调用多次,实测执行三次(1->2->4) xhr.onreadystatec ...
意法半导体STM32MP157A MPU加持，米尔科技首款ST Linux开发板MYD-YA157C评测
ST公司去年推出了MPU系列芯片,MPU系列不同于以往产品,它既包含有ARM公司Cortex M 单片机核心,也包含有ARM公司Cortex A 应用处理器核心,以期将STM32单片机产品优势扩展到更 ...
oracle数据库重要的查询语句
查看所有数据文件(dbf文件)的存放位置 SQL> select name from v$datafile; 标红色的为默认表空间文件 SQL> select name from v$da ...
OpenJDK 64-Bit Server VM warning: INFO: os::commit_memory(0x00000000c0000000, 1073741824, 0) failed; error='Out of memory' (errno=12)
使用docker 安装kafka时启动失败查看报错日志 # docker logs --since 30m 71846a96e514 Excluding KAFKA_HOME from broker ...
UML之二、建模元素（1）
本章介绍UML建模元素 1:Stereotype-也被称为类型.构造型 UML里的元素扩展,简单来说其功能就是在已有的类型上添加一些标记,类似于打个戳,从而生成新的东西. 简单的说加一句话来更加清楚准 ...
redis 5.0.7 源码阅读——字典dict
redis中字典相关的文件为:dict.h与dict.c 与其说是一个字典,道不如说是一个哈希表. 一.数据结构 dictEntry typedef struct dictEntry { void * ...
k8s强制删除pod
有时候pod一直在Terminating kubectl delete pod xxx --force --grace-period=
css的三种导入方式
内联样式表 <p style="font-size:50px; color:blue">css内联样式表</p> 内部样式表 <style type= ...
BUUCTF 部分wp
目录 Buuctf crypto 0x01传感器提示是曼联,猜测为曼彻斯特密码 wp:https://www.xmsec.cc/manchester-encode/ cipher: 55555555 ...
tomcat虚拟路径的配置方法
方式一: 将web项目配置到webapps以外的目录在conf/server.xml中配置,找到<host>标签,<Content docBase="E:\yqs\Jsp ...

使用Xpath爬取酷狗TOP500的歌曲信息

使用Xpath爬取酷狗TOP500的歌曲信息的更多相关文章

随机推荐

热门专题