爬虫实例学习——爬取酷狗TOP500数据

酷狗网址：https://www.kugou.com/yy/rank/home/1-8888.html?from=rank

环境：eclipse+pydev

 import requests

 from bs4 import BeautifulSoup

 import time

 headers ={

     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36 QIHU 360EE'

           }    #加入请求头，伪装成浏览器，以便更好抓取数据

 def get_info(url):           #定义获取信息的函数

     wb_data = requests.get(url,headers = headers)

     soup = BeautifulSoup(wb_data.text,'lxml')

     ranks = soup.select('span.pc_temp_num')                     #selet()方法见下面图示

     titles = soup.select('#rankWrap > div.pc_temp_songlist > ul > li > a')

     times = soup.select('span.pc_temp_tips_r > span')

     for rank,title,time in zip(ranks,titles,times):

         data = {

             'rank':rank.get_text().strip(),                #歌曲序号

             'singer':title.get_text().split('-')[0],       #歌手名称

             'song':title.get_text().split('-')[1],         #歌曲名称

             'time':time.get_text().strip()                 #歌曲时长

         }

         print (data)     

 if __name__ == '__main__':                #程序主入口

     urls = ['https://www.kugou.com/yy/rank/home/{}-8888.html?from=rank'.format(str(i)) for i in range(1,24)]            #构建多页url，500条结果需23组，每页网页22条

     for url in urls:

         get_info(url)

         time.sleep(1)            #暂停程序，避免因提交网页请求频率过快而导致程序异常终止

请求头获取方式：打开chrome浏览器，输入chrome://version，添加时加上‘User-Agent’:即可（获得信息应置于' '中）。

select()使用方法:该方法类似于中国>广东省>惠州市，从大到小，提取信息，可通过chrome复制得到，如图示：

注意：将li:nth-of-child(1)改为li

运行结果：

爬虫实例学习——爬取酷狗TOP500数据的更多相关文章

【Python】【爬虫】爬取酷狗TOP500
好啦好啦,那我们来拉开我们的爬虫之旅吧~~~ 这一只小爬虫是爬取酷狗TOP500的,使用的爬取手法简单粗暴,目的是帮大家初步窥探爬虫长啥样,后期会慢慢变得健壮起来的. 环境配置在此之前需要下载一个谷 ...
使用Xpath爬取酷狗TOP500的歌曲信息
使用xpath爬取酷狗TOP500的歌曲信息, 将排名.歌手名.歌曲名.歌曲时长,提取的结果以文件形式保存下来.参考网址:http://www.kugou.com/yy/rank/home/1-888 ...
【Python】【爬虫】爬取酷狗音乐网络红歌榜
原理:我的上篇博客 import requests import time from bs4 import BeautifulSoup def get_html(url): ''' 获得 HTML ' ...
Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码)
在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天 ...
python使用beautifulsoup4爬取酷狗音乐
声明:本文仅为技术交流,请勿用于它处. 小编经常在网上听一些音乐但是有一些网站好多音乐都是付费下载的正好我会点爬虫技术,空闲时间写了一份,截止4月底没有问题的,会下载到当前目录,只要按照bs4库就好, ...
Python爬取酷狗飙升榜前十首（100）首，写入CSV文件
酷狗飙升榜,写入CSV文件爬取酷狗音乐飙升榜的前十首歌名.歌手.时间,是一个很好的爬取网页内容的例子,对爬虫不熟悉的读者可以根据这个例子熟悉爬虫是如何爬取网页内容的. 需要用到的库:requests ...
python爬取酷狗音乐排行榜
本文为大家分享了python爬取酷狗音乐排行榜的具体代码,供大家参考,具体内容如下
python爬虫项目-爬取雪球网金融数据（关注、持续更新）
(一)python金融数据爬虫项目爬取目标:雪球网(起始url:https://xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_ ...
初识python 之爬虫：爬取中国天气网数据
用到模块: 获取网页并解析:import requests,html5lib from bs4 import BeautifulSoup 使用pyecharts的Bar可视化工具"绘制图表& ...

随机推荐

2、dubbo基础知识
1.简介 2.dubbo架构 3.dubbo环境搭建注意:cmd命令都是在bin目录的地址栏直接输入 xxx.cmd 4.配置dubbo-admin 步骤一: 步骤二: 步骤三: 步骤四: 步骤五: ...
Eclipse在线安装插件进度缓慢问题
最近在学习Maven的过程中需要安装m2e 插件,在线安装的缓慢速度实在是让人抓狂,故将自己最后的解决方案记录下来,以供其他人参考. 最终的原因是安装时同时检查更新了其他插件的最新版,所以安装插件时注 ...
php phpexcel 读取excel文件数据
public function readExcel(){ $allPath = '/home/examine\video/list.xls'; \think\Loader::import('exten ...
redis复制集
应用场景:复制集作用的场景问题: 1.解决单点故障 2.读写分离 1.准备两台redis服务器 a) 一台做为注服务器,一台做为从服务器 b) 在从服务器中的redis.conf文件中添加 repli ...
Java编写能完成复数运算的程序
Java编写能完成复数运算的程序题目简介: 整体分析: 界面分析: 实验代码: package complex; import java.awt.EventQueue; import javax.s ...
selenium元素定位方式xpath总结
一.绝对路径(不要使用,除非已经使用了所有方式仍然无法定位)方法:根据实际目录,逐层输写.例子: find_element_by_xpath("/html/body/div[2]/form/ ...
MVC - 单点登录中间件（转）
http://www.cnblogs.com/wangrudong003/p/6435013.html 本章将要和大家分享的是一个单点登录中间件,中间件听起来高深其实这里只是吧单点登录要用到的逻辑和处 ...
java源码-ConcurrentHashMap分析-1
ConcurrentHashMap源码分析版本jdk8 摈弃了jdk7之前的segement段锁: 首先分析一下put方法,大致的流程就是首先对key取hash函数判断是否first节点是否存在 ...
FICO相关号码范围IMG设定
一.定义会计文件号码范围——FBN1 二.定义总账检视的文件号码范围——FAGL_DOCNR 三.指派客户科目群组的号码范围四.定义供应商号码范围——XKN1 五.维护订单号码范围——KONK
CentOS的SVN服务器搭建与自动部署全过程
CentOS的SVN服务器搭建与自动部署全过程 http://www.jb51.net/article/106218.htm authz-db = authz 引起的 svn 认证失败 http:// ...

爬虫实例学习——爬取酷狗TOP500数据

爬虫实例学习——爬取酷狗TOP500数据的更多相关文章

随机推荐

热门专题