爬取QQ音乐(讲解爬虫思路)】的更多相关文章

一.问题描述: 本次爬取的对象是QQmusic,为自己后面做django音乐网站的开发获取一些资源. 二.问题分析: 由于QQmusic和网易音乐的方式差不多,都是讲歌曲信息放入到播放界面播放,在其他界面没有media的资源,喜马拉雅的则不是这样的,可以参考我爬取喜马拉雅的blog与代码:https://www.cnblogs.com/future-dream/p/10347354.html. 1.由于上述原因,我们需要对网页进行分析: 获取歌曲菜单的id——>歌曲的所有id信息——>播放网站…
一.前言   前段时间尝试爬取了网易云音乐的歌曲,这次打算爬取QQ音乐的歌曲信息.网易云音乐歌曲列表是通过iframe展示的,可以借助Selenium获取到iframe的页面元素, 而QQ音乐采用的是异步加载的方式,套路不一样,这是主流的页面加载方式,爬取有点难度,不过也是对自己的一个挑战. 二.Python爬取QQ音乐单曲 之前看的慕课网的一个视频, 很好地讲解了一般编写爬虫的步骤,我们也按这个来. 爬虫步骤 1.确定目标 首先我们要明确目标,本次爬取的是QQ音乐歌手刘德华的单曲. (百度百科…
1 import requests import re import json import os # 便于存放作者的姓名 zuozhe = [] headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'} def get_singermid(): name = input('请输…
import requests# 引用requests库res_music = requests.get('https://c.y.qq.com/soso/fcgi-bin/client_search_cp?ct=24&qqmusic_ver=1298&new_json=1&remoteplace=txt.yqq.song&searchid=60997426243444153&t=0&aggr=1&cr=1&catZhida=1&lo…
import requestsimport jsonimport sys for i in range(0,10): url = "https://szc.y.qq.com/v8/fcg-bin/fcg_v8_toplist_cp.fcg?tpl=3&page=detail&date=2018-11-12&topid=27&type=top&song_begin="+str(i*30)+"&song_num=30&g_t…
[一.项目目标] 通过Python爬取QQ音乐数据(一)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 此次我们在之前的基础上获取QQ音乐指定歌曲的歌词及前15个精彩评论. [二.需要的库] 主要涉及的库有:requests.json.html [三.项目实现] 1.以歌曲"泡沫"为例,查看该界面的XHR 2.通过对XHR的Size进行排序,逐个查看(参考英文含义),我们看到第一个红框内是歌曲评论,第二个框内是歌词! 3.分别查看这两条数据Heade…
[一.项目目标] 获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 由浅入深,层层递进,非常适合刚入门的同学练手. [二.需要的库] 主要涉及的库有:requests.json.openpyxl [三.项目实现] 1.了解 QQ 音乐网站的 robots 协议 只禁止播放列表,可以操作. 2.进入 QQ 音乐主页 https://y.qq.com/ 3.输入任意歌手,比如邓紫棋 4.打开审查元素(快捷键 Ctrl+Shift+I) 5.分析网页源代码 Elements,发…
实验网站:虾米音乐排行榜 网站地址:http://www.xiami.com/chart  难度系数:★☆☆☆☆ 依赖库:request.lxml的etree (安装lxml:pip install lxml) IDEA开发工具:PyCharm_2017.3 Python版本:Python3 期望结果:爬取出排行版歌名以及对应歌手 运行效果图: 音乐排行榜:   爬取数据结果图:     像这种简单的爬取就没必要使用Scrapy框架进行处理,是在有点大材小用,不过如果你刚开始学Scrapy的话,…
最近研究了下用python爬取qq空间相册的问题,遇到的问题及解决思路如下: 1.qq空间相册的访问需要qq登录并且需是好友,requests模块模拟qq登录略显麻烦,所以采用selenium的driver登录,登录成功之后获取其cookie即可,代码如下 from selenium import webdriverimport requests driver = webdriver.Chrome()url = 'https://user.qzone.qq.com/'driver.get(url…
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: python小爬虫 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef 效果图,其中涉及一些真名我就打码了,还有qq号我也打码了,见谅 分析登陆的元素,下图一目了然,怎么获取这个登陆元素应该都知道了 代码奉上…
爬虫的抓取方式有好几种,正则表达式,Lxml(xpath)与BeautifulSoup,我在网上查了一下资料,了解到三者之间的使用难度与性能 三种爬虫方式的对比. 这样一比较我我选择了Lxml(xpath)的方式了,虽然有三种方式,但肯定是要选择最好的方式来爬虫,这个道理大家都懂,另外有兴趣的朋友也可以去了解另外两种爬虫方式! 好了现在来讲讲xpath 由于Xpath属于lxml模块,所以首先需要安装lxml库,老办法直接在file-->setting---project interpreter…
一.爬取qq空间好友动态数据 # 爬取qq空间好友状态信息(说说,好友名称),并屏蔽广告 from selenium import webdriver from time import sleep from lxml import etree # 自动操作浏览器 bro = webdriver.Chrome(executable_path=r'D:\爬虫+数据分析\tools\chromedriver.exe') bro.get('https://qzone.qq.com/') sleep(3)…
python定时器爬取豆瓣音乐Top榜歌名 作者:vpoet mail:vpoet_sir@163.com 注:这些小demo都是前段时间为了学python写的,现在贴出来纯粹是为了和大家分享一下 #coding=utf-8 import urllib import urllib2 import re import time def SaveTop20Music(currtime): rex=r'<a href="javascript:;">(.*?)</a>'…
使用requests爬取百度音乐,我想把当前热门歌手的音乐信息爬下来. 首先进行url分析,可以看到: 歌手网页: 薛之谦网页: 可以看到,似乎这些路劲的获取一切都很顺利,然后可以写代码: # -*- coding: utf-8 -*- """ Created on Sat Dec 30 14:18:33 2017 @author: 24630 """ import requests from lxml import etree import u…
  抓取目标: 豆瓣音乐top250的歌名.作者(专辑).评分和歌曲链接 使用工具: requests + lxml + xpath. 我认为这种工具组合是最适合初学者的,requests比python自带的urllib库好用,功能更强大.关于requests的使用方法,建议看它的官方文档: http://docs.python-requests.org/zh_CN/latest/user/quickstart.html 使用lxml来解析网页,速度是最快的,至少比BeatifulSoup快.关…
1.  爬虫设计的技术 1)数据获取,通过http获取网站的数据,如urllib,urllib2,requests等模块: 2)数据提取,将web站点所获取的数据进行处理,获取所需要的数据,常使用的技术有:正则re,BeautifulSoup,xpath: 3)数据存储,将获取的数据有效的存储,常见的存储方式包括:文件file,csv文件,Excel,MongoDB数据库,MySQL数据库 2. 环境信息 1)python2.7 2)mongo2.6 3)使用模块包括re,requests,lx…
前面有篇文章给出了爬取动态页面的一种思路,即应用Selenium+Firefox(参考<scrapy动态页面爬取>).但是selenium需要运行本地浏览器,比较耗时,不太适合大规模网页抓取. 事实上,还有一种执行效率更高的方法.就是事先分析js发出的GET或者POST请求的网址,这样通过python向目标地址发出同样的请求,就可以得到与浏览器一致的response结果. 具体的步骤是:采用chrome浏览器中的调试工具,分析网页中用JavaScript获取数据的request语句.具体分析步…
参照上一篇爬虫小猪短租的思路https://www.cnblogs.com/aby321/p/9946831.html,继续熟悉基础爬虫方法,本次爬取的是咪咕音乐的排名 咪咕音乐榜首页http://music.migu.cn/v2/music/billboard/?_from=migu&page=1 注意:本程序有时候运行会报错,此时重新运行即可,报错原因不明了! 与小猪短租不同的是,爬取的排名信息不在每首歌曲的详细页面内,需要在分页url中获取(代码19-25行),使用打包循环并且输出给函数g…
首先进入该网站的https://www.51job.com/robots.txt页面 给出提示: 找不到该页 File not found 您要查看的页已删除,或已改名,或暂时不可用. 请尝试以下操作: 如果您已经在地址栏中输入该网页的地址,请确认其拼写正确. 打开 www.51job.com 主页,然后查找指向您感兴趣信息的链接. 单击后退按钮,尝试其他链接. 注: 网络爬虫:自动或人工识别robots.txt,再进行内容爬取 约束性:robots协议建议但非约束性,不遵守可能存在法律风险 如…
我去!!!我之后一定按照搜索方式下载歌曲~~~~~~~~~ 1.首先打开我们本次主讲链接:http://www.kuwo.cn/  2.刚开始我就随便点了一个地方,然后开始在后台找歌曲的链接地址.但是这也使我分析页面分析的很复杂.因为像在酷我音乐,这样的模块都有一个pid,分析参数的时候找了半天还要找pid,,,结果发现这是一个固定值,那就没有意义了,因为pid是一个固定值我总不能只去下载这个模块里面的歌曲,,,想下载其他歌曲还要改代码,这样子就不行了....所以还是从搜索框开始,搜索到哪首歌曲…
QQ音乐相比于网易云音乐加密部分基本上没有,但是就是QQ音乐的页面与页面之间的联系太强了,,导致下载一个音乐需要分析前面多个页面,找数据..太繁琐了 1.爬取链接:https://y.qq.com/ 首先随便找一个页面先点进去 2.点击播放歌曲会打开一个页面,按F12打开控制台,然后刷新页面并点击播放歌曲,network里面就会有数据包 3.在控制台选中media,找到下图这样类型的文件,它的request url就是歌曲播放url,如下下图 当然,我们肯定不能每下载一首歌都这样,一是这样很麻烦…
好久没写博文了,最近捣鼓了一下python,好像有点上瘾了,感觉python比js厉害好多,但是接触不久,只看了<[大家网]Python基础教程(第2版)[www.TopSage.com]>的前7章,好多东西还不会,能做的也比较少.我想做的是爬QQ空间,然后把空间里的留言,说说拷下来,已经成功做到了,只是,拷下来是word文档,看着没有在线看那么有感触,有些话,觉得不像自己会说的. 我花了好多时间,幸好最近清闲,有时间给我慢慢学.一开始,我使用urllib去登陆QQ空间: def getCoo…
#coding:utf-8 #!/usr/bin/python3 from selenium import webdriver import time import re import importlib2 import sys importlib2.reload(sys) def startSpider(): driver = webdriver.Chrome('/Users/zachary/zachary/chromedriver.exe') #这个是chormedriver的地址 driv…
前言 昨天看见某人的空间有上传了XXXX个头像,然后我就想着下载回来[所以本质上这是一个头像下载程序],但是一个个另存为太浪费时间了,上网搜索有没有现成的工具,居然要注册码,还卖45一套.你们的良心也太坏了!.而且居然!!!还有一个和我同名的下载器?这一点实在让我十分的嫉恨.于是我下决心搞清楚这个东西,然而大部分资料都是Python源码,并且很多都是过期的且无法使用的了[反正我是没找到一个能用]. 好在有很多人在网上发过一些教程,虽然Python是第一次接触[差不多一天的时间],但它是实在让我惊…
开发环境:(Windows)eclipse+pydev+MongoDB 豆瓣TOP网址:传送门 一.连接数据库   打开MongoDBx下载路径,新建名为data的文件夹,在此新建名为db的文件夹,db文件夹即用于存储数据   在bin路径下输入配置信息-->mongod --dbpath D:\MongoDB\data\db (此处为存储文件路径) 再打开新的命令行窗口,输入-->mongo 注意:启动服务的命令行窗口不要关闭 打开可视化管理工具Robomongo,点击Connections…
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. stars声明很多小伙伴学习Python过程中会遇到各种烦恼问题解决不了.为此小编建了个群 624440745. 不懂的问题有老司机解决里面还有最新Python教程项目可拿,,一起相互监督共同进步! 此文属于入门级级别的爬虫,老司机们就不用看了. 本次主要是爬取网易新闻,包括新闻标题.作者.来源.发布时间.新闻正文. 首先我们打开163的网站,我们随意选择一个分类,这里我选…
参考网址:https://music.douban.com/top250 因为详细页的信息更丰富,本次爬虫在详细页中进行,因此先爬取进入详细页的网址链接,进而爬取数据. 需要爬取的信息有:歌曲名.表演者.流派.发行时间.出版者和评分等. 将数据分别使用TXT.JSON.CSV存储. import re import csv import time import json import requests from bs4 import BeautifulSoup from requests imp…
首先,找到一个皮肤网站,其中一个著名的皮肤网站就是 https://littleskin.cn .进入网站,我们就会见到一堆皮肤,这就是今天我们要爬的皮肤.给各位分享一下代码. PS:另外很多人在学习Python的过程中,往往因为遇问题解决不了或者没好的教程从而导致自己放弃,为此我整理啦从基础的python脚本到web开发.爬虫.django.数据挖掘等[PDF等]需要的可以进Python全栈开发交流.裙 :一久武其而而流一思(数字的谐音)转换下可以找到了,里面有最新Python教程项目可拿,不…
前言 最近手头比较空闲,再加上看到其他人的博客都差不多有个类似的播放控件,手就会闲不下来,说干就干,所以我们开始吧! 来到QQ音乐的官网,我们就直奔着目标去,寻找排行榜 我们主要用的是最近比较热的歌,所以我们选择热歌的来下手 提前打开浏览器控制台,点击NetWork(网络视图) 现在什么都没有,我们需要点击按钮来提交数据,这里就可以捕捉到 点击后,它就会获取数据,并写入浏览器Cookie,再打开新页面,实现播放 我们如果没有播放器的页面就会跳转到播放器的页面 我们要想或取排行榜数据就必须切回官网…
Selenium 的使用 Selenium 是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击.下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬.对于一些JavaScript 动态渲染的页面来说,此种抓取方式非常有效. 好处:不用再分析网站复杂的通信流程了 坏处:效率低 一般用在登录环节. 1.准备工作 安装Chrome浏览器 配置ChromeDriver 另外安装Python的Selenium库 2.基本使用 Selenium一些功能,示例如下: from…