前言 前面我们获取了歌曲的排行榜的数据,我们现在需要实现歌曲播放 前面我们写了一段函数来得到了回调的数据,现在我们需要使用这一段数据,来实现播放歌曲 完整代码 <!DOCTYPE html> <html lang="zh-cn" xmlns="http://www.w3.org/1999/xhtml"> <head> <meta charset="utf-8" /> <title>QQ音…
前言 最近手头比较空闲,再加上看到其他人的博客都差不多有个类似的播放控件,手就会闲不下来,说干就干,所以我们开始吧! 来到QQ音乐的官网,我们就直奔着目标去,寻找排行榜 我们主要用的是最近比较热的歌,所以我们选择热歌的来下手 提前打开浏览器控制台,点击NetWork(网络视图) 现在什么都没有,我们需要点击按钮来提交数据,这里就可以捕捉到 点击后,它就会获取数据,并写入浏览器Cookie,再打开新页面,实现播放 我们如果没有播放器的页面就会跳转到播放器的页面 我们要想或取排行榜数据就必须切回官网…
[一.项目目标] 通过Python爬取QQ音乐数据(一)我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 此次我们在之前的基础上获取QQ音乐指定歌曲的歌词及前15个精彩评论. [二.需要的库] 主要涉及的库有:requests.json.html [三.项目实现] 1.以歌曲"泡沫"为例,查看该界面的XHR 2.通过对XHR的Size进行排序,逐个查看(参考英文含义),我们看到第一个红框内是歌曲评论,第二个框内是歌词! 3.分别查看这两条数据Heade…
参考了 http://blog.csdn.net/banguijun/article/details/11815263 后写了一个抓取fm音乐url的模块,得到所有频道歌曲的url.缺点是百度会变更url地址,失效后需要重新获取.话不多说上代码: # -*- coding: UTF-8 -*- ''' Created on 2013-12-3 从百度的频道中抓取歌曲的下载地址 @author: ''' import urllib import json SAVEPATH='/home/gfc/m…
[一.项目目标] 获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 由浅入深,层层递进,非常适合刚入门的同学练手. [二.需要的库] 主要涉及的库有:requests.json.openpyxl [三.项目实现] 1.了解 QQ 音乐网站的 robots 协议 只禁止播放列表,可以操作. 2.进入 QQ 音乐主页 https://y.qq.com/ 3.输入任意歌手,比如邓紫棋 4.打开审查元素(快捷键 Ctrl+Shift+I) 5.分析网页源代码 Elements,发…
一.前言   前段时间尝试爬取了网易云音乐的歌曲,这次打算爬取QQ音乐的歌曲信息.网易云音乐歌曲列表是通过iframe展示的,可以借助Selenium获取到iframe的页面元素, 而QQ音乐采用的是异步加载的方式,套路不一样,这是主流的页面加载方式,爬取有点难度,不过也是对自己的一个挑战. 二.Python爬取QQ音乐单曲 之前看的慕课网的一个视频, 很好地讲解了一般编写爬虫的步骤,我们也按这个来. 爬虫步骤 1.确定目标 首先我们要明确目标,本次爬取的是QQ音乐歌手刘德华的单曲. (百度百科…
抓取QQ音乐歌单1.通过分析歌曲下载路径来分析所需参数: 通过比较, 得出其中歌曲下载url与参数vkey是可变的,歌曲下载url中可变得值是请求歌单返回的歌曲数据的strMediaMid参数, 而vkey是通过请求歌单返回的歌曲数据的songmid参数再次请求另一个url返回vkey值2.通过分析请求歌单url来分析所需参数: dissid dissid为请求diss的返回数据中的dissid参数 import os import re import requests from urllib.…
1 import requests import re import json import os # 便于存放作者的姓名 zuozhe = [] headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'} def get_singermid(): name = input('请输…
毕业设计题目就是用Scrapy抓取QQ空间的数据,最近毕业设计弄完了,来总结以下: 首先是模拟登录的问题: 由于Tencent对模拟登录比较讨厌,各个防备,而本人能力有限,所以做的最简单的,手动登录后,获得Cookie信息,然后携带访问. 其次是数据接口: 通过对QQ空间的网页分析,数据主要是通过Json的形式返回.选择了两个数据接口进行数据抓取 每个QQ的详细信息接口: "http://user.qzone.qq.com/p/base.s8/cgi-bin/user/cgi_userinfo_…
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器加载该网页,自动操作浏览器浏览各个网页,顺便把数据抓下来.用一句简单而通俗的话说,就是使用浏览器渲染方法将爬取动态网页变成爬取静态网页. 我们可以用 Python 的 Selenium 库模拟浏览器完成抓取.Selenium 是一个用于Web 应用程序测试的工具.Selenium 测试直接运行在浏览…
前言: 无意中在网上发现了静觅大神(崔老师),又无意中发现自己硬盘里有静觅大神录制的视频,于是乎看了其中一个,可以说是非常牛逼了,让我这个用urllib,requests用了那么久的小白,体会到selenium的神奇之处,关键是虽然对小白来说信息量很大,但是讲得特别清楚,不亚于培训班哈哈哈哈.接下来言归正传. 使用Selenium模拟浏览器抓取淘宝美食信息并保存到MongoDB数据库,流程如下: 1.利用Selenium驱动浏览器搜索关键字,得到查询后的商品列表. 2.得到商品页码数,模拟翻页,…
通过Selenium模拟浏览器抓取淘宝商品美食信息,并存储到MongoDB数据库中. from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdri…
最近右胳膊受伤,打了石膏在家休息.为了实现之前的想法,就用左手打字.写代码,查资料完成了这个资源小爬虫.网页爬虫, 最主要的是协议分析(必须要弄清楚自己的目的),另外就是要考虑对爬取的数据归类,存储.这是一个在线歌曲网站的爬虫,网站名 字就不说了,此贴目的是技术交流,请不用做其他用途! 相关技术点:http协议.js.AES.文件.文件夹操作.正则表达式.数据库技术.SQL -------------------------------------------分割线 以下 为设计思路------…
1.打开QQ音乐官网 y.qq.com 2.选择你要的歌曲,进入后查看网址,以虎口脱险这个歌曲为例:http://y.qq.com/#type=song&mid=000Ib8E71sUNi7 找到歌曲里面的mid=后面这一段000Ib8E71sUNi7,这个就是歌曲的mid啦 然后,使用下面的方法 高品质mp3:http://stream3.qqmusic.qq.com/C200+mid+.mp3 加起来就是这样:http://stream3.qqmusic.qq.com/C200000Ib8E…
前面我们接触到的,都是使用requests+BeautifulSoup组合对静态网页进行请求和数据解析,若是JS生成的内容,也介绍了通过寻找API借口来获取数据. 但是有的时候,网页数据由JS生成,API借口又死活找不着或者是API借口地址随机变换,时间不等人.那就只能使用Selenium了. 一.Selenium简介 Selenium是一个用于Web应用的功能自动化测试工具,Selenium 直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一个强大的网络数据采集…
最近要做下拉刷新,无奈测试服务器的测试数据太少,没有足够的数据做下拉刷新,所以用charles抓取了测试服务器的接口,然后在伪造了很多数据返回到我的电脑上,下面来说说使用方法: 第一步: 安装FQ软件 XX-net,这个自己去百度安装方法,切换连接方式为系统代理,如下图: 第二步:以window为例,让charles支持跨域 打开charles软件 - > proxy菜单栏 -> 勾选windows proxy -> Flie菜单栏 -> New Session ->刷新你的…
最近想在QQ登录时把QQ号码信息记录下来,百度了很多都没有找到具体方式,最近用Wireshark分析报文+libpcap库嗅探实现了这个小功能. 通讯背景: QQ客户端在通讯时使用UDP协议,其中数据消息报文为UDP协议,控制报文为OICQ协议(UDP协议的一种封装),控制报文命令常见如下(括号内为改命令在OICQ报文中对应二进制编码的十进制表示): "log out(1)", "Heart Message(2)", "Set status(13)&quo…
某天,想下载某人的相册,发现一张一张下载,工作量巨大,所以写了这个工具. 使用到的工具 Fiddler(抓包工具) python(脚本语言) intellij 步骤 分析包 获取相册分类链接信息 打开某人空间 - 打开fiddler抓取 - 访问相册 打开fiddler,搜索相册名称 '侄子' 获取相册链接,将其拖到右边的composer 拷贝链接地址和cookie信息 获取相册里面照片的信息 同上面的步骤,打开某个相册,在fiddler里面搜索某张照片的名称 获取相册列表信息链接 编程 贴出主…
一.设置请求头消息 User-Agent模拟浏览器 1.当使用第一节的代码 来 访问推酷的时候,会返回给我们如下信息: 网页内容:<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"> </head> <body> <p>系统检测亲不是真人行为,…
QQ音乐网站所有音乐(包括付费.无损等版权音乐解析接口地址url). mp3 普通高品 http://dl.stream.qqmusic.qq.com/M5000012gqVh4fFvVK.mp3?vkey=419F0FD2E2552C95C4E76BFDFBF2BC331A2983AAEDC9CF91BBD4195603FE19B6550874248A1A87410D84D0405B2ABBD0F533F192C9B8EB35&guid=YYFM&uin=123456&fromt…
学习目的: selenium目前版本已经到了3代目,你想加薪,就跟面试官扯这个,你赢了,工资就到位了,加上一个脚本的应用,结局你懂的 正式步骤 需求背景:抓取淘宝美食 Step1:流程分析 搜索关键字:利用selenium驱动浏览器搜索关键字,得到查询后的商品列表 分析页码并翻页:得到商品页码数,模拟翻页,得到后续页面的商品列表 分析提取商品内容:利用PyQuery分析源码,解析得到商品列表 存储至MongoDB:将商品列表信息存储到数据库MongoDB Step2:代码分析 chromedri…
# 使用selenium+phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏览器翻页,并得到商品信息 # 第三步:爬取商品信息 # 第四步:存储到mongodb from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui imp…
import requests# 引用requests库res_music = requests.get('https://c.y.qq.com/soso/fcgi-bin/client_search_cp?ct=24&qqmusic_ver=1298&new_json=1&remoteplace=txt.yqq.song&searchid=60997426243444153&t=0&aggr=1&cr=1&catZhida=1&lo…
一.问题描述: 本次爬取的对象是QQmusic,为自己后面做django音乐网站的开发获取一些资源. 二.问题分析: 由于QQmusic和网易音乐的方式差不多,都是讲歌曲信息放入到播放界面播放,在其他界面没有media的资源,喜马拉雅的则不是这样的,可以参考我爬取喜马拉雅的blog与代码:https://www.cnblogs.com/future-dream/p/10347354.html. 1.由于上述原因,我们需要对网页进行分析: 获取歌曲菜单的id——>歌曲的所有id信息——>播放网站…
抓包接口设置成本地连接 点击start,登录qq,输入oicq进行过滤qq包 找到第一个OICQ,点击后,点击oicq-IM software 可以看到自己登录的QQ号码为765343409 本机IP=172.16.69.151,第一个是从本机发送到目的IP的,第二个是从服务器返回来的 分析数据报协议 这是UDP协议部分的信息,destination port = irdmi(8000),这在国内主要是QQ使用的端口号,irdmi表示为qq聊天软件 分析以太网(数据链路层) FujianSt_a…
淘宝由于含有很多请求参数和加密参数,如果直接分析ajax会非常繁琐,selenium自动化测试工具可以驱动浏览器自动完成一些操作,如模拟点击.输入.下拉等,这样我们只需要关心操作而不需要关心后台发生了怎样的请求.PhantomJS是一个无界面的浏览器. 爬取淘宝搜索关键词下的宝贝内容,爬取到MONGODB,使用的解析库是pyquery. 步骤: 搜索关键字:利用Selenium驱动浏览器搜索关键字,得到查询后的商品列表. 分析页码并翻页:得到商品页码数,模拟翻页,得到后续页面的商品列表. 分析提…
使用eclipse执行接口时,发现在fiddler里面抓不到这些请求. 网上找了很多资料都是让在Eclipse 中设置:Windows > Preferences > Java > Installed JREs ,选中Installed JREs > Edit > 设置Default VM arguments: -Dhttp.proxySet=" 或者代码中加入如下内容: System.setProperty("http.proxySet", &…
import requestsimport jsonimport sys for i in range(0,10): url = "https://szc.y.qq.com/v8/fcg-bin/fcg_v8_toplist_cp.fcg?tpl=3&page=detail&date=2018-11-12&topid=27&type=top&song_begin="+str(i*30)+"&song_num=30&g_t…
一.流程 1. //获得二维码的qrsig,cookie标志 2. //登录二维码获得二维码的状态,及最新的url 3. //登录此网址,获得Cookies 4.//cookies,筛选出skey信息,获得post的参数 5. 提交POST 二. 代码 /// <summary> /// 获得QQ群返回的信息 /// </summary> /// <returns></returns> public string GetQQGroupMessage() {…
获取斗鱼直播间每个房间的名称.观看人数.tag.主播名字 代码: import time from multiprocessing import Pool from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import ex…