# -*- coding: utf-8 -*-
'''
16位随机字符的字符串 参数一
获取歌曲下载地址 "{"ids":"[1361348080]","level":"standard","encodeType":"aac","csrf_token":""}"
获取歌曲评论信息 "{"rid":"R_SO_4_1361348080","offset":"0","total":"true","limit":"20","csrf_token":""}" 第二三四为参数是固定的
"010001"
"00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7"
"0CoJUm6Qyw8W8jud" encSecKey 通过方法c,传入参数 参数一为16为随机字符串,参数二、三为上面的参数二三
encText 进行了两次加密 通过方法b 第一次是通过上面从参数一,参数四拿到返回值 第二次是返回值和16随机字符串加密 # 关于我遇到的问题
1、首先就是参数一的获取,
参数一很容易看得出来就是json格式的字典,通过json.dumps(dict)就能得到,对,当时我也是这样做的,因为分析网易云进行js加密的代码,
它也是将对象(也就是python的字典,类似)进行Json.stringify(obj)。所以我就跟着转为json格式的数据。
代码书写完毕之后,就进行测试阶段了,启动脚本,他给我返回的是json格式的字符串,400的错误,提示信息为参数错误,最终我排除了请求头是否
不合法等原因,那就是我进行加密的时候,得出的加密结果不对。
为了检测是否我加密错误,我继续在谷歌浏览器的开发者工具调试js代码,因为进行加密的时候有一串16位的随机字符串,我先在浏览器中获取到这个随机字符串
然后在我写的python代码中,将那个随机的字符串固定为浏览器获取到的16位随机字符串,并且执行,比较二者参数哪里对不上,encSecKey的值是能对上的,
encText(也就是formdata中的params)是对不上的,所以我获取encText的加密内容出错了。当时我完全没有考虑到是参数一的错误,因为我认为参数一是对的,就是
json格式的数据呀,我认为我加密的逻辑写错了。我把网易云加密的那段js代码,copy一份到本地的html文件中执行,参数也是一致,得到的结果也是和浏览器加密后
的数据是一致的,我把加密后的数据直接用在python代码中,执行,数据成功返回了,这是我更加肯定是我加密代码写错了,
经过一段的测试,我在本地的html文件中,把参数一的值写成一个很简单的字符串 "aaaa",我也把python代码中的参数一也改为一样。分别执行,卧槽,加密后参数
完全一样,找出了原因,竟然是我认为不会出错的参数一的原因。找到原因了,我就去看看参数一print出来到底是啥,js中参数一console.log几次,它的值是不变的
我再看python中,测试几次,终于知道了原因,我竟然忽略了字典是无序了,
dic = {"name":"zhuyu","age":22}
print(json.dumps(dic)) # 多执行几次,下面是输出结果,你会发现:
{"name": "zhuyu", "age": 22}
{"age": 22, "name": "zhuyu"} 解决问题一:字典是无序的,执行json.dumps得到的数据不是固定的,所以必须要弄一个固定的json格式数据,json数据它也是一个字符串,我自己弄一个和js中的
json数据一样的字符串就好了
也就是这个>>>: self.arg1 = '{"ids":"[%s]","level":"standard","encodeType":"aac","csrf_token":""}' % songId 2、对加密方法不清楚
对这一块确实不擅长,你看到js中的加密代码,却不知道它传递的参数,到底有啥用,是用来做什么的,你先要懂js代码加密的逻辑,你猜能写python代码来实现一样
的加密逻辑。 解决问题二:这个只能多百度,Google了,了解到加密方法,传递的参数是什么形式,参数作用是啥,返回值又是什么 3、了解网易云js加密的流程
只有知道流程了,只能写python加密的流程,这个需要你会chrome的开发者工具的使用,对js进行调试,知道重点的变量代表什么 解决问题三:刚开始确实不会,需要查看一些博客,知道每个按钮对应的功能是什么。还有就是要多看,多看,多看,指的是调试js代码 4、知道js加密代码的位置
我的方法:先看请求的所携带的参数,还有就是url,请求方法等等。。。然后就是ctrl+shift+f搜索你认为的关键字,然后就是慢慢找吧
如果请求那里找不到,也搜索不到加密的js位置,试试搜索 encrypt,还不行只能百度,Google了,看看别人的
''' from Crypto.Cipher import AES
import base64
import random
import codecs
import requests
from fake_useragent import UserAgent
import time
from multiprocessing import Process class DownLoadWYY:
ua = UserAgent() def __init__(self):
self.arg2 = ""
self.arg3 = "00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7"
self.arg4 = "0CoJUm6Qyw8W8jud"
self.session = requests.Session()
self.session.headers = {
"Referer": "https://music.163.com/",
"User-Agent": self.ua.random
}
self.__get_random_str()
# self.__init_session() def __init_session(self):
'''拿到后面需要的cookies'''
resopnse = self.session.get("https://music.163.com/#/discover/playlist", headers=self.session.headers)
print(resopnse.headers) def __AES_encrypt(self, text, key):
'''
获取到加密后的数据
:param text: 首先CBC加密方法,text必须位16位数据
:param key: 加密的key
:return: 加密后的字符串
'''
iv = ""
pad = 16 - len(text) % 16
if isinstance(text, str):
text = text + pad * chr(pad)
else:
text = text.deocde("utf-8") + pad * chr(pad)
aes = AES.new(key=bytes(key, encoding="utf-8"), mode=2, iv=bytes(iv, encoding="utf-8"))
res = aes.encrypt(bytes(text, encoding="utf-8"))
res = base64.b64encode(res).decode("utf-8")
return res def __get_encText(self): encText = self.__AES_encrypt(self.arg1, self.arg4)
encText = self.__AES_encrypt(encText, self.random_16_str)
return encText def __get_encSecKey(self):
'''通过查看js代码,获取encSecKey'''
text = self.random_16_str[::-1]
rs = int(codecs.encode(text.encode('utf-8'), 'hex_codec'), 16) ** int(self.arg2, 16) % int(self.arg3, 16)
return format(rs, 'x').zfill(256) def __get_random_str(self):
'''这是16位的随机字符串'''
str_set = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789"
random_str = ""
for i in range(16):
index = random.randint(0, len(str_set) - 1)
random_str += str_set[index]
self.random_16_str = random_str def __getFormData(self):
'''获取到提交的数据'''
data = {"params": self.__get_encText(), "encSecKey": self.__get_encSecKey()}
return data def downloadSong(self, songId):
'''获取到歌曲的下载的地址就好了。如果想要下载可以单独再写一个方法去下载音乐'''
print("开始爬取歌曲mp3地址....")
self.arg1 = '{"ids":"[%s]","level":"standard","encodeType":"aac","csrf_token":""}' % songId
api = "https://music.163.com/weapi/song/enhance/player/url/v1?csrf_token="
headers = self.session.headers.copy()
formdata = self.__getFormData()
response = self.session.post(url=api, data=formdata, headers=headers)
print("歌曲的下载地址为>>:", response.json()["data"][0]["url"]) def song_comment(self, songId):
'''获取到歌曲评论信息,我只是将结果print出来,如果保存的话,可以单独写一个保存的方法'''
print("开始爬取歌曲评论信息....")
# self.arg1的格式为:"{"rid":"R_SO_4_歌曲id","offset":"0","total":"true","limit":"20","csrf_token":""}"
# 第一页为0,第二页为20,第三页为40 第四页为60 第五页为80
offset = 0
n = 1
api = "https://music.163.com/weapi/v1/resource/comments/R_SO_4_{}?csrf_token=".format(songId)
headers = self.session.headers.copy()
while True:
self.arg1 = '{"rid":"R_SO_4_%s","offset":"%s","total":"true","limit":"20","csrf_token":""}' % (
songId, offset)
formdata = self.__getFormData()
response = self.session.post(url=api, headers=headers, data=formdata)
# print("*"*100)
# print("第{}页评论".format(n))
comment_list = response.json().get("comments")
for dic in comment_list:
try:
print("用户: {}".format(dic["user"]["nickname"]))
print("评论内容: {} ".format(dic.get("content")))
print()
except UnicodeEncodeError:
pass
offset += 20
n += 1
time.sleep(1) if __name__ == '__main__':
song = DownLoadWYY()
comment = DownLoadWYY()
p1 = Process(target=song.downloadSong, args=(1361348080,))
p2 = Process(target=comment.song_comment, args=(1361348080,)) p1.start()
p2.start() p1.join()
p2.join() print("爬取完毕...")

python3爬虫-下载网易云音乐,评论的更多相关文章

  1. 【Python3爬虫】网易云音乐歌单下载

    一.目标: 下载网易云音乐热门歌单 二.用到的模块: requests,multiprocessing,re. 三.步骤: (1)页面分析:首先打开网易云音乐,选择热门歌单,可以看到以下歌单列表,然后 ...

  2. 如何下载网易云音乐APP里的MV和短视频?

    本人:网易云音乐死粉,朋友圈大多都用的是云音乐,因为推荐功能牛逼 然后:发现云音乐APP里越来越多吸引我的短视频,经常看到好的就想保存到相册,然后微信发给朋友 但是:不知道怎么下载网易云音乐的短视频, ...

  3. python3爬虫:下载网易云音乐排行榜

    #!/usr/bin/python3# -*- encoding:utf-8 -*- # 网易云音乐批量下载 import requestsimport urllib # 榜单歌曲批量下载# r = ...

  4. 使用python3下载网易云音乐歌单歌曲,附源代码

    """ 用selenium+PhantomJS配合,不需要进行逆向工程 python 3下的selenium不能默认安装,需要指定版本2.48.0 "" ...

  5. 【Python3爬虫】网易云音乐爬虫

    此次的目标是爬取网易云音乐上指定歌曲所有评论并生成词云 具体步骤: 一:实现JS加密 找到这个ajax接口没什么难度,问题在于传递的数据,是通过js加密得到的,因此需要查看js代码. 通过断掉调试可以 ...

  6. 下载网易云音乐的MV

    网易云音乐有很多经典视频, 但是苦于没有下载按钮...今天就记录下如何保存MV到本地, 又get一项新技能!!! 一. 安装360极速浏览器(非安利) 二. 打开网易云音乐客户端, 点击"等 ...

  7. 爬取网易云音乐评论!python 爬虫入门实战(六)selenium 入门!

    说到爬虫,第一时间可能就会想到网易云音乐的评论.网易云音乐评论里藏了许多宝藏,那么让我们一起学习如何用 python 挖宝藏吧! 既然是宝藏,肯定是用要用钥匙加密的.打开 Chrome 分析 Head ...

  8. Python下载网易云收藏

    提前声明 仅作为个人学习使用,任何版权问题作者概不负责 本文的语言不会且不可能很严谨 博客园的编辑器有点BUG把我搞晕头了,所以本文可能有点鬼畜 前情 不知道各位有几个是对国内大厂的软件设计很满意的? ...

  9. python爬虫+词云图,爬取网易云音乐评论

    又到了清明时节,用python爬取了网易云音乐<清明雨上>的评论,统计词频和绘制词云图,记录过程中遇到一些问题 爬取网易云音乐的评论 一开始是按照常规思路,分析网页ajax的传参情况.看到 ...

随机推荐

  1. Play-with-chrome之环境搭建

    前言 浏览器漏洞在 APT 攻击中用的比较多,而且这基本上是用户上网的标配了,所以研究浏览器的漏洞是十分有前景的,我认为.我选择 chrome 浏览器 ( chromium和 chrome之间的关系请 ...

  2. 动态修改JDBC数据源配置

    因项目需要能动态修改数据源的配置,及修改后不用重启整个应用.使用的数据源是apache的BasicDataSource,网上千篇一律的是如下实现: BasicDataSource bds=getDat ...

  3. linux上设置mysql编码

    linux下设置mysql编码 linux下设置mysql编码 首先查找MySql的cnf文件的位置: [root@flyHome gaoxiang]# find / -iname '*.cnf' - ...

  4. Oracle EBS 清理归档

    oraprod 登陆数据库服务器 执行 rman target / 如图: 执行: delete noprompt force archivelog all completed before ‘sys ...

  5. Jmeter入门--关联

    名称解释 关联是请求与请求之间存在数据依赖关系,需要从上一个请求获取下一个请求需要回传回去的数据. 具体方法 Jmeter关联有两种方法:Xpath.正则表达式 方法一:Xpath主要用于响应是格式是 ...

  6. Redis学习---基础学习[all]

    什么是NoSQL型数据库 NoSQL数据库---NoSQL数据库的分类 Redis学习---NoSQL和SQL的区别及使用场景 Redis学习---负载均衡的原理.分类.实现架构,以及使用场景 什么是 ...

  7. Linux vim命令详解

    vi: o  处于下一行编辑模式 A  处于编辑的后面  ==>END gg 文件的开头 98gg 跳转到第98行 Shift + G 文件结尾 $ 文件行结尾 ^ 文件行开头   ==> ...

  8. 如何从Microsoft web platform installer取得离线安装包

    有一架visual studio 2012的开发环境A由于某种原因无法链接internet, 于是乎安装officetoolsforvisual2012就有问题了. 从微软的官网上只可以下载 offi ...

  9. September 07th 2017 Week 36th Thursday

    With the most true of yourself, can you meet the most suitable one. 用最真实的自己,才能遇见最合适的那个人. You are alw ...

  10. 4-2 R语言函数 apply

    #apply函数,沿着数组的某一维度处理数据 #例如将函数用于矩阵的行或列 #与for/while循环的效率相似,但只用一句话可以完成 #apply(参数):apply(数组,维度,函数/函数名) & ...