抓取60000+QQ空间说说做一次数据分析
对于QQ空间的数据一直来是垂涎不已,老早就想偷过来研究研究,这几天闲下来便开始动手。。。
整个程序的流程为:登录-->获取cookie-->获取所有的好友qq_number-->根据所有的好友qq遍历他们的说说-->get所有好友的说说数据
程序跑了20多分钟就跑完了,,共282好友,,跑了60000+说说
有些个人隐私我抹掉了。。甭介意。嘿嘿
1.登录-->获取cookie
打开http://i.qq.com/,如下图

但大多数时候是这样的

我们这里使用账号密码登录,为了方便使用selenium自动化神器(关于selenium的用法可以参考https://my.oschina.net/u/3264690/blog/899229,这里不做过多阐述)
QQ账号,QQ密码存储在userinfo.ini文件中,然后用configparser将其读取出来

读取的代码如下
configparser是一个读取配置文件的库,这里读取的格式为get('[配置文件中括号里的值]',‘相对应的key值’)
import configparser
config = configparser.ConfigParser(allow_no_value=False)
config.read('userinfo.ini')
self.__username =config.get('qq_info','qq_number')
self.__password=config.get('qq_info','qq_password')
用户信息读取出来后就可以登录了
有些盆友用selenium的时候,可能会发现有些元素定位不到,这是因为有些网页套了一个iFrame
selenium根据id定位到该iframe
self.web.switch_to_frame('login_frame')

自动登录且获取cookie的代码
def login(self):
self.web.switch_to_frame('login_frame')
log=self.web.find_element_by_id("switcher_plogin")
log.click()
time.sleep(1)
username=self.web.find_element_by_id('u')
username.send_keys(self.__username)
ps=self.web.find_element_by_id('p')
ps.send_keys(self.__password)
btn=self.web.find_element_by_id('login_button')
time.sleep(1)
btn.click()
time.sleep(2)
self.web.get('https://user.qzone.qq.com/{}'.format(self.__username))
cookie=''
for elem in self.web.get_cookies():
cookie+=elem["name"]+"="+ elem["value"]+";"
self.cookies=cookie
self.get_g_tk()
self.headers['Cookie']=self.cookies
self.web.quit()
2.获取所有好友的QQ_number
研究好久后发现在QQ空间主页中权限设置页面中,点击仅限QQ好友,会有下面这样的页面出来

按F12后研究js文件发现有这样一个文件

这个js文件里有好友的qq_number
于是请求这个文件得到qq_number
def get_frends_url(self):
url='https://h5.qzone.qq.com/proxy/domain/base.qzone.qq.com/cgi-bin/right/get_entryuinlist.cgi?'
params = {"uin": self.__username,
"fupdate": 1,
"action": 1,
"g_tk": self.g_tk}
url = url + parse.urlencode(params)
return url
def get_frends_num(self):
t=True
offset=0
url=self.get_frends_url()
while(t):
url_=url+'&offset='+str(offset)
page=self.req.get(url=url_,headers=self.headers)
if "\"uinlist\":[]" in page.text:
t=False
else:
if not os.path.exists("./frends/"):
os.mkdir("frends/")
with open('./frends/'+str(offset)+'.json','w',encoding='utf-8') as w:
w.write(page.text)
offset += 50
这里有一个函数self.g_tk()它返回一个加密的p_skey , 在这个js文件中qzfl_v8_2.1.61.js,有这样一段代码
QZFL.pluginsDefine.getACSRFToken = function(url) {
url = QZFL.util.URI(url);
var skey;
if (url) {
if (url.host && url.host.indexOf("qzone.qq.com") > 0) {
try {
skey = parent.QZFL.cookie.get("p_skey");
} catch (err) {
skey = QZFL.cookie.get("p_skey");
}
} else {
if (url.host && url.host.indexOf("qq.com") > 0) {
skey = QZFL.cookie.get("skey");
}
}
}
if (!skey) {
skey = QZFL.cookie.get("p_skey") || (QZFL.cookie.get("skey") || (QZFL.cookie.get("rv2") || ""));
}
return arguments.callee._DJB(skey);
};
QZFL.pluginsDefine.getACSRFToken._DJB = function(str) {
var hash = 5381;
for (var i = 0, len = str.length;i < len;++i) {
hash += (hash << 5) + str.charCodeAt(i);
}
return hash & 2147483647;
};
把它写成python版的如下
def get_g_tk(self):
p_skey = self.cookies[self.cookies.find('p_skey=')+7: self.cookies.find(';', self.cookies.find('p_skey='))]
h=5381
for i in p_skey:
h+=(h<<5)+ord(i)
print('g_tk',h&2147483647)
self.g_tk=h&2147483647
因为将好友信息存储为json文件,因此需要解析文件信息
#coding:utf-8
import json
import os
def get_Frends_list():
k = 0
file_list=[i for i in os.listdir('./frends/') if i.endswith('json')]
frends_list=[]
for f in file_list:
with open('./frends/{}'.format(f),'r',encoding='utf-8') as w:
data=w.read()[95:-5]
js=json.loads(data)
# print(js)
for i in js:
k+=1
frends_list.append(i)
return frends_list
frends_list=get_Frends_list()
print(frends_list)
3.获取所有好友说说
与之前类似,进入好友的说说主页后发现也有这样一个js文件将所有说说以json形式显示出来

类似的,写了获取说说的代码(经过测试,参数中的num最好写20,否则会出现未知的结果。。。)
def get_mood_url(self):
url='https://h5.qzone.qq.com/proxy/domain/taotao.qq.com/cgi-bin/emotion_cgi_msglist_v6?'
params = {
"sort":0,
"start":0,
"num":20,
"cgi_host": "http://taotao.qq.com/cgi-bin/emotion_cgi_msglist_v6",
"replynum":100,
"callback":"_preloadCallback",
"code_version":1,
"inCharset": "utf-8",
"outCharset": "utf-8",
"notice": 0,
"format":"jsonp",
"need_private_comment":1,
"g_tk": self.g_tk
}
url = url + parse.urlencode(params)
return url
def get_mood_detail(self):
from getFrends import frends_list
url = self.get_mood_url()
for u in frends_list[245:]:
t = True
QQ_number=u['data']
url_ = url + '&uin=' + str(QQ_number)
pos = 0
while (t):
url__ = url_ + '&pos=' + str(pos)
mood_detail = self.req.get(url=url__, headers=self.headers)
print(QQ_number,u['label'],pos)
if "\"msglist\":null" in mood_detail.text or "\"message\":\"对不起,主人设置了保密,您没有权限查看\"" in mood_detail.text:
t = False
else:
if not os.path.exists("./mood_detail/"):
os.mkdir("mood_detail/")
if not os.path.exists("./mood_detail/"+u['label']):
os.mkdir("mood_detail/"+u['label'])
with open('./mood_detail/'+u['label']+"/" +str(QQ_number)+"_"+ str(pos) + '.json', 'w',encoding='utf-8') as w:
w.write(mood_detail.text)
pos += 20
time.sleep(2)
将需要的说说数据存入数据库
#存入数据库
def dataToMysql():
con=pymysql.connect(
host='127.0.0.1',
user='root',
password="×××",
database='qq_z',
port=3306,
)
cur=con.cursor()
sql="insert into info (qq_number,created_time,content,commentlist,source_name,cmtnum,name) values ({},{},{},{},{},{},{});"
d=[i for i in os.listdir('mood_detail') if not i.endswith('.xls')]
for ii in d:
fl=[i for i in os.listdir('mood_detail/'+ii) if i.endswith('.json')]
print('mood_detail/'+ii)
k=1
for i in fl:
with open('mood_detail/'+ii+"/"+i,'r',encoding='latin-1') as w:
s=w.read()[17:-2]
js=json.loads(s)
print(i)
for s in js['msglist']:
m=-1
if not s['commentlist']:
s['commentlist']=list()
cur.execute(sql.format(int(i[:i.find('_')]),s['created_time'],str(s['content']),str([(x['content'],x['createTime2'],x['name'],x['uin']) for x in list(s['commentlist'])]),str(s['source_name']),int(s['cmtnum']),str(s['name'])))
k+=1
con.commit()
con.close()
将需要的说说数据存入Excel
def dataToExcel():
d=[i for i in os.listdir('mood_detail') if not i.endswith('.xls')]
for ii in d:
wb=xlwt.Workbook()
sheet=wb.add_sheet('sheet1',cell_overwrite_ok=True)
sheet.write(0,0,'content')
sheet.write(0,1,'createTime')
sheet.write(0,2,'commentlist')
sheet.write(0,3,'source_name')
sheet.write(0,4,'cmtnum')
fl=[i for i in os.listdir('mood_detail/'+ii) if i.endswith('.json')]
print('mood_detail/'+ii)
k=1
for i in fl:
with open('mood_detail/'+ii+"/"+i,'r',encoding='latin-1') as w:
s=w.read()[17:-2]
js=json.loads(s)
print(i)
for s in js['msglist']:
m=-1
sheet.write(k,m+1,str(s['content']))
sheet.write(k,m+2,str(s['createTime']))
if not s['commentlist']:
s['commentlist']=list()
sheet.write(k,m+3,str([(x['content'],x['createTime2'],x['name'],x['uin']) for x in list(s['commentlist'])]))
sheet.write(k,m+4,str(s['source_name']))
sheet.write(k,m+5,str(s['cmtnum']))
k+=1
if not os.path.exists('mood_detail/Excel/'):
os.mkdir('mood_detail/Excel/')
try:
wb.save('mood_detail/Excel/'+ii+'.xls')
except Exception:
print("error")
4.分析数据
24小时发布的说说数


大家在中午和晚上发布的说说比较多,凌晨比较少
说说最多排行top20

说说最少排行top20

果然,,闷骚的人发的说说比较多。。。哈哈哈
从2000年到2018年,说说分布如下


看来我的朋友们年轻的时候蛮闷骚,,随着年纪增大,,说说越来越少。。
感谢https://zhuanlan.zhihu.com/p/24656161给我的提示。。。少走了许多弯路
数据抓取速度贼快,,20分钟抓取了我所有好友(282+)60000+说说。。
项目已传到
朋友们,觉得有用来个star噢。。蟹蟹。。。
抓取60000+QQ空间说说做一次数据分析的更多相关文章
- C#使用Selenium实现QQ空间数据抓取 登录QQ空间
经@吃西瓜的星星提醒 首先我们介绍下Selenium Selenium也是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE.Mo ...
- 360浏览器7.1抓触屏QQ空间包
- 通过Scrapy抓取QQ空间
毕业设计题目就是用Scrapy抓取QQ空间的数据,最近毕业设计弄完了,来总结以下: 首先是模拟登录的问题: 由于Tencent对模拟登录比较讨厌,各个防备,而本人能力有限,所以做的最简单的,手动登录后 ...
- python爬虫(一)_爬虫原理和数据抓取
本篇将开始介绍Python原理,更多内容请参考:Python学习指南 为什么要做爬虫 著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...
- arpspoof+driftnet+ ARP欺骗简单图片抓取
arpspoof+driftnet+ ARP欺骗简单图片抓取 driftnet是一款简单而使用的图片捕获工具,可以很方便的在网络数据包中抓取图片.该工具可以实时和离线捕获指定数据包中是图片 环境 受害 ...
- [原创.数据可视化系列之十二]使用 nodejs通过async await建立同步数据抓取
做数据分析和可视化工作,最重要的一点就是数据抓取工作,之前使用Java和python都做过简单的数据抓取,感觉用的很不顺手. 后来用nodejs发现非常不错,通过js就可以进行数据抓取工作,类似jqu ...
- Scrapy爬虫框架教程(四)-- 抓取AJAX异步加载网页
欢迎关注博主主页,学习python视频资源,还有大量免费python经典文章 sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction ...
- shell脚本抓取网页信息
利用shell脚本分析网站数据 # define url time=$(date +%F) mtime=$(date +%T) file=/abc/shell/abc/abc_$time.log ht ...
- QQ空间认证之数据篇
最近,我们发现可以利用开通企鹅媒体平台的方式开通QQ公众号从而绑定我们的QQ号,这样我们所绑定的QQ号就成了认证空间了. 虽说这样很快捷的就认证了我们的QQ空间,但是,起有利也有弊.任何事情都不是十全 ...
随机推荐
- Bash内置命令
Bash有很多内置命令,因为这些命令是内置的,因此bash不需要在磁盘上为它们定位,执行速度更快. 1)列出所有内置命令列表$enable 2)关闭内置命令test$enable -n test 3) ...
- 平衡树初阶——AVL平衡二叉查找树+三大平衡树(Treap + Splay + SBT)模板【超详解】
平衡树初阶——AVL平衡二叉查找树 一.什么是二叉树 1. 什么是树. 计算机科学里面的树本质是一个树状图.树首先是一个有向无环图,由根节点指向子结点.但是不严格的说,我们也研究无向树.所谓无向树就是 ...
- 微信 python 接口 -- itchat 文档
itchat 一. 安装 $ pip install itchat 特殊的字典使用方式 通过打印 itchat 的用户以及注册消息的参数, 可以发现这些值都是字典. 但实际上 itchat 精心构造了 ...
- JS采用ActiveXObject实现用户在提交表单时屏蔽敏感词的功能
本例中敏感词ciku.txt放在C盘根目录下,采用的ActiveXObject插件获取本地文件内容.使用此插件不需网上下插件,直接用如下js代码即可. 浏览器需修改interner安全选项的级别,启用 ...
- 表单格式化插件jquery.serializeJSON
前言 前端在处理含有大量数据提交的表单时,除了使用Form直接提交刷新页面之外,经常碰到的需求是收集表单信息成数据对象,Ajax提交. 而在处理复杂的表单时,需要一个一个区手动判断处理字段值,显得非常 ...
- Ubuntu下安装并配置VS Code编译C++
作者:tongqingliu 转载请注明出处:http://www.cnblogs.com/liutongqing/p/7069091.html Ubuntu下安装并配置VS Code编译C++ 安装 ...
- Silverlight将Excel导入到SQLserver数据库
最近纠结于读取Excel模板数据,将数据导入SQLServer的Silverlight实现,本文将实现代码贴出,作为一个简单的例子,方便各位: 1.先设计前台界面新建Silverlight5.0应用程 ...
- 几种 vue的数据交互形式
var that=this get请求 that.$http.get("1.txt").then(function(result){ console.log(result) thi ...
- JAVAEE——spring02:使用注解配置spring、sts插件、junit整合测试和aop演示
一.使用注解配置spring 1.步骤 1.1 导包4+2+spring-aop 1.2 为主配置文件引入新的命名空间(约束) 1.3 开启使用注解代替配置文件 1.4 在类中使用注解完成配置 2.将 ...
- (cljs/run-at (JSVM. :browser) "命名空间就这么简单")
前言 一个cljs文件定义一个命名空间,通过命名空间可以有效组织代码,这是构建大型系统必备的基础设施.本篇我们就深入理解cljs中的命名空间吧! 好习惯从"头"开始 每个cljs ...