利用Python爬取朋友圈数据，爬到你开始怀疑人生

人生最难的事是自我认知，用Python爬取朋友圈数据，让我们重新审视自己，审视我们周围的圈子。

文：朱元禄（@数据分析－jacky）

哲学的两大问题：1、我是谁？2、我们从哪里来？

本文 jacky试图用Python，数据化、聚类化我们的人格标签，试图回答"我是谁?"这个哲学问题。

（一）确定数据源

自我认知，很难，必须它证。

物以类聚，人以群分。每个人的社交圈，家庭圈，朋友圈的属性，基本我们人格的特征属性。我们所处的阶级，在别人眼中的印象，在我们的朋友圈中都会得到印证。

朋友圈数据中最具人格属性的因素是个性签名，那么下面我们就把所有好友的个性签名作为我们的研究对象，以此出发爬取数据。

（二）使用Python的itchat 包对好友的个性签名数据进行分析

这里我们用到Python一个比较冷门的库——itchat，它很好的兼容了wechat个人账号的API接口，让我们能更加便捷的爬取wechat数据，itchat的功能很强大，这里我们仅用它爬取wechat中我们每个好友的个性签名。

之后，我们要分析出自定义词云图中个性签名使用的高频词语是什么。

最后，生成可视化词云图，直观的给出洞察结果。

源代码如下：

# coding:utf-8

import itchat

import re

itchat.login()

friends = itchat.get_friends(update=True)[0:]

tList = []

for i in friends:

    signature = i["Signature"].replace(" ", "").replace("span", "").replace("class", "").replace("emoji", "")

    rep = re.compile("1f\d.+")

    signature = rep.sub("", signature)

    tList.append(signature)

    # 拼接字符串

    text = "".join(tList)

# jieba分词

import jieba

wordlist_jieba = jieba.cut(text, cut_all=True)

wl_space_split = " ".join(wordlist_jieba)

# wordcloud词云

import matplotlib.pyplot as plt

from wordcloud import WordCloud, ImageColorGenerator

import os import numpy as np

import PIL.Image as Image

d= os.path.dirname(os.path.abspath( __file__ ))

alice_coloring = np.array(Image.open(os.path.join(d, "wechat.jpg")))

my_wordcloud = WordCloud(background_color="white", max_words=2000,mask=alice_coloring,max_font_size=400, random_state=420,font_path='/Users/sebastian/Library/Fonts/Arial Unicode.ttf').generate(wl_space_split)

image_colors = ImageColorGenerator(alice_coloring)

plt.imshow(my_wordcloud.recolor(color_func=image_colors))

plt.imshow(my_wordcloud)

plt.axis("off")

plt.show()

下面对于代码的解析，仅跟初学 Python的朋友提示三点：

1）代码第24行，其他网络版本的代码为d= os.path.dirname(__file__)，最好换成jacky这个版本的：

d=os.path.dirname(os.path.abspath(__file__))，具体原因jacky就不做过多解释了；

2）代码第25行，一定要提前在环境路径下创建wechat.jpg的图片，这样云图才能顺利生成，并生成你希望的形状。

3）提前在终端安装jieba,matplotlib,wordcloud,numpy包

注意以上三点，想不运行成功都难。

运行上面的代码，得到下面的云图：

（三）数据洞察

以jacky的朋友圈为例，在云图中，我们可以看见，高频词有：自己，创始人，电商，成功，努力，营销，互联网，数据，梦想，生活，咨询，我们，未来。

其实，这些词jacky还可以继续用机器学习算法搞一下,但到这就浅尝则止吧。

从这些具体的信息中，可以抽象出我的个人人格标签，具体解析：

自己，我们：说明我很自我，很自大，很自以为是；

努力，未来，梦想：说明我想通过努力来实现自己的价值；

创始人：说明我的社交圈还OK；

互联网，数据：说明我的能力属性；

营销，咨询：说明了我赖以生存的饭碗；

代理：这... ... 不好说了... ...

End

转载请注明出处

利用Python爬取朋友圈数据，爬到你开始怀疑人生的更多相关文章

爬取朋友圈，Get年度关键词
人生苦短,我用Python && C#. 1.引言最近初学Python,写爬虫上瘾.爬了豆瓣练手,又爬了公司的论坛生成词云分析年度关键词.最近琢磨着2017又仅剩两月了,我的年度关键 ...
python爬虫25 | 爬取下来的数据怎么保存？ CSV 了解一下
大家好我是小帅b 是一个练习时长两年半的练习生喜欢唱! 跳! rap! 篮球! 敲代码! 装逼! 不好意思我又走错片场了接下来的几篇文章小帅b将告诉你如何将你爬取到的数据保存下来有文本 ...
Python爬取招聘网站数据，给学习、求职一点参考
1.项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于 ...
python爬虫-上期所持仓排名数据爬取
摘要:笔记记录爬取上期所持仓数据的过程,本次爬取使用的工具是python,使用的IDE是pycharm 一.查看网页属性,分析数据结构在浏览器中打开上期所网页,按F12或者选择表格文字-右键-审查元 ...
Python：将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...
吴裕雄--天生自然python数据清洗与数据可视化：MYSQL、MongoDB数据库连接与查询、爬取天猫连衣裙数据保存到MongoDB
本博文使用的数据库是MySQL和MongoDB数据库.安装MySQL可以参照我的这篇博文:https://www.cnblogs.com/tszr/p/12112777.html 其中操作Mysql使 ...
python爬虫-爬取豆瓣电影数据
#!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:27# 文件 :spider_05.py# IDE :PyChar ...
Python爬虫：爬取喜马拉雅音频数据详解
前言喜马拉雅是专业的音频分享平台,汇集了有声小说,有声读物,有声书,FM电台,儿童睡前故事,相声小品,鬼故事等数亿条音频,我最喜欢听民间故事和德云社相声集,你呢? 今天带大家爬取喜马拉雅音频数据,一 ...
【python数据挖掘】爬取豆瓣影评数据
概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...

随机推荐

（四）Redis之哈希
一.哈希常用命令赋值取值删除增加数字判断字段是否存在获取hash属性个数获取hash所有属性名称 1.2.3 赋值取值和删除 package myRedis01; import java ...
Q-Dir
Q-dir,可以分界面,分文件夹,快捷选择等优势,非常好用的工具,可以替代微软的File Explorer. 官网:https://www.softwareok.com/?seite=Freeware ...
使用的jQuery加载源的优势【问题】
[问题]使用的jQuery加载源的优势? [答案]许多用户在访问其他站点时,已经从谷歌或微软加载过 jQuery.所有结果是,当他们访问您的站点时,会从缓存中加载 jQuery,这样可以减少加载时间. ...
周伯通的空明拳，米诺斯的星尘傀儡线，SAP Kyma的Serverless
Jerry一直认为,金庸的<天龙八部>里的武学建模已经有点脱离传统武侠小说的范畴了,像已经走上玄幻道路的灵鹫宫"八荒六合唯我独尊功",以及杀伤力足够能被视为现代激光武器 ...
13.MyBatis注解式开发
mybatis 的注解,主要是用于替换映射文件.而映射文件中无非存放着增.删.改.查的 SQL 映射标签.所以,mybatis 注解,就是要替换映射文件中的 SQL 标签. mybatis 官方文档 ...
ASE19团队项目 beta阶段 model组 scrum report list
scrum 1 scrum 2 scrum 3 scrum 4 scrum 5 scrum 6 scrum 7
java入门学习总结_04
1.循环结构 2.方法循环结构概述 1.对于某些需要重复执行的,相同或者相似的语句,使用某种格式来完成对代码的简化. 2.实现的语句: for语句[常用] while语句[常用] do...whi ...
JS Array.reverse 将数组元素颠倒顺序
<pre><script type="text/javascript"> //JS Array.reverse 将数组元素颠倒顺序//在JavaScript ...
最近公共祖先算法LCA笔记(树上倍增法)
Update: 2019.7.15更新万分感谢[宁信]大佬,认认真真地审核了本文章,指出了超过五处错误捂脸,太尴尬了. 万分感谢[宁信]大佬,认认真真地审核了本文章,指出了超过五处错误捂脸,太尴尬了 ...
洛谷P5002 专心OI - 找祖先
题目概括题目描述这个游戏会给出你一棵树,这棵树有\(N\)个节点,根结点是\(R\),系统会选中\(M\)个点\(P_1,P_2...P_M\). 要Imakf回答有多少组点对\((u_i,v_i ...

利用Python爬取朋友圈数据，爬到你开始怀疑人生

利用Python爬取朋友圈数据，爬到你开始怀疑人生的更多相关文章

随机推荐

热门专题