Python爬虫，看看我最近博客都写了啥，带你制作高逼格的数据聚合云图

转载请标明出处：

http://blog.csdn.net/forezp/article/details/70198541

本文出自方志朋的博客

今天一时兴起，想用python爬爬自己的博客，通过数据聚合，制作高逼格的云图(对词汇出现频率视觉上的展示)，看看最近我到底写了啥文章。

一、直接上几张我的博客数据的云图

1.1 爬取文章的标题的聚合

1.2 爬取文章的摘要的聚合

1.3 爬取文章的标题+摘要的聚合

我最近写了SpringCloud系列教程，还有一些微服务架构方面，从云图上看，基本吻合。你若不信，可以进我的博客看看，数据还是非常准确的

二、技术栈

开发工具: pycharm
爬虫技术：bs64、requsts、jieba
分析工具：wordArt

三、爬虫构架设计

整个爬虫架构非常简单：

爬取我的博客：http://blog.csdn.net/forezp
获取数据
将数据用“结巴”库，分词。
将得到的数据在在artword上制作云图。
将制作出来的云图展示给用户。

四、具体实现

先根据博客地址爬去数据：

url = 'http://blog.csdn.net/forezp'

titles=set()

def download(url):

    if url is None:

        return None

    try:

        response = requests.get(url, headers={

            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36',

        })

        if (response.status_code == 200):

            return response.content

        return None

    except:

        return None

解析标题

def parse_title(html):

    if html is None:

        return None

    soup = BeautifulSoup(html, "html.parser")

    links = soup.find_all('a', href=re.compile(r'/forezp/article/details'))

    for link in links:

        titles.add(link.get_text())

解析摘要：



def parse_descrtion(html):

    if html is None:

        return None

    soup=BeautifulSoup(html, "html.parser")

    disciptions=soup.find_all('div',attrs={'class': 'article_description'})

    for link in disciptions:

        titles.add(link.get_text())

用“结巴”分词，"激8"分词怎么用，看这里：https://github.com/fxsjy/jieba/

def jiebaSet():

    strs=''

    if titles.__len__()==0:

        return

    for item in titles:

        strs=strs+item;

    tags = jieba.analyse.extract_tags(strs, topK=100, withWeight=True)

    for item in tags:

        print(item[0] + '\t' + str(int(item[1] * 1000)))

因为数据比较少，所以我直接打印在控制台，并把它复制下来，更好的方法是存在mongodb中。

制作云图：

用 artword在线工具，地址：https://wordart.com

首先：

导入从控制台复制过来的数据：

令人尴尬的是，这个网站在绘制图的时候不支持中文，需要你从c:/windows/fonts下选择一个支持中文的字体，mac 用户从windows拷下文件夹也可以，或者在网上下。

然后点击Visulize就可以生成高逼格的云图了。讲解完毕，有什么需要改进的请大家留言。

源码下载：https://github.com/forezp/ZhihuSpiderMan/tree/master/blogspider

五、文章参考

超简单：快速制作一款高逼格词云图

优秀文章推荐：

如何爬取百万知乎用户信息，并做了简单的分析

扫码关注公众号有惊喜

（转载本站文章请注明作者和出处方志朋的博客）

Python爬虫，看看我最近博客都写了啥，带你制作高逼格的数据聚合云图的更多相关文章

Python爬虫简单实现CSDN博客文章标题列表
Python爬虫简单实现CSDN博客文章标题列表操作步骤: 分析接口,怎么获取数据? 模拟接口,尝试提取数据封装接口函数,实现函数调用. 1.分析接口打开Chrome浏览器,开启开发者工具(F1 ...
Python爬虫:爬取自己博客的主页的标题，链接，和发布时间
代码 # -*- coding: utf-8 -*- """ ------------------------------------------------- File ...
python爬虫-韩寒新浪博客博文
博客地址:http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html 爬第一页博文 #-*-coding:utf--*- import re # ...
python 爬虫爬取序列博客文章列表
python中写个爬虫真是太简单了 import urllib.request from pyquery import PyQuery as PQ # 根据URL获取内容并解码为UTF-8 def g ...
Python爬虫抓取csdn博客
昨天晚上为了下载保存某位csdn大牛的所有博文,写了一个爬虫来自己主动抓取文章并保存到txt文本,当然也能够保存到html网页中. 这样就能够不用Ctrl+C 和Ctrl+V了,很方便.抓取别的站点 ...
【java爬虫】---爬虫+jsoup轻松爬博客
爬虫+jsoup轻松爬博客最近的开发任务主要是爬虫爬新闻信息,这里主要用到技术就是jsoup,jsoup 是一款 Java的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非 ...
这几天有django和python做了一个多用户博客系统（可选择模板）
这几天有django和python做了一个多用户博客系统(可选择模板) 没完成,先分享下断断续续2周时间吧,用django做了一个多用户博客系统,现在还没有做完,做分享下,以后等完善了再慢慢说做的 ...
python环境变量配置 - CSDN博客
一.下载: 1.官网下载python3.0系列(https://www.python.org/) 2.下载后图标为: 二.安装: Window下: 1.安装路径: 默认安装路径:C:\python35 ...
云开发中的战斗机 Laf，让你像写博客一样写代码
各位云原生搬砖师 and PPT 架构师,你们有没有想过像写文章一样方便地写代码呢? 怎样才能像写文章一样写代码? 理想的需求应该是可以在线编写.调试函数,不用重启服务,随时随地在 Web 上查看函数 ...

随机推荐

Spring集成Quartz的3种方式
1.使用xml配置方式 Maven依赖 <properties>  <spring.version>4.2.2.RELEASE& ...
当post 的字段很多,post的字段并不完全修改(有的值是前端input的值,有的任保留原来原来数据库的值),
有一种解决方法(ps:from ljq): 把数据库的值先全部遍历出来,然后再对遍历出来值的$key进行一个判断, example: foreach ($results[0] as $key =&g ...
Nginx实践：(1) Nginx安装及日志配置
1. 安装 (1) Nginx下载地址:https://nginx.org/download/nginx-1.14.0.tar.gz (2) 安装时可能出现依赖库不存在,比如prec包,可以使用y ...
uml的十三种图形
1.用例图:对系统的使用方式分类. 2.类图:显示类和它们的相互关系. 3.对象图:只显示对象及它们的相互关系. 4.活动图:显示人或对象的活动,其方式类似于流程图. 5.状态机图:显示生命周期比较有 ...
java-logic====吃货联盟
1.系统界面 2.功能一 3.查看餐袋 4.签收订单 5.删除订单 6.我要点赞主要分在两个类中: 第一个类entity,主要的是一些共有的属性主要代码: public class entity ...
位运算（2）——Number of 1 Bits
Write a function that takes an unsigned integer and returns the number of ’1' bits it has (also know ...
elasticsearch排序-----5
我们之前查询出的结果都会有一个_score分值表示列出结果与搜索结果的相关性,该值越高排序位置越靠前,es具体是如何计算该值的,我们认真来看看. 1.根据字段值排序比如我们要查询/index5下su ...
AngularJS 指令解析（二）
AngularJS 指令解析(二) 第一篇我们讲过了作用域(scope)这块内容,现在我们进入正题,讲AngularJS的指令. 什么是指令? 这里我们引用官方的一句话: Custom directi ...
转：清除arcsde空间垃圾数据以及解决sde图层名称被占用的问题
因为对空间数据管理的不善(非法的删除.重命名等),导致sde中存在一些垃圾数据.和图层名称被占用,这种问题已经有好几个同事问我怎么解决了?现把这个问题已经解决了,下面将整个详细过程写出来,共享给碰到同 ...
Excel 解析（大文件读取）BingExcel
最近在整理一个excel读取与写出的orm框架.使用的saxreader方式,支持百万级别的excel读取. 并且在通常使用中提供了监听的读取方式.如感兴趣的朋友可以稍微了解下 ,项目地址https: ...