需求:

  某某金融大亨想涉足金融网贷,想给网贷平台取一个名字,那么取什么名字,名字里面包含哪些关键字,在行业内的曝光率会相比较高一些呢?

可以理解为:

你负责某某网贷平台的网络推广工作,如何进一步优化各广告推广平台上的搜索关键词,这些网贷平台的名称都有啥共同点?

其实就是:

想看看各网贷平台名称的高频词汇,给各平台的名称划下重点

 

找数据:

  获取所有网贷平台的平台基本名称数据,这样子才能进行下一步工作

  

  把网贷之家上所有平台的数据找出来,这样就可以了

读取数据:

  import pymysql

  import pandas as pd

  方法一:pandas直接读取数据库数据

    1.   pymysql连接数据库

    

    2.   pandas 通过数据库读取数据(读取速度非常的快)

     

 

  方法二:pandas读取本地xls或者csv格式文件(因为并不是所有做数据的人都有权限访问数据库,有些是从系统导出数据,再进行操作,所以这也是为了照顾这批人)

  

  读取数据后的基本操作

  查看数据内容

    plat 查看所有的数据,我一般都是用Jupyter QtConsole 编译器 进行数据操作,很灵活

    

  plat.head() 默认是查看前5行  可加参数 比如 plat.head(n=10) 则是查看前十行

  plat.tail()   默认是查看后5行  可加参数 比如 plat.tail(n=10)   则是查看后十行

  

  查看某一列

  plat.platName.head()

  查看多列则是:plat[['platId',’platPin’,’platName’]].head()

  

  

  查看各字段的数据类型

  plat.dtypes

  

  在pandas 里面 有这么几种主要从数据类型:float,int,bool, datetime64[ns], timedelta[ns], category 和 object

一般情况下,从外部读取的数据,基本上以object为多,如果是数字格式,那么就会是int64或者float64,大多数情况下,读取的日期格式到pandas里面都是 object格式,需要自己转换为datetime64[ns]才行。(格式问题后期会详谈)

  详细参考:http://pandas.pydata.org/pandas-docs/stable/basics.html#dtypes

清洗整理数据:

  我们只需要拿出platName 这一列,然后对平台名称进行分词,看一下网贷平台的取名都会有哪些规律

  导入 jieba 这个库 import jieba(没有安装这个库的 自行 pip install jieba)

  这个算是python中最简单大众的中文分词库了,现在很多教程分词都是用这个库

  这是我之前监控大学同学微信群,然后收集大家短时间内的一顿瞎聊的聊天记录,做出来的云词图效果。

  

  可以看出大家都挺开心的,哈哈哈哈。

  毕业即结婚确实是热门话题,减肥啊,工作啊,外卖啊,胖啊,吃饭啊是大家很关心的话题。

  Jieba详细文档:https://github.com/fxsjy/jieba

  

  操作如下:

  

  得到一个wordDict的词典,现在我们用pandas 将这个词典的key和value 转换成 DataFrame 格式的数据

  

  查看结果

  

  显得乱七八糟,我们按‘value’字段进行降序,看的更直观一些

  result.sort_values(by='value',ascending=False)

  

  此时,分词结果非常的直观了

  可以看到:5776个平台名称中,”财富”出现了662次,”金融”有560次,”贷”出现了557次……

  

  

python 金融网贷数据,pandas进行数据分析并可视化系列 (词频统计,基本操作)的更多相关文章

  1. python 抓取金融数据,pandas进行数据分析并可视化系列 (一)

    终于盼来了不是前言部分的前言,相当于杂谈,算得上闲扯,我觉得很多东西都是在闲扯中感悟的,比如需求这东西,一个人只有跟自己沟通好了,总结出某些东西了,才能更好的和别人去聊,去说. 今天这篇写的是明白需求 ...

  2. 使用python和tableau对数据进行抓取及可视化

    使用python和tableau对数据进行抓取及可视化 本篇文章介绍使用python抓取贷款及理财平台的数据,并将数据拼接和汇总.最终通过tableau进行可视化.与之前的python爬虫文章 不同之 ...

  3. Python 东方财富网-股市行情数据抓取

    东方财富网 股市行情数据抓取: http://quote.eastmoney.com/center/gridlist.html#hs_a_board 请求数据未入库处理,其中数据只存入数据文本,未做存 ...

  4. Python数据分析之文本处理词频统计

    1.项目背景: 原本计划着爬某房产网站的数据做点分析, 结果数据太烂了,链家网的数据干净点, 但都是新开楼盘,没有时间维度,分析意义不大. 学习的步伐不能ting,自然语言处理还的go on 2.分析 ...

  5. python 抓取数据,pandas进行数据分析并可视化展示

    感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为半桶子水的水平,一直在想写什么,为什么写,怎么写. 直到现在找到了一种好的办法: 1.写什么 自己手上掌握的,工 ...

  6. Python 数据处理扩展包: pandas 模块的DataFrame介绍(创建和基本操作)

    DataFrame是Pandas中的一个表结构的数据结构,包括三部分信息,表头(列的名称),表的内容(二维矩阵),索引(每行一个唯一的标记). 一.DataFrame的创建 有多种方式可以创建Data ...

  7. python 读写三菱PLC数据,使用以太网读写Q系列,L系列,Fx系列的PLC数据

    本文将使用一个gitHub开源的组件技术来读写三菱的plc数据,使用的是基于以太网的TCP/IP实现,不需要额外的组件,读取操作只要放到后台线程就不会卡死线程,本组件支持超级方便的高性能读写操作 gi ...

  8. python 爬取的数据要如何展现(可视化)?

    我是把数据放在 mongodb ,然后单独一个脚本作分析,导出 json ,用 c3.js 画图,然后随便写个很简单的页面就好了. 展示在这里: http://107.170.207.236/job_ ...

  9. 在模仿中精进数据分析与可视化01——颗粒物浓度时空变化趋势(Mann–Kendall Test)

      本文是在模仿中精进数据分析与可视化系列的第一期--颗粒物浓度时空变化趋势(Mann–Kendall Test),主要目的是参考其他作品模仿学习进而提高数据分析与可视化的能力,如果有问题和建议,欢迎 ...

随机推荐

  1. css定位讲解

    定位分三种:相对定位,绝对定位,固定定位;     相对定位:position:relatve;     绝对定位:position:absolute; 固定定位:position:fixed; 一, ...

  2. 盒子端 CSS 动画性能提升研究

    不同于传统的 PC Web 或者是移动 WEB,在腾讯视频客厅盒子端,接大屏显示器(电视)下,许多能流畅运行于 PC 端.移动端的 Web 动画,受限于硬件水平,在盒子端的表现的往往不尽如人意. 基于 ...

  3. [转载] gitbook安装与使用

    转载自http://blog.csdn.net/xiaocainiaoshangxiao/article/details/46882921 废话不说,直接主题: gitbook安装 ========= ...

  4. 结合程序崩溃后的core文件分析bug

    引言     在<I/O的效率比较>中,我们在修改图1程序的BUF_SIZE为8388608时,运行程序出现崩溃,如下图1:          图1. 段错误     一般而言,导致程序段 ...

  5. [转]如何监测谁用了SQL Server的Tempdb空间

    Tempdb 系统数据库是一个全局资源,供连接到 SQL Server 实例的所有用户使用.在现在的SQL Server里,其使用频率可能会超过用户的想象.如果Tempdb空间耗尽,许多操作将不能完成 ...

  6. tensorflow 从入门到摔掉肋骨 教程二

    构造你自己的第一个神经网络 通过手势的图片识别图片比划的数字:1) 现在用1080张64*64的图片作为训练集2) 用120张图片作为测试集  定义初始化值 def load_dataset(): ...

  7. StackExchange.Redis学习笔记(三) 数据库及密码配置 GetServer函数

    这一章主要写一些StackExchange.Redis的配置及不太经常用到的函数 数据库连接 下面是我的连接字符串,里面指定了地址,密码,及默认的数据库 Redis启动后默认会分成0-15个数据库,不 ...

  8. mybatis逆向工程使用步骤详解

    使用mybatis生成逆向工程的详细步骤,我个人感觉这个是最简单的一个了,虽然网上有很多种的方法来生成逆向工程,可是这个方法最简单.在这里我是使用maven搭建的环境,但是在正常的环境下也是一样的.步 ...

  9. PowerShell 操作 Azure Blob Storage

    本文假设已经存在了一个 Azure Storage Account,需要进行文件的上传,下载,复制,删除等操作.为了方便查看 PowerShell 代码执行的结果,本文使用了 MS 发布的一个 Azu ...

  10. 照虎画猫写自己的Spring——依赖注入

    前言 上篇<照虎画猫写自己的Spring>从无到有讲述并实现了下面几点 声明配置文件,用于声明需要加载使用的类 加载配置文件,读取配置文件 解析配置文件,需要将配置文件中声明的标签转换为F ...