python 金融网贷数据，pandas进行数据分析并可视化系列 (词频统计,基本操作)

需求：

　　某某金融大亨想涉足金融网贷，想给网贷平台取一个名字，那么取什么名字，名字里面包含哪些关键字，在行业内的曝光率会相比较高一些呢？

可以理解为：

你负责某某网贷平台的网络推广工作，如何进一步优化各广告推广平台上的搜索关键词，这些网贷平台的名称都有啥共同点？

其实就是：

想看看各网贷平台名称的高频词汇,给各平台的名称划下重点

找数据：

　　获取所有网贷平台的平台基本名称数据，这样子才能进行下一步工作

　　把网贷之家上所有平台的数据找出来，这样就可以了

读取数据：

　　import pymysql

　　import pandas as pd

　　方法一：pandas直接读取数据库数据

　　　　1. 用pymysql连接数据库

　　　　2. 用pandas 通过数据库读取数据(读取速度非常的快)

　　方法二：pandas读取本地xls或者csv格式文件（因为并不是所有做数据的人都有权限访问数据库，有些是从系统导出数据，再进行操作，所以这也是为了照顾这批人）

　　读取数据后的基本操作

　　查看数据内容

　　　　plat 查看所有的数据,我一般都是用Jupyter QtConsole 编译器进行数据操作，很灵活

　　plat.head() 默认是查看前5行可加参数比如 plat.head(n=10) 则是查看前十行

　　plat.tail() 默认是查看后5行可加参数比如 plat.tail(n=10) 则是查看后十行

　　查看某一列

　　plat.platName.head()

　　查看多列则是：plat[['platId',’platPin’,’platName’]].head()

　　查看各字段的数据类型

　　plat.dtypes

　　在pandas 里面有这么几种主要从数据类型：float,int,bool, datetime64[ns], timedelta[ns], category 和 object

一般情况下，从外部读取的数据，基本上以object为多，如果是数字格式，那么就会是int64或者float64,大多数情况下，读取的日期格式到pandas里面都是 object格式，需要自己转换为datetime64[ns]才行。（格式问题后期会详谈）

　　详细参考：http://pandas.pydata.org/pandas-docs/stable/basics.html#dtypes

清洗整理数据：

　　我们只需要拿出platName 这一列，然后对平台名称进行分词，看一下网贷平台的取名都会有哪些规律

　　导入 jieba 这个库 import jieba（没有安装这个库的自行 pip install jieba）

　　这个算是python中最简单大众的中文分词库了，现在很多教程分词都是用这个库

　　这是我之前监控大学同学微信群，然后收集大家短时间内的一顿瞎聊的聊天记录，做出来的云词图效果。

　　可以看出大家都挺开心的，哈哈哈哈。

　　毕业即结婚确实是热门话题，减肥啊，工作啊，外卖啊，胖啊，吃饭啊是大家很关心的话题。

　　Jieba详细文档：https://github.com/fxsjy/jieba

　　操作如下：

　　得到一个wordDict的词典，现在我们用pandas 将这个词典的key和value 转换成 DataFrame 格式的数据

　　查看结果

　　显得乱七八糟，我们按‘value’字段进行降序，看的更直观一些

　　result.sort_values(by='value',ascending=False)

　　此时，分词结果非常的直观了

　　可以看到：5776个平台名称中，”财富”出现了662次，”金融”有560次，”贷”出现了557次……

python 金融网贷数据，pandas进行数据分析并可视化系列 (词频统计,基本操作)的更多相关文章

python 抓取金融数据，pandas进行数据分析并可视化系列 (一)
终于盼来了不是前言部分的前言,相当于杂谈,算得上闲扯,我觉得很多东西都是在闲扯中感悟的,比如需求这东西,一个人只有跟自己沟通好了,总结出某些东西了,才能更好的和别人去聊,去说. 今天这篇写的是明白需求 ...
使用python和tableau对数据进行抓取及可视化
使用python和tableau对数据进行抓取及可视化本篇文章介绍使用python抓取贷款及理财平台的数据,并将数据拼接和汇总.最终通过tableau进行可视化.与之前的python爬虫文章不同之 ...
Python 东方财富网-股市行情数据抓取
东方财富网股市行情数据抓取: http://quote.eastmoney.com/center/gridlist.html#hs_a_board 请求数据未入库处理,其中数据只存入数据文本,未做存 ...
Python数据分析之文本处理词频统计
1.项目背景: 原本计划着爬某房产网站的数据做点分析, 结果数据太烂了,链家网的数据干净点, 但都是新开楼盘,没有时间维度,分析意义不大. 学习的步伐不能ting,自然语言处理还的go on 2.分析 ...
python 抓取数据，pandas进行数据分析并可视化展示
感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为半桶子水的水平,一直在想写什么,为什么写,怎么写. 直到现在找到了一种好的办法: 1.写什么自己手上掌握的,工 ...
Python 数据处理扩展包： pandas 模块的DataFrame介绍（创建和基本操作）
DataFrame是Pandas中的一个表结构的数据结构,包括三部分信息,表头(列的名称),表的内容(二维矩阵),索引(每行一个唯一的标记). 一.DataFrame的创建有多种方式可以创建Data ...
python 读写三菱PLC数据，使用以太网读写Q系列，L系列，Fx系列的PLC数据
本文将使用一个gitHub开源的组件技术来读写三菱的plc数据,使用的是基于以太网的TCP/IP实现,不需要额外的组件,读取操作只要放到后台线程就不会卡死线程,本组件支持超级方便的高性能读写操作 gi ...
python 爬取的数据要如何展现（可视化）？
我是把数据放在 mongodb ,然后单独一个脚本作分析,导出 json ,用 c3.js 画图,然后随便写个很简单的页面就好了. 展示在这里: http://107.170.207.236/job_ ...
在模仿中精进数据分析与可视化01——颗粒物浓度时空变化趋势（Mann–Kendall Test）
本文是在模仿中精进数据分析与可视化系列的第一期--颗粒物浓度时空变化趋势(Mann–Kendall Test),主要目的是参考其他作品模仿学习进而提高数据分析与可视化的能力,如果有问题和建议,欢迎 ...

随机推荐

一起写框架-Ioc内核容器的实现-基础功能-getBean（五）
实现的功能 1. 启动程序时,将@ComponentScan加载的类,创建对象并放在容器里面.(查看上一篇文) 2. 通过ApplicatoinContext的getBean()方法获得容器里面的对象 ...
Java build path && Deployment assembly && 编译路径 && 发布路径
java build path java源文件,编译后,输出的路径,默认值为: *此时的源码文件夹在 /src deployment assembly 系统发布路径设置,将完成(或未完成)的项目对应的 ...
流式数据分析模型kafka+storm
http://www.cnblogs.com/panfeng412/archive/2012/07/29/storm-stream-model-analysis-and-discussion.html ...
Xshell 的安装教程
Xshell就是一个远程控制RHEL的软件:其他的还有很多,用什么都无所谓(根据公司情况). 下面我们来安装下这个工具: 双击exe 点下一步: 选免费的然后下一步:(免费的功能足够用了) 点接受 ...
整合springboot（app后台框架搭建四）
springboot可以说是为了适用SOA服务出现,一方面,极大的简便了配置,加速了开发速度:第二方面,也是一个嵌入式的web服务,通过jar包运行就是一个web服务: 还有提供了很多metric,i ...
Linux系统查找文件目录的命令
查找目录名autobackup,并且列出路径:find -name 'autobackup'-type d find -name 'directoryname'-type d
基于树莓派的智能家居项目的设想与实现 Hestia
注:本人内容的准确性仅限于笔者写该篇文章时的情况,不保证后续与实际项目代码一致.实时内容还请关注Github项目托管页面:https://github.com/GenialX/hestia-serve ...
C# 串口接收数据中serialPort.close()死锁
最近在做一个有关高铁模拟仓显示系统的客户端程序,在这个程序中要运用串口serialPort传输数据,因为每次接收数据结束后要更新UI界面,所以就用到了的Invoke,将更新UI的程序代码封装到一个方法 ...
Python——Scrapy初学
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架.可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中.Scrapy最初是为了页面抓取(更确切来说, 网络抓取)所设计的,也 ...
robotframework自动化系统：操作mysql数据库
随着项目自动化深入和不断完善,大部分功能都已经能完成了自动化的操作:但是在设备添加的时候,遇到了难题.添加设备的时候mac必须是服务器设备管理中已经存在的mac地址,且是没有关联或绑定用户的设备信息. ...

python 金融网贷数据，pandas进行数据分析并可视化系列 (词频统计,基本操作)

python 金融网贷数据，pandas进行数据分析并可视化系列 (词频统计,基本操作)的更多相关文章

随机推荐

热门专题