终于盼来了不是前言部分的前言,相当于杂谈,算得上闲扯,我觉得很多东西都是在闲扯中感悟的,比如需求这东西,一个人只有跟自己沟通好了,总结出某些东西了,才能更好的和别人去聊,去说。
  今天这篇写的是明白需求,其实更多的是想和大家聊天,只有把这个聊开了,后面的东西做起来才有意义,才有价值,在聊天中,思考中发现价值(化身为话唠了?)
  有时候你自以为某些东西很重要,其实那只是站在自己的角度觉得很重要,更需要的是站在别人,站在市场的角度去思考这个问题,特么的到底重不重要。
  需求我觉得可以分为两类:自己主动去做的和别人要求你去做的。别人要求你做的,你完成的很快,大部分人都是走走肾就能搞定。但是自己主动去做的,我觉得没人会只走肾不走心的。 当你真正主动去做一件事的时候,那件事才能带来价值,不然对你来说无非就是浪费时间浪费生命浪费撩妹的好时光,可是人生不就是用来浪费的吗?(好矛盾)
 
  感悟一:做数据相关的工作,如果只是一味被动的去出一些数据报表,完成一些没有自己想法的数据报告,不带有任何感情色彩去做,不把自己的想法和思维附在那一堆枯燥的数据上,那终究是一件浪费时间浪费生命浪费撩妹的好时光的工作。如果给一家企业这么干活,永远只会是人手,不会成为人才,最终可能会发展成为奇葩。
  所以,对待需求,不能只走肾,不走心~ 去挖掘,去发现,去好奇,去探索,去尝试着犯错。主动给自己揽活干,把被动变主动,养成了主动的习惯,不仅仅只对你手头的工作有好处,对整个人的思维都是有帮助的,这是一辈子的事。只有去不断思考了,需求才会出来。
  说个真事儿,年初的时候总监让我出报表,需求就是:一周起码要产出5张新数据报表。如过是你,你会怎么做呢?
  我还真那么去做了,几周下来,居然好神奇的出了几十张数据报表,后来我发现不对劲,出了这么多数据报表,意义何在?除了走量,好像然并卵啊。呵呵,我承认我走肾了。
 
  感悟二:搞数据,最重要的不是你使用什么工具,而是你的数据思维,让受伤的数据产生价值。武功再高,也怕菜刀。你用excel 计算 1+1 和 python 计算 1+1 ,都是等于2。具体使用什么工具,你得看自己手上的需求和数据规模,几千上万的数据,就别来问用什么工具了,你玩得溜,用excel照样切菜。
  举个例子:现在手上有一客户基本信息数据(user表),给他们按区域统计一下人数。
    2W条的量:excel透视表一下,就行了,你说你要搞个hadoop来跑2W量的数据,why not?
    10W条的量:用excel就吃力了,用sql是ok的 (select area as '区域',count(area) as '人数' from user group by area
    100W条的量:用python的pandas库就好了 (user.area.value_counts()
    1000W以上的量:pandas可以做,但是分布式的做起来就更ok了。
  所以,别一上来就是哪个工具哪个工具,这个不是最重要的,最重要的是你怎么让那堆数据对业务产生价值,这才是重中之重。当然咯,并不是说会一种就行了,需要不断地学习。
 
  感悟三:如果你的工作就是数据分析,但是领导没数据这方面意识,要不改变他要不就放弃作,change or giveup,这和追妹子一个道理,热脸贴冷屁股,没意思。
 
  这次写这些文章,我先把自己需求弄懂了,决定从(获取数据--读取数据--清洗整理数据--统计分析数据--数据报告产出--总结) 这一条龙过程中用到的知识梳理一下,也算来个全套咯,嘿嘿嘿。
  仅针对中小企业日常数据统计分析所涉及的工作内容,半桶子水,能力有限,其他级别的的可以绕行了:
  获取数据:打算从网上抓取XX金融网站的投资贷款数据用来作为数据源,基本上每个维度每个格式的数据都有,便于后期的操作
  读取数据:这里我会把获取的数据分为xls,csv,sql,还有pandas的DataFrame格式的数据,分别进行操作,以应对各式的数据源格式
  清洗整理数据:excel,sql,python,javascript都会用到
  统计分析数据:主用python的pandas 和 sql。
  数据报告产出:我会用到django的web开发用来做可视化(html,css,javascript),以及手上现有的报表系统,word,pdf,ppt都是可行的
  总结:将用到的方法和遇到的问题进行概括总结
 
  明白需求,再去开始你接下来的任务,走肾是可耻的。不求赞同,只求理解,大家一起进步,在工作过程中任何感触和问题,都可以一起分享一起讨论交流。欢迎大家加我QQ1749061919,一起交流与学习。
 

python 抓取金融数据,pandas进行数据分析并可视化系列 (一)的更多相关文章

  1. 利用python抓取页面数据

    1.首先是安装python(注意python3.X和python2.X是不兼容的,我们最好用python3.X) 安装方法:安装python 2.安装成功后,再进行我们需要的插件安装.(这里我们需要用 ...

  2. python 抓取alexa数据

    要抓取http://www.alexa.cn/rank/baidu.com网站的排名信息:例如抓取以下信息: 需要微信扫描登录 因为这个网站抓取数据是收费,所以就利用网站提供API服务获取json信息 ...

  3. 记录使用jQuery和Python抓取采集数据的一个实例

    从现成的网站上抓取汽车品牌,型号,车系的数据库记录. 先看成果,大概4w条车款记录 一共建了四张表,分别存储品牌,车系,车型和车款 大概过程: 使用jQuery获取页面中呈现的大批内容 能通过页面一次 ...

  4. 使用python抓取App数据

    App接口爬取数据过程使用抓包工具手机使用代理,app所有请求通过抓包工具获得接口,分析接口反编译apk获取key突破反爬限制需要的工具:夜神模拟器FiddlerPycharm实现过程首先下载夜神模拟 ...

  5. 网络爬虫-使用Python抓取网页数据

    搬自大神boyXiong的干货! 闲来无事,看看了Python,发现这东西挺爽的,废话少说,就是干 准备搭建环境 因为是MAC电脑,所以自动安装了Python 2.7的版本 添加一个 库 Beauti ...

  6. python 金融网贷数据,pandas进行数据分析并可视化系列 (词频统计,基本操作)

    需求: 某某金融大亨想涉足金融网贷,想给网贷平台取一个名字,那么取什么名字,名字里面包含哪些关键字,在行业内的曝光率会相比较高一些呢? 可以理解为: 你负责某某网贷平台的网络推广工作,如何进一步优化各 ...

  7. Python抓取双色球数据

    数据来源网站http://baidu.lecai.com/lottery/draw/list/50?d=2013-01-01 HTML解析器http://pythonhosted.org/pyquer ...

  8. python 爬取的数据要如何展现(可视化)?

    我是把数据放在 mongodb ,然后单独一个脚本作分析,导出 json ,用 c3.js 画图,然后随便写个很简单的页面就好了. 展示在这里: http://107.170.207.236/job_ ...

  9. 使用 Python 抓取欧洲足球联赛数据

    Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤    数据的采集和获取    数据的清洗,抽取,变形和装载    数据的分析,探索和预测    ...

随机推荐

  1. 使用ftp软件上传下载php文件时换行丢失bug(全部变为一行)

    文章来源:http://www.piaoyi.org/computer/ftp-php-r-n-bug.html 正 文: 在使用ftp软件上传下载php源文件时,我们偶尔会发现在本地windows下 ...

  2. web项目生成war包的问题

    今天面试一家公司,问我生成war包的命令是什么? 当时没明白,就说自己用的eclipse直接右键 export --->war 完了重启tomcat(第一种) 好久没用maven了.回来一查才明 ...

  3. typeof、constructor和instance

    在JavaScript中,我们经常使用typeof来判断一个变量的类型,使用格式为:typeof(data)或typeof data.typeof返回的数据类型有六种:number.string.bo ...

  4. Windows下swoole扩展的编译安装部署

    1. 到cygwin官网下载cygwin. 官网地址:https://www.cygwin.com/ 2. 打开下载好的cygwin安装包,开始安装cygwin. 选择cygwin的安装目录(这个同时 ...

  5. Ubuntu on win10

    大家看到这个题目应该都知道这个东西吧,或许也都知道咋安装啥的,我只是想分享一下自己安装它的过程同时可以对那些有需要的人给予帮助!!! 1. 打开开发者模式(如下图) 像上面这样打开开发人员模式,过程会 ...

  6. 从入门到放弃之IO

    浅说IO 学到现在利用过的特殊符号不少组合起来很多都有让人眼前一亮的用法,在这里先聊聊I/O的一些相关知识. 本文开始之前先介绍一下需要知道的一些小知识和需要注意的地方. 在linux中也是有优先级的 ...

  7. ES6新特性 Class的实现

    ES5之前类的继承是靠原型实现的,而这一过程的实现又涉及到一大堆的原型定义,特别是ES5推出了Object.definePorperty()方法后,代码更加晦涩.但是这种方式正是javascript这 ...

  8. java使用for循环做猜数字游戏

    package org.llh.test;import java.util.Random;import java.util.Scanner;/** * 猜数字游戏 *  * @author llh * ...

  9. redis源码分析之发布订阅(pub/sub)

    redis算是缓存界的老大哥了,最近做的事情对redis依赖较多,使用了里面的发布订阅功能,事务功能以及SortedSet等数据结构,后面准备好好学习总结一下redis的一些知识点. 原文地址:htt ...

  10. 关于easyui的datagrid属性出现乱码问题

    今天遇到这个问题也是纠结了好久,经过在网上各种查询总结,得出以下经验: 1:网页字符集设置为UTF-8: <meta content="charset=UTF-8 " /&g ...