终于盼来了不是前言部分的前言,相当于杂谈,算得上闲扯,我觉得很多东西都是在闲扯中感悟的,比如需求这东西,一个人只有跟自己沟通好了,总结出某些东西了,才能更好的和别人去聊,去说。
  今天这篇写的是明白需求,其实更多的是想和大家聊天,只有把这个聊开了,后面的东西做起来才有意义,才有价值,在聊天中,思考中发现价值(化身为话唠了?)
  有时候你自以为某些东西很重要,其实那只是站在自己的角度觉得很重要,更需要的是站在别人,站在市场的角度去思考这个问题,特么的到底重不重要。
  需求我觉得可以分为两类:自己主动去做的和别人要求你去做的。别人要求你做的,你完成的很快,大部分人都是走走肾就能搞定。但是自己主动去做的,我觉得没人会只走肾不走心的。 当你真正主动去做一件事的时候,那件事才能带来价值,不然对你来说无非就是浪费时间浪费生命浪费撩妹的好时光,可是人生不就是用来浪费的吗?(好矛盾)
 
  感悟一:做数据相关的工作,如果只是一味被动的去出一些数据报表,完成一些没有自己想法的数据报告,不带有任何感情色彩去做,不把自己的想法和思维附在那一堆枯燥的数据上,那终究是一件浪费时间浪费生命浪费撩妹的好时光的工作。如果给一家企业这么干活,永远只会是人手,不会成为人才,最终可能会发展成为奇葩。
  所以,对待需求,不能只走肾,不走心~ 去挖掘,去发现,去好奇,去探索,去尝试着犯错。主动给自己揽活干,把被动变主动,养成了主动的习惯,不仅仅只对你手头的工作有好处,对整个人的思维都是有帮助的,这是一辈子的事。只有去不断思考了,需求才会出来。
  说个真事儿,年初的时候总监让我出报表,需求就是:一周起码要产出5张新数据报表。如过是你,你会怎么做呢?
  我还真那么去做了,几周下来,居然好神奇的出了几十张数据报表,后来我发现不对劲,出了这么多数据报表,意义何在?除了走量,好像然并卵啊。呵呵,我承认我走肾了。
 
  感悟二:搞数据,最重要的不是你使用什么工具,而是你的数据思维,让受伤的数据产生价值。武功再高,也怕菜刀。你用excel 计算 1+1 和 python 计算 1+1 ,都是等于2。具体使用什么工具,你得看自己手上的需求和数据规模,几千上万的数据,就别来问用什么工具了,你玩得溜,用excel照样切菜。
  举个例子:现在手上有一客户基本信息数据(user表),给他们按区域统计一下人数。
    2W条的量:excel透视表一下,就行了,你说你要搞个hadoop来跑2W量的数据,why not?
    10W条的量:用excel就吃力了,用sql是ok的 (select area as '区域',count(area) as '人数' from user group by area
    100W条的量:用python的pandas库就好了 (user.area.value_counts()
    1000W以上的量:pandas可以做,但是分布式的做起来就更ok了。
  所以,别一上来就是哪个工具哪个工具,这个不是最重要的,最重要的是你怎么让那堆数据对业务产生价值,这才是重中之重。当然咯,并不是说会一种就行了,需要不断地学习。
 
  感悟三:如果你的工作就是数据分析,但是领导没数据这方面意识,要不改变他要不就放弃作,change or giveup,这和追妹子一个道理,热脸贴冷屁股,没意思。
 
  这次写这些文章,我先把自己需求弄懂了,决定从(获取数据--读取数据--清洗整理数据--统计分析数据--数据报告产出--总结) 这一条龙过程中用到的知识梳理一下,也算来个全套咯,嘿嘿嘿。
  仅针对中小企业日常数据统计分析所涉及的工作内容,半桶子水,能力有限,其他级别的的可以绕行了:
  获取数据:打算从网上抓取XX金融网站的投资贷款数据用来作为数据源,基本上每个维度每个格式的数据都有,便于后期的操作
  读取数据:这里我会把获取的数据分为xls,csv,sql,还有pandas的DataFrame格式的数据,分别进行操作,以应对各式的数据源格式
  清洗整理数据:excel,sql,python,javascript都会用到
  统计分析数据:主用python的pandas 和 sql。
  数据报告产出:我会用到django的web开发用来做可视化(html,css,javascript),以及手上现有的报表系统,word,pdf,ppt都是可行的
  总结:将用到的方法和遇到的问题进行概括总结
 
  明白需求,再去开始你接下来的任务,走肾是可耻的。不求赞同,只求理解,大家一起进步,在工作过程中任何感触和问题,都可以一起分享一起讨论交流。欢迎大家加我QQ1749061919,一起交流与学习。
 

python 抓取金融数据,pandas进行数据分析并可视化系列 (一)的更多相关文章

  1. 利用python抓取页面数据

    1.首先是安装python(注意python3.X和python2.X是不兼容的,我们最好用python3.X) 安装方法:安装python 2.安装成功后,再进行我们需要的插件安装.(这里我们需要用 ...

  2. python 抓取alexa数据

    要抓取http://www.alexa.cn/rank/baidu.com网站的排名信息:例如抓取以下信息: 需要微信扫描登录 因为这个网站抓取数据是收费,所以就利用网站提供API服务获取json信息 ...

  3. 记录使用jQuery和Python抓取采集数据的一个实例

    从现成的网站上抓取汽车品牌,型号,车系的数据库记录. 先看成果,大概4w条车款记录 一共建了四张表,分别存储品牌,车系,车型和车款 大概过程: 使用jQuery获取页面中呈现的大批内容 能通过页面一次 ...

  4. 使用python抓取App数据

    App接口爬取数据过程使用抓包工具手机使用代理,app所有请求通过抓包工具获得接口,分析接口反编译apk获取key突破反爬限制需要的工具:夜神模拟器FiddlerPycharm实现过程首先下载夜神模拟 ...

  5. 网络爬虫-使用Python抓取网页数据

    搬自大神boyXiong的干货! 闲来无事,看看了Python,发现这东西挺爽的,废话少说,就是干 准备搭建环境 因为是MAC电脑,所以自动安装了Python 2.7的版本 添加一个 库 Beauti ...

  6. python 金融网贷数据,pandas进行数据分析并可视化系列 (词频统计,基本操作)

    需求: 某某金融大亨想涉足金融网贷,想给网贷平台取一个名字,那么取什么名字,名字里面包含哪些关键字,在行业内的曝光率会相比较高一些呢? 可以理解为: 你负责某某网贷平台的网络推广工作,如何进一步优化各 ...

  7. Python抓取双色球数据

    数据来源网站http://baidu.lecai.com/lottery/draw/list/50?d=2013-01-01 HTML解析器http://pythonhosted.org/pyquer ...

  8. python 爬取的数据要如何展现(可视化)?

    我是把数据放在 mongodb ,然后单独一个脚本作分析,导出 json ,用 c3.js 画图,然后随便写个很简单的页面就好了. 展示在这里: http://107.170.207.236/job_ ...

  9. 使用 Python 抓取欧洲足球联赛数据

    Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤    数据的采集和获取    数据的清洗,抽取,变形和装载    数据的分析,探索和预测    ...

随机推荐

  1. 基于Hadoop(M/R)的MySQL到Oracle海量数据切割

    # 背景介绍 大数据时代,海量数据的迁移会很普遍地出现在各个应用场景,本文主要讨论利用Sqoop的分布式能力从关系型数据库MySQL到Oracle的海量数据迁移和切割. # 所需环境 1 JDK+Ec ...

  2. 有序线性表(存储结构数组)--Java实现

    /*有序数组:主要是为了提高查找的效率 *查找:无序数组--顺序查找,有序数组--折半查找 *其中插入比无序数组慢 * */ public class MyOrderedArray { private ...

  3. Java基础-方法(07)

    方法的定义 方法其实就是完成特定功能的代码块在很多语言里面都有函数的定义函数在Java中被称为方法 格式: 修饰符 返回值类型 方法名(参数类型 参数名1,参数类型 参数名2…) { 函数体; ret ...

  4. jstl 中 <c:foreach> 多级循环

  5. ajax跨域请求解决方案

    大家好,今天我们学习了js的跨域请求的解决方案,由于JS中存在同源策略,当请求不同协议名,不同端口号.不同主机名下面的文件时,将会违背同源策略,无法请求成功!需要进行跨域处理! 方案一.后台PHP进行 ...

  6. 修改Servlet模板,让Servlet更清新

    每次新建一个Servlet,都会有很多的代码跟注释,但是在实际开发中我们是用不到这些的,所以每次都得手动删除,非常麻烦,所以接下来讲一下如何让自己的Servlet看上去更清新: 首先找到你的Myecl ...

  7. 由浅入深学习springboot中使用redis

    很多时候,我们会在springboot中配置redis,但是就那么几个配置就配好了,没办法知道为什么,这里就详细的讲解一下 这里假设已经成功创建了一个springboot项目. redis连接工厂类 ...

  8. MyBatis 一、二级缓存和自定义缓存

    1.一级缓存 ​ MyBatis 默认开启了一级缓存,一级缓存是在SqlSession 层面进行缓存的.即,同一个SqlSession ,多次调用同一个Mapper和同一个方法的同一个参数,只会进行一 ...

  9. [转载] Storm:最火的流式处理框架

    转载自http://www.cnblogs.com/langtianya/p/5199529.html 伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样.更加便捷,同 ...

  10. 使用MS Test做单元测试

    声明:本篇博客翻译自:http://www.c-sharpcorner.com/article/unit-testing-with-ms-tests-in-c-sharp/ 写在翻译之前: 依然清晰的 ...