数据科学工作者(Data Scientist) 的日常工作内容包括什么 众所周知,数据科学是这几年才火起来的概念,而应运而生的数据科学家(data scientist)明显缺乏清晰的录取标准和工作内容.即使在2017年,数据科学家这个岗位的依然显得"既性感又暧昧". 我随手搜索了几家国内国外不同领域的数据科学家招聘广告(国内:阿里巴巴,百度 | 海外: IBM,道明银行,Manulife保险),通过简单的归纳总结,我们不难发现其实岗位要求有很大的重叠部分: 学历要求:硕士以上学历,博士…
数据分析师(Data Analyst):负责从数据中提取出有用的信息,以帮助公司形成业务决策.工作内容包括:对数据进行提取,清洗,分析(用描述统计量,趋势分析,多维度分析,假设检验等统计常用方法对数据进行分析),总结结论并提出建议.数据分析师通常从业务团队那里获取需要分析的具体问题,并提供相应的解决方案.高级数据分析师还需要了解各种模型(如线性回归,决策树等),并能调包实现这些模型. 需要掌握的技能有:熟悉业务,会使用excel,ppt等基本工具,了解统计分析方法,会使用SQL从数据库提取数据,…
一.简介 在上一篇(数据科学学习手札41)中我们了解了folium的基础内容,实际上folium在地理信息可视化上的真正过人之处在于其绘制图像的高度可定制化上,本文就将基于folium官方文档中的一些基本示例来展开说明: 二.处理GeoJSON和TopoJSON数据 2.1 GeoJSON数据 GeoJSON是语法规则符合JSON文件的,专用于表示地理信息的一种JSON文件,其在JSON语法的基础上,内部又有着一套固定的语法规则.在folium中我们使用folium.GeoJson()方法来为已…
1.统计数据库总容量 按表空间分别统计: 总容量(单位为M): 2.计算用户下所有对象大小 3计算USERS表空间的大小 4计算该USERS表空间对象大小 -----------------------------------------------以下摘抄于网络----------------------------------------------- DBA 职责及日常工作职责: 1.安装和升级数据库服务器,以及应用程序工具构建和配置网络环境. 2.熟悉数据库系统的存储结构预测未来的存储需…
0. 硬件平台设计 一种分层的体系结构: 自下到上依次是: 硬件层 分布式系统层 分布式管理层 分布式处理层 应用层: 1. 总论…
一.简介 Plotly是一个非常著名且强大的开源数据可视化框架,它通过构建基于浏览器显示的web形式的可交互图表来展示信息,可创建多达数十种精美的图表和地图,本文就将以jupyter notebook为开发工具,详细介绍Plotly的基础内容. 二.绘图语法规则 2.1 离线绘图方式 Plotly中绘制图像有在线和离线两种方式,因为在线绘图需要注册账号获取API key,较为麻烦,所以本文仅介绍离线绘图的方式.离线绘图又有plotly.offline.plot()和plotly.offline.…
一.简介 folium是js上著名的地理信息可视化库leaflet.js为Python提供的接口,通过它,我们可以通过在Python端编写代码操纵数据,来调用leaflet的相关功能,基于内建的osm或自行获取的osm资源和地图原件进行地理信息内容的可视化,以及制作优美的可交互地图.其语法格式类似ggplot2,是通过不断添加图层元素来定义一个Map对象,最后以几种方式将Map对象展现出来. 而在Map对象的生成形式上,可以在定义所有的图层内容之后,将其保存为html文件在浏览器中独立显示,也可…
转自– Warald (Email: iamxiaoning@gmail.com) 博客: http://www.1point3acres.com,微博:http://www.weibo.com/warald 开头:如果你极其讨厌编程.大学数学勉强合格,或者跟人交流能力巨挫,那这篇文章可能不适合你看,你也可以自动叉掉其他关于data science/scientist的文章.Warald会花一周时间集中介绍一下这门科学,用具体的例子谈一下数据科学家到底做哪些工作.读什么专业.需要什么样的技能,欢…
七个用于数据科学(data science)的命令行工具 数据科学是OSEMN(和 awesome 相同发音),它包括获取(Obtaining).整理(Scrubbing).探索(Exploring).建模(Modeling)和翻译(iNterpreting)数据.作为一名数据科学家,我用命令行的时间非常长,尤其是要获取.整理和探索数据的时候.而且我也不是唯一一个这样做的人.最近,Greg Reda介绍了可用于数据科学的经典命令行工具.在这之前,Seth Brown介绍了如何在Unix下进行探索…
敏捷数据科学:用Hadoop创建数据分析应用(数据分析最佳实践入门敏捷大数据首作分步骤|全流程演示思路.工具与方法) [美]Russell Jurney(拉塞尔·朱尔尼) 著   冯文中 朱洪波 译 ISBN 978-7-121-23619-8 2014年7月出版 定价:49.00元 184页 16开 编辑推荐 对大数据的挖掘需要投入大量的人力和时间.怎么才能确保构建的是一个正确的模型?通过这本实践指南,你可以学到一套灵活的工具和方法论,在Hadoop上构建数据分析应用. 使用诸如Python.…