Coursera-Getting and Cleaning Data-Week3 Wednesday, February 04, 2015 好久不写笔记了,年底略忙.. Getting and Cleaning Data第三周其实没什么好说的,一个quiz,一个project,加一个swirl. 基本上swirl已经把第三周的内容都概括进去了.就是dplyr, tidyr以及lubridate包的学习和使用.其中dplyr专注于选择/筛选,tidyr关注于数据重塑型,二lubridate是我目前…
目录 R 中清洗数据 常见三种查看数据的函数 Exploring raw data 使用dplyr包里面的glimpse函数查看数据结构 \(提取指定元素 ```{r} # Histogram of BMIs from 2008 hist(bmi\)Y2008) Scatter plot comparing BMIs from 1980 to those from 2008 Introduction to tidyr gather() spread() spreate() unite() 常见数…
Coursera课程<Python Data Structures> 密歇根大学 Charles Severance Week6 Tuple 10 Tuples 10.1 Tuples Are Like Lists 元组是另外一种序列,它的方法和list挺像的.它的元素也是从0开始计数. >>> x = ('Glenn', 'Sally', 'Joseph') >>> print(x[2]) Joseph >>> y = (1, 9, 2)…
目录 Representation Feature Engineering Mapping Raw Data to Features Mapping numeric values Mapping categorical values Sparse Representation Glossay Qualities of Good Features Avoid rarely used discrete feature values Prefer clear and obvious meanings…
目录 inner_join Joining three tables left_join right-join full_join semi- and anti-join Stack Overflow questions bind_rows split inner_join 按条件取交集dplyr高效处理函数笔记 The inner_join is the key to bring tables together. To use it, you need to provide the two t…
类和对象(Week 3) 内联成员函数和重载成员函数 内联成员函数 inline + 成员函数 整个函数题出现在类定义内部 class B{ inline void func1(); //方式1 void func2() //方式2 { }; }; void B::func1(){} 成员函数的重载及参数缺省 重载成员函数 成员函数--带缺省参数 #include<iostream> using namespace std; class Location{ private: intx,y; p…
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html Thursday, January 29, 2015 补上第四周笔记,以及本次课程总结. 第四周课程主要针对text进行处理.里面包括 1.变量名的处理 2.正则表达式 3.日期处理(参见swirl lubridate包练习) 首先,变量名的处理,奉行两个原则,1)统一大小写tolower/toupper:2)去掉在导入数据时,因为特殊字符导致的合并变量 3)不要重复:4)少用代码缩写 使用的…
dplyr 0.4.0 January 9, 2015 in Uncategorized I’m very pleased to announce that dplyr 0.4.0 is now available from CRAN. Get the latest version by running: install.packages("dplyr") dplyr 0.4.0 includes over 80 minor improvements and bug fixes, wh…
Cleaning data in Python   Table of Contents Set up environments Data analysis packages in Python Clean data in Python Load dataset into Spyder Subset Drop data Transform data Create new variables Rename variables Merge two datasets Handle missing val…
博客总目录,记录学习R与数据分析的一切:http://www.cnblogs.com/weibaar/p/4507801.html -- Sunday, January 11, 2015 课程概述 Getting and Cleaning Data是Coursera数据科学专项的第三门课,有中文翻译.但是由于中文区讨论没有英文区热闹,以及资料积累,强烈建议各位同时选报中文项目和英文项目,可以互相匹配学习. Week1的课程概括下来,主要介绍了getting and cleaning data的目…
Coursera-Getting and Cleaning Data-Week2 Saturday, January 17, 2015 课程概述 week2主要是介绍从各个来源读取数据.包括MySql,HDF5,webpage,API等,范围还蛮广. 因为工作和日常中没有直接到数据库拿数据的权限,所以暂时只是走马观花看了一遍,然后做quiz时再看一遍,留个概念即可. 下面的笔记因为主要是我自己留着以后做备查的,所以可能有些地方有点泄题.强烈建议想要好好学习,认真学习的人,优先先看一下视频,然后跟…
R语言扩展包dplyr——数据清洗和整理 标签: 数据R语言数据清洗数据整理 2015-01-22 18:04 7357人阅读 评论(0) 收藏 举报  分类: R Programming(11)  版权声明:本文为博主原创文章,未经博主允许不得转载. 该包主要用于数据清洗和整理,coursera课程链接:Getting and Cleaning Data 也可以载入swirl包,加载课Getting and Cleaning Data跟着学习. 如下: library(swirl) insta…
Are you a interested in taking a course with us? Learn about our programs or contact us at hello@zipfianacademy.com. There are plenty of articles and discussions on the web about what data science is, what qualitiesdefine a data scientist, how to nur…
本文转载自网络,原作者不详. (本文是用 markdown 写的,访问 https://www.zybuluo.com/illuz/note/71868 获得更佳体验) 程序语言 interactivepython-003 Rice - An Introduction to Interactive Programming in Python 链接: http://pan.baidu.com/s/1kTJA0Er 密码: 9pdh (分享失败) Python Advanced Tutorial (…
In my last article, I stated that for practitioners (as opposed to theorists), the real prerequisite for machine learning is data analysis, not math. One of the main reasons for making this statement, is that data scientists spend an inordinate amoun…
# coding: utf-8 # In[18]: import pandas as pdimport numpy as npfrom sklearn import treefrom sklearn.svm import SVCfrom sklearn.grid_search import GridSearchCVfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import classificati…
CS100.1x简介 这门课主要讲数据科学,也就是data science以及怎么用Apache Spark去分析大数据. Course Software Setup 这门课主要介绍如何编写和调试PySpark.本节主要介绍环境搭配.为了让所有人环境一致,本课程的编程环境是用Virtual Machine.你需要安装VirtualBox和Vagrant来搭环境. 硬件和软件要求 这门课需要的最小硬件配置如下: 硬盘空间: 3.5 GB 内存: 2.5 GB (4+ GB 更好) 处理器: 任何I…
从面向找工作的角度出发,我觉得以下课程有很大帮助: 首推Robert Sedgewick,也是我觉得对我帮助最大的老师,讲课特点是能把复杂的算法讲解清楚(典型例子:红黑树,KMP算法) 他在Coursera有四门课,循序渐进,也越来越理论,尤其是前三门,非常值得一上.个人认为上完前两门,你的理论基础(当然还要结合刷题的实践)已经可以虐普遍的小公司和大部分的大公司了.上完第三门可以虐一流公司如Google,Facebook,Linkedin等.第四门还没开,不过看过课程介绍,觉得上完可以去当大公司…
A Small Definition of Big Data The term "big data" seems to be popping up everywhere these days. And there seems to be as many uses of this term as there are contexts in which you find it: 'big data' is often used to refer to any dataset that is…
Coursera课程<Python Data Structures> 密歇根大学 Charles Severance Week5 Dictionary 9.1 Dictionaries 字典就像是一个包,而这个包里的每样东西都整整齐齐地贴好了标签,于是我们可以通过标签来找到我们想要的东西.而且注意,字典这个包是无序的,所以它不能根据顺序索引,只能根据标签. >>> purse = dict() >>> purse['money'] = 12 >>…
Coursera课程<Python Data Structures> 密歇根大学 Charles Severance Week4 List 8.2 Manipulating Lists 8.2.1 Concatenating Lists Using + 使用"+"可以把存在的两个list加在一起.如: >>> a = [1, 2, 3] >>> b = [4, 5, 6] >>> c = a + b >>&g…
本文版权归http://www.cnblogs.com/weibaar 本文旨在介绍R语言中ggplot2包的一些精细化操作,主要适用于对R画图有一定了解,需要更精细化作图的人,尤其是那些刚从excel转ggplot2的各位,有比较频繁的作图需求的人.不讨论那些样式非常酷炫的图表,以实用的商业化图表为主.包括以下结构: 1.画图前的准备:自定义ggplot2格式刷 2.画图前的准备:数据塑形利器dplyr / tidyr介绍 3.常用的商业用图: 1)简单柱形图+文本(单一变量) 2)分面柱形图…
https://www.quora.com/How-do-I-learn-machine-learning-1?redirected_qid=6578644   How Can I Learn X? Learning Machine Learning Learning About Computer Science Educational Resources Advice Artificial Intelligence How-to Question Learning New Things Lea…
注意:这文章是2月份写的,拉勾网早改版了,代码已经失效了,大家意思意思就好,主要看代码的使用方法吧.. 最近一直在用且有维护的另一个爬虫是KINDLE 特价书爬虫,blog地址见此: http://www.cnblogs.com/weibaar/p/4824578.html 博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html R语言爬虫初尝试-基于RVEST包学习 Thursday, February 26, 2015 在学完coursera的…
Previously in this series: The beta distribution Empirical Bayes estimation Credible intervals The Bayesian approach to false discovery rates Bayesian A/B testing Beta-binomial regression Understanding empirical Bayesian hierarchical modeling Mixture…
Jay & I cover dashboards in Chapter 10 of Data-Driven Security (the book) but have barely mentioned them on the blog. That’s about to change with a new series on building dashboards using the all-new shinydashboard framework developed by RStudio. Whi…
什么是DataFrame 引用 r-tutor上的定义: DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量. 没错,DataFrame就是类似于Excel表格和MySQL数据库一样是一个结构化的数据体.而这种结构化的数据体是当代数据流编程中的中流砥柱,几乎所有先进算法的载体都是DataFrame,比如现在我们耳熟能详的逻辑回归算法.贝叶斯算法.支持向量机算法.XGBoost算法等等都建立在这个数据流编程的基础之上,我们可以在R.Python.Scala…
第5章工欲善其事.必先利其器 代码,是延伸我们思想最好的工具. 第6章基础编程--用别人的包和函数讲述自己的故事 6.1编程环境 1.R语言的三段论 大前提:计算机语言程序=算法+数据结构 小前提:R语言不过是计算机语言的一种 结论:R语言约等于基础编程+数据对象 2.运行机制 RStudio=记事本+R Console 6.2Mini案例 学生文理分科小案例(还有问题) R仅有的命令形式是返回结果的函数和表达式 赋值是一种常见的操作:对象的读取.转换.模型的建立等 赋值给新的对象,往往也意味着…
R数据科学(R for Data Science) Part 1:探索 by: PJX for 查漏补缺 exercise: https://jrnold.github.io/r4ds-exercise-solutions ------------前言------------------------------- library(tidyverse) #核心包:ggplot2/tibble/readr/purrr/dplyr/tidyr/forcats/stringr #更新 tidyverse…
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html ---- 自从买了kindle以后,总是想要定期刷有没有便宜的书,amazon经常有些1元/2元的书打特价,但是每次都去刷那些榜单太麻烦了,而且榜单又不能按照价格排名,捞书有点累 所以自己用R语言的rvest包简单写了一个小程序,让它自动按照不同价格区间把特价书给分出来. 主要看的是kindle新品排行榜和最快畅销榜. 销售爬升最快榜: http://www.amazon.cn/gp/move…