Step1: Exploratory Data Analysis EDA,也就是对数据进行探索性的分析,一般就用到pandas和matplotlib就够了.EDA一般包括: 每个feature的意义,feature的类型,比较有用的代码如下 df.describe() df['Category'].unique() 看是否存在missing value df.loc[df.Dates.isnull(),'Dates'] 每个特征下的数据分布,可以用boxplot或者hist来看 %matplot…
用python参加Kaggle的经验总结 转载自:http://www.jianshu.com/p/32def2294ae6,作者 JxKing    最近挤出时间,用python在kaggle上试了几个project,有点体会,记录下. Step1: Exploratory Data Analysis EDA,也就是对数据进行探索性的分析,一般就用到pandas和matplotlib就够了.EDA一般包括: 每个feature的意义,feature的类型,比较有用的代码如下 df.descri…
http://bbs.pediy.com/showthread.php?t=209014 标题: [原创]iOS安全些许经验和学习笔记作者: MonkeyKey时间: 2016-03-30,16:32:32链接: http://bbs.pediy.com/showthread.php?t=209014       其实我接触iOS逆向工程并不久.从去年年初的时候,才开始接触到iOS语言,然后做一些iOS安全保护相关的工作,自己也慢慢接触iOS逆向工程这方面的东西,所以加起来也就1年的时间吧,下面…
如何使用Python在Kaggle竞赛中成为Top15 Kaggle比赛是一个学习数据科学和投资时间的非常的方式,我自己通过Kaggle学习到了很多数据科学的概念和思想,在我学习编程之后的几个月就开始了Kaggle比赛,最近还赢得了几个比赛. 要在Kaggle比赛中取得好成绩不仅仅是要求知道一些机器学习算法,而且要有一个准确的思维模式,好学,花大量的时间探索数据.虽然,在很多方面通常都不强调在开始Kaggle比赛的时候使用教程(tutorials),但是在这里,我将告诉大家如何开始Kaggle…
还是在学校时间比较多, 能够把时间更多的花在学习上, 尽管工作对人的提升更大, 但是总是没什么时间学习, 而且工作的气氛总是很紧凑, 忙碌, 少了些许激情吧.适应就好了.延续着之前对twisted高并发框架的学习, 自己重新写了一遍代码, 并开始在程序中实现自己的一些想法, 并不局限于最基本的操作, 以及官网上的实例, 因此就引出来了今天的问题.首先, 我需要阐述下我的想法:在命令行下启动twisted的服务器端程序, 以及客户端程序.同时在客户端程序中传入三个命令行参数, 其中一定要有clos…
之前用学生证在graphlab上申了一年的graphlab使用权(华盛顿大学机器学习课程需要)然后今天突然想到完全可以用这个东东来参加kaggle. 下午参考了一篇教程,把notebook上面的写好了 本文很多代码参考了turi官网的一个教程,有兴趣的同学可以去看原版 https://turi.com/learn/gallery/notebooks/who_survived_the_titanic.html 代码 import graphlab as gl %matplotlib inline…
多线程的些许理解 一.体系架构 1.原子操作 1) 定义 不可中断的一个或者一系列操作,也就是不会被线程调度机制打断的操作,在运行期间不会有任何的上下文切换(context switch). 2) 我们为什么关注原子操作(what) 在多线程操作的时候,确定某个操作非原子操作,要用消耗性能的昂贵的锁去保护. 3)单核CPU.多核CPU 在单核CPU中,能够在一个指令中完成的操作都可以看作为原子操作,因为中断只发生在指令间. 在多核CPU中,软件级别的原子操作依赖于硬件支持的,在X86体系中,CP…
CodeReview些许总结 1:使用Handler的时候,使用handler.post(Runnable);,hanler与类尽量保持弱引用关系,或者使用静态的handler对象 public Handler h = new Handler() { //不推荐 @Override public void handleMessage(Message msg) { } }; <pre name="code" class="java">public stat…
python+sklearn+kaggle机器学习 系列教程 0.kaggle 1. 初级线性回归模型机器学习过程 a. 提取数据 b.数据预处理 c.训练模型 d.根据数据预测 e.验证 今天是1024欸,发个贴拿个勋章 至于为什么1024这个数字很重要,因为1024是2的10次方 系列教程 补了一个系列关于这个的实例教程 机器学习参考篇: python+sklearn+kaggle机器学习 用python+sklearn(机器学习)实现天气预报 准备 用python+sklearn(机器学习…
What is your first plan of action when working on a new competition? 理解竞赛,数据,评价标准. 建立交叉验证集. 制定.更新计划. 检索类似竞赛和相关论文. What does your iteration cycle look like? Sacrifice a couple of submissions in the beginning of the contest to understand the importance…