自从入了数据挖掘的坑,就在不停的看视频刷书,但是总觉得实在太过抽象,在结束了coursera上Andrew Ng 教授的机器学习课程还有刷完一整本集体智慧编程后更加迷茫了,所以需要一个实践项目来扎实之前所学的知识.于是就参考kaggle上的starter项目Titanic,并选取了kernel中的一篇较为祥尽的指南,从头到尾实现了一遍.因为kaggle入门赛相关方面的参考和指导非常少,因此写博给需要学习的同学做个小参考,也记录下数据挖掘的学习历程.新手上路,如果博文有误或缺失,还希望各位大神指正…
原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accuracy Step 5: Model Data 数据科学是交叉学科,我们仅仅称他为计算机科学的一部分是有失公正的,它包含了数学,cs,商业管理,统计学等等方向. 机器学习被分为监督学习,无监督学习和强化学习,强化学习是前两者的混合. 算法被归为四类:分类.回归.聚类.降维,此kernel专注于分类与…
原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accuracy 问题处理之前要知道的事: 数据科学框架(A Data Science Framework) 1.定义问题(Define the Problem): 问题→需求→方法→设计→技术,这是刚开始拿到问题的解决流程,所以在我们用一些fancy的技巧和算法解决问题之前,必须要明确我们需要解决的问题到…
---恢复内容开始--- 原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accuracy Step 4: Perform Exploratory Analysis with Statistics 使用描述性与图表分析数据,重点在于数据可视化,突出数据类别与不同feature的关联性 简单的groupby()获得不同feature对于生存率的影响 箱型图…
集成开发环境:Pycharm python版本:2.7(anaconda库) 用到的库:科学计算库numpy,数据分析包pandas,画图包matplotlib,机器学习库sklearn 大体步骤分为三步: 1.数据分析 2.交叉验证 3.预测并输出结果 导入库函数 import numpy as np import pandas as pa import matplotlib.pyplot as pl from sklearn.linear_model import LogisticRegre…
前言 这个是Kaggle比赛中泰坦尼克号生存率的分析.强烈建议在做这个比赛的时候,再看一遍电源<泰坦尼克号>,可能会给你一些启发,比如妇女儿童先上船等.所以是否获救其实并非随机,而是基于一些背景有先后顺序的. 1,背景介绍 1912年4月15日,载着1316号乘客和891名船员的豪华巨轮泰坦尼克号在首次航行期间撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难.沉船导致大量伤亡的原因之一是没有足够的救生艇给乘客和船员.虽然幸存下来有一些运气因素,但有一些人比其他人更有可能生存,比如妇女…
Kaggle入门 1:竞赛 我们将学习如何为Kaggle竞赛生成一个提交答案(submisson).Kaggle是一个你通过完成算法和全世界机器学习从业者进行竞赛的网站.如果你的算法精度是给出数据集中最高的,你将赢得比赛.Kaggle也是一个实践你机器学习技能的非常有趣的方式.Kaggle网站有几种不同类型的比赛.其中的预测一个就是预测在泰坦尼克号沉没的时候哪个乘客会成为幸存者. 在这个任务和下一个任务我们将学习如何提交我们的答案.我们的数据是csv格式.你可以在这里下载数据开始比赛.每一行重现…
Kaggle入门--使用scikit-learn解决DigitRecognition问题 @author: wepon @blog: http://blog.csdn.net/u012162613 1.scikit-learn简单介绍 scikit-learn是一个基于NumPy.SciPy.Matplotlib的开源机器学习工具包.採用Python语言编写.主要涵盖分类. 回归和聚类等算法,比如knn.SVM.逻辑回归.朴素贝叶斯.随机森林.k-means等等诸多算法,官网上代码和文档 都非常…
kaggle入门之如何使用 - CSDN博客 http://blog.csdn.net/mdjxy63/article/details/78221955 kaggle比赛之路(一) -- 新手注册账号并fork一个notebook - CSDN博客 http://blog.csdn.net/memoryjdch/article/details/75670308 XX-Net 使用教程(Across the Great Wall) - ChangeZhou - 博客园 https://www.cn…
摘要: 本文是通过Keras实现深度学习入门项目——数字手写体识别,整个流程介绍比较详细,适合初学者上手实践. 对于图像分类任务而言,卷积神经网络(CNN)是目前最优的网络结构,没有之一.在面部识别.自动驾驶.物体检测等领域,CNN被广泛使用,并都取得了最优性能.对于绝大多数深度学习新手而言,数字手写体识别任务可能是第一个上手的项目,网络上也充斥着各种各样的成熟工具箱的相关代码,新手在利用相关工具箱跑一遍程序后就能立刻得到很好的结果,这时候获得的感受只有一个——深度学习真神奇,却没能真正了解整个…