titanic数据集是个著名的数据集.kaggle上的titanic乘客生还率预测比赛是一个很好的入门机器学习的比赛. 数据集下载可以去https://www.kaggle.com/c/titanic/data. 本身写这个系列笔记是作为自己机器学习的记录,也为了加深自己对机器学习相关知识的理解.但是写了前两篇seaborn的笔记以后,感觉缺乏实际的比赛数据的例子,写起来比较枯燥,读的人看的可能也很枯燥,浏览量也寥寥.读的人可能看完了会有一种,"哦,这样啊,原来如此,懂了懂了",然鹅,…
Kaggle Kaggle是一个数据科学家共享数据.交换思想和比赛的平台.人们通常认为Kaggle不适合初学者,或者它学习路线较为坎坷. 没有错.它们确实给那些像你我一样刚刚起步的人带来了挑战.作为一个(初级)数据科学家,我忍不住要在Kaggle上搜索有趣的数据集来开始我的旅程.我了解了泰坦尼克号数据集. 泰坦尼克号 数据集包含泰坦尼克号上乘客的信息. 我使用Python来可视化和理解更多关于数据集的信息.我用scikit-learn训练了一组分类器来预测一个人的生存几率.然后使用pickle保…
deque是可双端扩展的双端队列,蓝色部分就是它的迭代器类,拥有四个指针,第一个cur用来指向当前元素,first指向当前buffer头部,last指向当前buffer尾部,node指向map自己当前buffer在map中的位置. map叫做控制中心,它是由vector来实现的,所以它也拥有扩容功能,buffer的大小一般固定,当迭代器跳转到某个buff两端并继续往两端移动时,node就会跳转,即迭代器便指向另一个buffer,如果deque在自增元素,则当前buff不足时,deque会申请bu…
 下面一文章就总结几点关键: 1.要学会观察,尤其是输入数据的特征提取时,看各输入数据和输出的关系,用绘图看! 2.训练后,看测试数据和训练数据误差,确定是否过拟合还是欠拟合: 3.欠拟合的话,说明模型不准确或者特征提取不够,对于特征提取不够问题,可以根据模型的反馈来看其和数据的相关性,如果相关系数是0,则放弃特征,如果过低,说明特征需要再次提炼! 4.用集成学习,bagging等通常可以获得更高的准确度! 5.缺失数据可以使用决策树回归进行预测! 转自:http://blog.csdn.net…
原文地址如下: https://www.kaggle.com/startupsci/titanic-data-science-solutions ---------------------------------------------------------------- 泰坦尼克数据科学解决方案: 1. 工作流程步骤: 在 Data Science Solutions book 这本书里,描述了在解决一个竞赛问题时所需要做的具体工作流程: 问题的定义 获取训练数据以及测试数据 加工.准备以及…
三种开发模式 使用TensorFlow 2.0完成机器学习一般有三种方式: 使用底层逻辑 这种方式使用Python函数自定义学习模型,把数学公式转化为可执行的程序逻辑.接着在训练循环中,通过tf.GradientTape()迭代,使用tape.gradient()梯度下降,使用optimizer.apply_gradients()更新模型权重,逐次逼近,完成模型训练. 使用Keras高层接口 TensorFlow 1.x的开发中,Keras就作为第三方库存在.2.0中,更是已经成为标准配置.我们…
泰坦里克号预测生还人口问题 泰坦尼克号问题背景 - 就是那个大家都熟悉的『Jack and Rose』的故事,豪华游艇倒了,大家都惊恐逃生,可是救生艇#### 的数量有限,无法人人都有,副船长发话了lady and kid first!,所以是否获救其实并非随机,而是基#### 于一些背景有rank先后的. - 训练和测试数据是一些乘客的个人信息以及存活状况,要尝试根据它生成合适的模型并预测其他人的存活状况. 一.数据预处理 import pandas as pd #数据分析 import nu…
最近一直断断续续的做这个泰坦尼克生存预测模型的练习,这个kaggle的竞赛题,网上有很多人都分享过,而且都很成熟,也有些写的非常详细,我主要是在牛人们的基础上,按照数据挖掘流程梳理思路,然后通过练习每一步来熟悉应用python进行数据挖掘的方式. 数据挖掘的一般过程是:数据预览——>数据预处理(缺失值.离散值等)——>变量转换(构造新的衍生变量)——>数据探索(提取特征)——>训练——>调优——>验证 1 数据预览 1.1 head() 预览数据集的前面几条数据可以大致…
1 引言 刚接触python与大数据不久,这个是学长给出的练习题目.知识积累太少,学习用了不少的时间.尽量详细的写,希望对各位的学习有所帮助. 2 背景 2.1 Kaggle 本次数据集来自于Kaggle.Kaggle是一个数据分析建模的应用竞赛平台.想要了解详细资料的小伙伴请自行百度. 2.2 泰坦尼克号 本次问题页面 请到Data页面下载数据集 数据集的各属性在Data页面下有详细介绍. 问题就是以大家熟悉的泰坦尼克号为背景展开的,本次任务的目的就是构建一个可以根据乘客个人信息推测乘客是否生…
这个题目的背景概况来讲就是基于泰坦尼克号这个事件,然后大量的人员不幸淹没在这个海难中,也有少部分人员在这次事件之中存活,然后这个问题提供了一些人员的信息如姓名.年龄.性别.票价,所在客舱等等一些信息,和是否获救,然后你建模分析,去预测另一批乘客的获救与否 py小白的无助呀- 尽管还算是写了这么写东西,dl勿喷 qwq…