数据集地址:https://github.com/ageron/handson-ml/tree/master/datasets 先行知识准备:NumPy,Pandas,Matplotlib的模块使用 机器学习项目流程(一般):可视化数据,发现规律 对数据进行预处理,为算法准备数据 选择模型,训练 微调模型 数据集使用1990年加州普查数据,包含:每个街区的人口.收入中位数.房价中位数等指标 一.划分问题 可以将问题划分为分类问题或者回归问题,选择不同的模型 二.选择性能指标 选择合适的性能指标例…
本章中,你会假装作为被一家地产公司刚刚雇佣的数据科学家,完整地学习一个案例项目.下面是主要步骤: 项目概述. 获取数据. 发现并可视化数据,发现规律. 为机器学习算法准备数据. 选择模型,进行训练. 微调模型. 给出解决方案. 部署.监控.维护系统. 使用真实数据 学习机器学习时,最好使用真实数据,而不是人工数据集.幸运的是,有上千个开源数据集可以进行选择,涵盖多个领域.以下是一些可以查找的数据的地方: 流行的开源数据仓库: UC Irvine Machine Learning Reposito…
一.什么是机器学习? 计算机程序利用经验E(训练数据)学习任务T(要做什么,即目标),性能是P(性能指标),如果针对任务T的性能P随着经验E不断增长,成为机器学习.[这是汤姆米切尔在1997年定义] 大白话:类比于学生学习考试,你先练习一套有一套的模拟卷 (这就相当于训练数据),在这几套模拟卷上能得到差不多的成绩的时候(这个就是在训练数据得到的性能指标P理想),然后去考试(应用到实际生产生活中去).这就是机器学习的类比. 二.机器学习的好处 传统的编程技术完成的程序会在动态变化的生产环境中难以维…
1.apachecn视频(机器学习实战) https://github.com/apachecn/AiLearning https://space.bilibili.com/97678687/#/channel/detail?cid=22486 2.莫烦 https://morvanzhou.github.io/tutorials/machine-learning/sklearn/2-2-general-pattern/ https://github.com/MorvanZhou/tutoria…
Sklearn 官网提供了一个流程图, 蓝色圆圈内是判断条件,绿色方框内是可以选择的算法: 从 START 开始,首先看数据的样本是否 >50,小于则需要收集更多的数据. 由图中,可以看到算法有四类,分类,回归,聚类,降维. 其中 分类和回归是监督式学习,即每个数据对应一个 label. 聚类 是非监督式学习,即没有 label. 另外一类是 降维,当数据集有很多很多属性的时候,可以通过 降维 算法把属性归纳起来.例如 20 个属性只变成 2 个,注意,这不是挑出 2 个,而是压缩成为 2 个,…
1.import 模块 import os import tarfile from six.moves import urllib import pandas as pd pd.set_option('display.width', None) import matplotlib.pyplot as plt import numpy as np import hashlib 2.获取数据模块 DOWNLOAD_ROOT = "https://raw.githubusercontent.com/a…
假如我们在开发一个机器学习系统,想试着改进一个机器学习系统的性能,我们应该如何决定接下来应该选择哪条道路? 为了解释这一问题,以预测房价的学习例子.假如我们已经得到学习参数以后,要将我们的假设函数放到一组新的房屋样本上进行测试,这个时候我们会发现在预测房价时,产生了巨大的误差,现在我们的问题是要想改进这个算法接下来应该怎么办? 实际上我们可以想出很多种方法来改进算法的性能,其中一种办法是使用更多的训练样本.具体来讲,通过电话调查.上门调查,获取更多的不同的房屋出售数据.遗憾的是,好多人花费了大量…
一 机器学习概览 机器学习的广义概念是:机器学习是让计算机具有学习的能力,无需进行明确编程. 机器学习的工程性概念是:计算机程序利用经验E学习任务T,性能是P,如果针对任务T的性能P随着经验E不断增长,则为机器学习. 使用机器学习挖掘大量数据,发现不显著的规律,称为数据挖掘. 根据训练时监督的量和类型分为: 监督学习:训练数据包含了标签,如分类,回归. 非监督学习:训练数据没有标签.如聚类,降维,可视化. 半监督学习:大量不带标签数据加上小部分带标签数据.如深度信念网络. 强化学习:系统执行动作…
地址 https://github.com/apachecn/hands-on-ml-zh 目录结构 零.前言 第一部分 机器学习基础 一.机器学习概览 二.一个完整的机器学习项目 三.分类 四.训练模型 五.支持向量机 六.决策树 七.集成学习和随机森林 八.降维 第二部分 神经网络与深度学习 九.启动并运行 TensorFlow 十.人工神经网络介绍 十一.训练深层神经网络 十二.设备和服务器上的分布式 TensorFlow 十三.卷积神经网络 十四.循环神经网络 十五.自编码器 十六.强化…
零.前言 一.机器学习概览 二.一个完整的机器学习项目 三.分类 四.训练模型 五.支持向量机 六.决策树 七.集成学习和随机森林 八.降维 十.使用 Keras 搭建人工神经网络 十一.训练深度神经网络 十二.使用 TensorFlow 自定义模型并训练 十三.使用 TensorFlow 加载和预处理数据 十四.使用卷积神经网络实现深度计算机视觉 十五.使用 RNN 和 CNN 处理序列 十六.使用 RNN 和注意力机制进行自然语言处理 十七.使用自编码器和 GAN 做表征学习和生成式学习 十…