本章通过一个例子,介绍机器学习的整个流程. 2.1 使用真实数据集练手(Working with Real Data) 国外一些获取数据的网站: Popular open data repositories: UC Irvine Machine Learning Repository Kaggle datasets Amazon's AWS datasets Meta portals (they list open data repositories): http://dataportals.o…
本文已同步至 GitHub/Gitee/公众号,感兴趣的同学帮忙点波关注~ 第二章:项目运作环境 1. 事业环境因素.组织过程资产 事业环境因素 Enterprise Environmental Factors:是项目团队不能控制的,将对项目产生影响.限制或指令作用的各种条件.可能提高或限制项目管理的灵活性,也可能对项目结果产生积极或消极影响.包括: 1)组织文化.结构和治理: 2)设施和资源的地理分布: 3)基础设施:现有设施.设备.组织通讯渠道.IT 硬件.可用性和性能等 4)信息技术软件:…
在<机器学习---逻辑回归(一)(Machine Learning Logistic Regression I)>一文中,我们讨论了如何用逻辑回归解决二分类问题以及逻辑回归算法的本质.现在来看一下多分类的情况. 现实中相对于二分类问题,我们更常遇到的是多分类问题.多分类问题如何求解呢?有两种方式.一种是方式是修改原有模型,另一种方式是将多分类问题拆分成一个个二分类问题解决. 先来看一下第一种方式:修改原有模型.即:把二分类逻辑回归模型变为多分类逻辑回归模型. (二分类逻辑回归称为binary…
  猜数字游戏--核心代码--猜测次数   #猜数字--核心代码--猜测次数 number=33 amount=3 count=0 while count<=amount: conversion=input('请猜数字') guess=int(conversion) if guess == number: print('猜对了') break elif guess > number: print('大了') else: print('小了') count=count+1 if count==a…
Lecture17 Large Scale Machine Learning大规模机器学习 17.1 大型数据集的学习 Learning With Large Datasets 如果有一个低方差的模型, 通常通过增加数据集的规模,可以获得更好的结果. 但是如果数据集特别大,则首先应该检查这么大规模是否真的必要,也许只用 1000个训练集也能获得较好的效果,可以绘制学习曲线来帮助判断. 17.2 随机梯度下降法 Stochastic Gradient Descent 如果必须使用一个大规模的训练集…
逻辑回归(Logistic Regression)是一种经典的线性分类算法.逻辑回归虽然叫回归,但是其模型是用来分类的. 让我们先从最简单的二分类问题开始.给定特征向量x=([x1,x2,...,xn])T以及每个特征的权重w=([w1,w2,...,wn])T,阈值为b,目标y是两个分类标签---1和-1.为了便于叙述,把b并入权重向量w,记作,特征向量则扩充为.(为了简便的缘故,下面还是都写成w和x) 事实上,我们已经学习过一种分类算法了.在<机器学习---感知机(Machine Learn…
2.1.maven父子模块 在实际开发中,我们基本都会用maven父子分模块的方式进行项目的开发. 2.2.实际操作 2.2.1.手工建立一个ssmm0的文件夹,并在该文件夹中加入一个pom.xml文件,该pom.xml文件内容如下: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xs…
原文 :https://medium.com/machine-learning-in-practice/roles-on-a-machine-learning-project-216903a6dc12 Machine learning is a technical process, but it starts and ends with people. The first step to structuring your machine learning project is to consid…
[1] 诊断的作用 [2]过拟合 [3] [4] 高偏差bias,欠拟合underfitting 高方差variance,过拟合overfitting [5]参数λ Answer:  λ太大,则参数都被惩罚,导致欠拟合,两个J都大.  λ太小,则欠拟合,Jtrain 小,Jcv大. [6] Answer:过拟合的时候,增加训练集有用. [7] Answer:过拟合,增加 hidden 层数无用. -------------------------------------- 下面是Lecture…
假设有一段文本:"I have a cat, his name is Huzihu. Huzihu is really cute and friendly. We are good friends." 那么怎么提取这段文本的特征呢? 一个简单的方法就是使用词袋模型(bag of words model).选定文本内一定的词放入词袋,统计词袋内所有词在文本中出现的次数(忽略语法和单词出现的顺序),将其用向量的形式表示出来. 词频统计可以用scikit-learn的CountVectori…