Python实现机器学习算法：EM算法

'''

数据集：伪造数据集（两个高斯分布混合）

数据集长度：1000

------------------------------

运行结果：

----------------------------

the Parameters set is:

alpha0:0.3, mu0:0.7, sigmod0:-2.0, alpha1:0.5, mu1:0.5, sigmod1:1.0

----------------------------

the Parameters predict is:

alpha0:0.4, mu0:0.6, sigmod0:-1.7, alpha1:0.7, mu1:0.7, sigmod1:0.9

----------------------------

'''

import numpy as np

import random

import math

import time

def loadData(mu0, sigma0, mu1, sigma1, alpha0, alpha1):

    '''

    初始化数据集

    这里通过服从高斯分布的随机函数来伪造数据集

    :param mu0: 高斯0的均值

    :param sigma0: 高斯0的方差

    :param mu1: 高斯1的均值

    :param sigma1: 高斯1的方差

    :param alpha0: 高斯0的系数

    :param alpha1: 高斯1的系数

    :return: 混合了两个高斯分布的数据

    '''

    # 定义数据集长度为1000

    length = 1000

    # 初始化第一个高斯分布，生成数据，数据长度为length * alpha系数，以此来

    # 满足alpha的作用

    data0 = np.random.normal(mu0, sigma0, int(length * alpha0))

    # 第二个高斯分布的数据

    data1 = np.random.normal(mu1, sigma1, int(length * alpha1))

    # 初始化总数据集

    # 两个高斯分布的数据混合后会放在该数据集中返回

    dataSet = []

    # 将第一个数据集的内容添加进去

    dataSet.extend(data0)

    # 添加第二个数据集的数据

    dataSet.extend(data1)

    # 对总的数据集进行打乱（其实不打乱也没事，只不过打乱一下直观上让人感觉已经混合了

    # 读者可以将下面这句话屏蔽以后看看效果是否有差别）

    random.shuffle(dataSet)

    #返回伪造好的数据集

    return dataSet

def calcGauss(dataSetArr, mu, sigmod):

    '''

    根据高斯密度函数计算值

    依据：“9.3.1 高斯混合模型” 式9.25

    注：在公式中y是一个实数，但是在EM算法中(见算法9.2的E步)，需要对每个j

    都求一次yjk，在本实例中有1000个可观测数据，因此需要计算1000次。考虑到

    在E步时进行1000次高斯计算，程序上比较不简洁，因此这里的y是向量，在numpy

    的exp中如果exp内部值为向量，则对向量中每个值进行exp，输出仍是向量的形式。

    所以使用向量的形式1次计算即可将所有计算结果得出，程序上较为简洁

    :param dataSetArr: 可观测数据集

    :param mu: 均值

    :param sigmod: 方差

    :return: 整个可观测数据集的高斯分布密度（向量形式）

    '''

    # 计算过程就是依据式9.25写的，没有别的花样

    result = (1 / (math.sqrt(2*math.pi)*sigmod**2)) * np.exp(-1 * (dataSetArr-mu) * (dataSetArr-mu) / (2*sigmod**2))

    # 返回结果

    return result

def E_step(dataSetArr, alpha0, mu0, sigmod0, alpha1, mu1, sigmod1):

    '''

    EM算法中的E步

    依据当前模型参数，计算分模型k对观数据y的响应度

    :param dataSetArr: 可观测数据y

    :param alpha0: 高斯模型0的系数

    :param mu0: 高斯模型0的均值

    :param sigmod0: 高斯模型0的方差

    :param alpha1: 高斯模型1的系数

    :param mu1: 高斯模型1的均值

    :param sigmod1: 高斯模型1的方差

    :return: 两个模型各自的响应度

    '''

    # 计算y0的响应度

    # 先计算模型0的响应度的分子

    gamma0 = alpha0 * calcGauss(dataSetArr, mu0, sigmod0)

    # 模型1响应度的分子

    gamma1 = alpha1 * calcGauss(dataSetArr, mu1, sigmod1)

    # 两者相加为E步中的分布

    sum = gamma0 + gamma1

    # 各自相除，得到两个模型的响应度

    gamma0 = gamma0 / sum

    gamma1 = gamma1 / sum

    # 返回两个模型响应度

    return gamma0, gamma1

def M_step(muo, mu1, gamma0, gamma1, dataSetArr):

    # 依据算法9.2计算各个值

    # 这里没什么花样，对照书本公式看看这里就好了

    mu0_new = np.dot(gamma0, dataSetArr) / np.sum(gamma0)

    mu1_new = np.dot(gamma1, dataSetArr) / np.sum(gamma1)

    sigmod0_new = math.sqrt(np.dot(gamma0, (dataSetArr - muo)**2) / np.sum(gamma0))

    sigmod1_new = math.sqrt(np.dot(gamma1, (dataSetArr - mu1)**2) / np.sum(gamma1))

    alpha0_new = np.sum(gamma0) / len(gamma0)

    alpha1_new = np.sum(gamma1) / len(gamma1)

    # 将更新的值返回

    return mu0_new, mu1_new, sigmod0_new, sigmod1_new, alpha0_new, alpha1_new

def EM_Train(dataSetList, iter=500):

    '''

    根据EM算法进行参数估计

    算法依据“9.3.2 高斯混合模型参数估计的EM算法” 算法9.2

    :param dataSetList:数据集（可观测数据）

    :param iter: 迭代次数

    :return: 估计的参数

    '''

    # 将可观测数据y转换为数组形式，主要是为了方便后续运算

    dataSetArr = np.array(dataSetList)

    # 步骤1：对参数取初值，开始迭代

    alpha0 = 0.5

    mu0 = 0

    sigmod0 = 1

    alpha1 = 0.5

    mu1 = 1

    sigmod1 = 1

    # 开始迭代

    step = 0

    while (step < iter):

        # 每次进入一次迭代后迭代次数加1

        step += 1

        # 步骤2：E步：依据当前模型参数，计算分模型k对观测数据y的响应度

        gamma0, gamma1 = E_step(dataSetArr, alpha0, mu0, sigmod0, alpha1, mu1, sigmod1)

        # 步骤3：M步

        mu0, mu1, sigmod0, sigmod1, alpha0, alpha1 = M_step(mu0, mu1, gamma0, gamma1, dataSetArr)

    # 迭代结束后将更新后的各参数返回

    return alpha0, mu0, sigmod0, alpha1, mu1, sigmod1

if __name__ == '__main__':

    start = time.time()

    # 设置两个高斯模型进行混合，这里是初始化两个模型各自的参数

    # 见“9.3 EM算法在高斯混合模型学习中的应用”

    # alpha是“9.3.1 高斯混合模型” 定义9.2中的系数α

    # mu0是均值μ

    # sigmod是方差σ

    # 在设置上两个alpha的和必须为1，其他没有什么具体要求，符合高斯定义就可以

    alpha0 = 0.3  # 系数α

    mu0 = -2  # 均值μ

    sigmod0 = 0.5  # 方差σ

    alpha1 = 0.7  # 系数α

    mu1 = 0.5  # 均值μ

    sigmod1 = 1  # 方差σ

    # 初始化数据集

    dataSetList = loadData(mu0, sigmod0, mu1, sigmod1, alpha0, alpha1)

    #打印设置的参数

    print('---------------------------')

    print('the Parameters set is:')

    print('alpha0:%.1f, mu0:%.1f, sigmod0:%.1f, alpha1:%.1f, mu1:%.1f, sigmod1:%.1f' % (

        alpha0, alpha1, mu0, mu1, sigmod0, sigmod1

    ))

    # 开始EM算法，进行参数估计

    alpha0, mu0, sigmod0, alpha1, mu1, sigmod1 = EM_Train(dataSetList)

    # 打印参数预测结果

    print('----------------------------')

    print('the Parameters predict is:')

    print('alpha0:%.1f, mu0:%.1f, sigmod0:%.1f, alpha1:%.1f, mu1:%.1f, sigmod1:%.1f' % (

        alpha0, alpha1, mu0, mu1, sigmod0, sigmod1

    ))

    # 打印时间

    print('----------------------------')

    print('time span:', time.time() - start)

Python实现机器学习算法：EM算法的更多相关文章

简单易学的机器学习算法——EM算法
简单易学的机器学习算法——EM算法一.机器学习中的参数估计问题在前面的博文中,如“简单易学的机器学习算法——Logistic回归”中,采用了极大似然函数对其模型中的参数进行估计,简单来讲即对于一系 ...
斯坦福大学机器学习，EM算法求解高斯混合模型
斯坦福大学机器学习,EM算法求解高斯混合模型.一种高斯混合模型算法的改进方法---将聚类算法与传统高斯混合模型结合起来的建模方法, 并同时提出的运用距离加权的矢量量化方法获取初始值,并采用衡量相似度的 ...
机器学习五 EM 算法
目录引言经典示例 EM算法 GMM 推导参考文献: 引言 Expectation maximization (EM) 算法是一种非常神奇而强大的算法. EM算法于 1977年由Dempster ...
关于机器学习－EM算法新解
我希望自己能通俗地把它理解或者说明白,但是,EM这个问题感觉真的不太好用通俗的语言去说明白,因为它很简单,又很复杂.简单在于它的思想,简单在于其仅包含了两个步骤就能完成强大的功能,复杂在于它的数学推理 ...
机器学习之EM算法（五）
摘要 EM算法全称为Expectation Maximization Algorithm,既最大期望算法.它是一种迭代的算法,用于含有隐变量的概率参数模型的最大似然估计和极大后验概率估计.EM算法经常 ...
【机器学习】EM算法详细推导和讲解
今天不太想学习,炒个冷饭,讲讲机器学习十大算法里有名的EM算法,文章里面有些个人理解,如有错漏,还请读者不吝赐教. 众所周知,极大似然估计是一种应用很广泛的参数估计方法.例如我手头有一些东北人的身高的 ...
详解十大经典机器学习算法——EM算法
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第14篇文章,我们来聊聊大名鼎鼎的EM算法. EM算法的英文全称是Expectation-maximization al ...
【机器学习】--EM算法从初识到应用
一.前述 Em算法是解决数学公式的一个算法,是一种无监督的学习. EM算法是一种解决存在隐含变量优化问题的有效方法.EM算法是期望极大(Expectation Maximization)算法的简称,E ...
机器学习笔记—EM 算法
EM 算法所面对的问题跟之前的不一样,要复杂一些. EM 算法所用的概率模型,既含有观测变量,又含有隐变量.如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计法,或贝叶斯估计法来估计 ...
机器学习：EM算法
EM算法各类估计最大似然估计 Maximum Likelihood Estimation,最大似然估计,即利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值的计算过程. 直白来讲,就 ...

随机推荐

Linux 软件安装卸载命令
安装方式一: RPM 命令 rpm -qa|grep java 查看java 是否安装 rpm -e --nodeps 软件名卸载已安装软件 rpm -ivh xxx.rpm 安装安装 ...
使用SpringBoot的优势。
Spring Boot 让开发变得更简单 Spring Boot 对开发效率的提升是全方位的,我们可以简单做一下对比: 在没有使用 Spring Boot 之前我们开发一个 web 项目需要做哪些工作 ...
XWIKI部署安装
http://www.linuxidc.com/Linux/2016-08/134408.htm
基于RHEL6.3 安装MySQL踩过的坑
MySQL版本:Percona-Server-5.6.29 OS:RHEL6.3 安装出错 [mysql@oracle ~]$ /home/mysql/scripts/mysql_install_db ...
redis 数据统计（用自增id防止同一秒并发过大没统计成功）
Redis 缓存保存某段时间累加的数值,加入最大id防止同一秒并发过大,导致只统计了执行时同一秒的部分数据,而同一秒另一部分数据在下次累加时没有统计到缓存中 //coin总数 public funct ...
Mybatis的Mapper接口方法不能重载
今天给项目的数据字典查询添加通用方法,发现里边已经有了一个查询所有数据字典的方法 List<Dict> selectDictList(); 但我想设置的方法是根据数据字典的code查询出所 ...
Spring Boot 2 (四)：使用 Docker 部署 Spring Boot
Spring Boot 2 (四):使用 Docker 部署 Spring Boot Docker 技术发展为微服务落地提供了更加便利的环境,使用 Docker 部署 Spring Boot 其实非常 ...
【题解】bzoj 4478 [Jsoi2013]侦探jyy
原题传送门弱智搜索题我们就枚举每个点,先判断它是否必须发生,如果没有必须发生,开始搜索它的祖先,如果祖先中有必须发生的,那么它就必须发生,如果祖先中没有必须发生的,那么搜索所有入度为0的点(除了它 ...
PHP获取Linux当前目录下文件并实现下载功能
使用nginx转发过去给php server{ listen 9099; server_name 18.5.6.2; location / { proxy_http_version 1.1; root ...
jsxyhelu的GitHub使用方法
如果只是使用Clone不能称得上是完全使用了GitHub,必须完成PullRequest,而且最好是对大型.带自动构建项目进行PR(比如OpenCV),这样才叫完全掌握GitHub的使用方法,这里分享 ...

Python实现机器学习算法：EM算法

Python实现机器学习算法：EM算法的更多相关文章

随机推荐

热门专题