1.2、Logistics Regression算法实践

1.1、Logistics Regression算法实践
　　有了上篇博客的理论准备后，接下来，我们用以及完成的函数，构建Logistics Regression分类器。我们利用线性可分的数据作为训练样本来训练。在构建模型的过程中，主要有两个步骤：（1）利用训练样本训练模型，（2）利用训练好的模型对新样本进行预测。

　　1.1.1、利用训练样本训练Logistics Regression模型

　　　　训练模型的主函数：

if __name__=="__main__":
    print("------------1.load data----------------")
    #导入数据
    feature,lable = load_data("data.txt")
    print("------------2.training-----------------")
    #训练模型
    w = lr_train_bgd(feature,lable,1000,0.01)
    print("------------3.save model---------------")
    #保存数据
    save_model("weights",w)

　　保存数据模块函数：

def save_model(file_name,w):

    '''

    :param file_name: #模型文件的保存名

    :param w: #模型的权重

    :return:

    '''

    m = np.shape(w)[0]

    f_w = open(file_name,'w')

    w_array = []

    for i in range(m):

        w_array.append(str(w[i,0]))

    f_w.write('\t'.join(w_array))

    f_w.close()

　　加载数据的函数：

def load_data(file_name):

    '''

    :param file_name: 训练数据的位置

    :return: 特征，标签

    '''

    f = open(file_name)

    feature_data = []

    lable_data = []

    for line in f.readlines():

        feature_tmp = []

        lable_tmp = []

        lines = line.strip().aplit("\t")

        feature_tmp.append(1)#偏置项

        for i in range(len(lines)-1):

            feature_tmp.append(float(lines[i]))

        lable_tmp.append(float(lines[-1]))

        feature_data.append(feature_tmp)

        lable_data.append(lable_tmp)

    f.close()

    return np.mat(feature_data),np.mat(lable_data)

　　训练结果：

最终得到的Logistics Regression模型的权重为：

最终分隔超平面为：

　　　　1.1.2对数据进行预测：

　　　对于分类算法而言，训练好的模型需要能够对新的数据集进行划分。利用上述步骤，我们训练好LR模型，并将其保存再“weights”文件中。此时我们队训练好的文件进行预测。

　　　　　预测的主函数：

if __name__=="__main__":

    #导入LR模型

    print("---------------------1.load model----------")

    w = load_weight("weights")

    n = np.shape(w)[1]

    #导入测试数据

    print("---------------------2.load data-----------")

    testData = load_data("test_data",n)

    #队测试数据进行预测

    print("---------------------3.get prediction------")

    h = predict(testData,w)

    #保存最终数据

    print("---------------------4.save prediction-----")

    save_result("result",h)

Load_weight函数：

def load_weight(w):

    '''导入LR模型

    input:  w(string)权重所在的文件位置

    output: np.mat(w)(mat)权重的矩阵

    '''

    f = open(w)

    w = []

    for line in f.readlines():

        lines = line.strip().split("\t")

        w_tmp = []

        for x in lines:

            w_tmp.append(float(x))

        w.append(w_tmp)

    f.close()

    return np.mat(w)

Loda_data函数：

def load_data(file_name, n):

    '''导入测试数据

    input:  file_name(string)测试集的位置

            n(int)特征的个数

    output: np.mat(feature_data)(mat)测试集的特征

    '''

    f = open(file_name)

    feature_data = []

    for line in f.readlines():

        feature_tmp = []

        lines = line.strip().split("\t")

        # print lines[2]

        if len(lines) < n - 1:

            continue

        feature_tmp.append(1)

        for x in lines:

            # print x

            feature_tmp.append(float(x))

        feature_data.append(feature_tmp)

    f.close()

    return np.mat(feature_data)

predict函数：

def predict(data, w):

    '''对测试数据进行预测

    input:  data(mat)测试数据的特征

            w(mat)模型的参数

    output: h(mat)最终的预测结果

    '''

    h = sig(data * w.T)#sig

    m = np.shape(h)[0]

    for i in range(m):

        if h[i, 0] < 0.5:

            h[i, 0] = 0.0

        else:

            h[i, 0] = 1.0

    return h

save_result函数：

def save_result(file_name, result):

    '''保存最终的预测结果

    input:  file_name(string):预测结果保存的文件名

            result(mat):预测的结果

    '''

    m = np.shape(result)[0]

    #输出预测结果到文件

    tmp = []

    for i in range(m):

        tmp.append(str(result[i, 0]))

    f_result = open(file_name, "w")

    f_result.write("\t".join(tmp))

    f_result.close()

测试结果：

生成了一个result.txt文件：

结果为：

1.2、Logistics Regression算法实践的更多相关文章

2.2、Softmax Regression算法实践
Softmax Regression算法实践有了上篇博客的理论知识,我们可以利用实现好的函数,来构建Softmax Regression分类器,在训练分类器的过程中,我们使用多分类数据作为训练数据: ...
1.1、Logistics Regression模型
1.线性可分VS线性不可分对于一个分类问题,通常可以分为线性可分与线性不可分两种 .如果一个分类问题可以使用线性判别函数正确的分类,则称该问题为线性可分.如图所示为线性可分,否则为线性不可分: 下图 ...
logistics regression
logistics regression用于解决一些二分类问题.比如(纯假设)网上购物时,网站会判断一个人退货的可能性有多大,如果该用户退货的可能性很大,那么网站就不会推荐改用户购买退费险.反之,如果 ...
LTP 分词算法实践
参考链接: https://github.com/HIT-SCIR/ltp/blob/master/doc/install.rst http://www.xfyun.cn/index.php/serv ...
机器学习算法实践：Platt SMO 和遗传算法优化 SVM
机器学习算法实践:Platt SMO 和遗传算法优化 SVM 之前实现了简单的SMO算法来优化SVM的对偶问题,其中在选取α的时候使用的是两重循环通过完全随机的方式选取,具体的实现参考<机器学习 ...
Logistic Regression 算法向量化实现及心得
Author: 相忠良(Zhong-Liang Xiang) Email: ugoood@163.com Date: Sep. 23st, 2017 根据 Andrew Ng 老师的深度学习课程课后作 ...
算法实践——舞蹈链（Dancing Links）算法求解数独
在“跳跃的舞者,舞蹈链(Dancing Links)算法——求解精确覆盖问题”一文中介绍了舞蹈链(Dancing Links)算法求解精确覆盖问题. 本文介绍该算法的实际运用,利用舞蹈链(Dancin ...
4、2支持向量机SVM算法实践
支持向量机SVM算法实践利用Python构建一个完整的SVM分类器,包含SVM分类器的训练和利用SVM分类器对未知数据的分类, 一.训练SVM模型首先构建SVM模型相关的类 class SVM: ...
机器学习算法实践：朴素贝叶斯 (Naive Bayes)（转载）
前言上一篇<机器学习算法实践:决策树 (Decision Tree)>总结了决策树的实现,本文中我将一步步实现一个朴素贝叶斯分类器,并采用SMS垃圾短信语料库中的数据进行模型训练,对垃圾 ...

随机推荐

Python中正则表达式对中文的匹配问题
python匹配中文的时候特别要注意的是匹配的正则字符串是否是Unicode格式的: import re source = "s2f程序员杂志一2d3程序员杂志二2d3程序员杂志三2d3程序 ...
Mac os JAVA 开发环境配置简述
本文原文来源:http://blog.csdn.NET/johnstrive/article/details/7791451 1.Mac 自带jdk1.6(本人的机器是这样至于新Mac自带的版本就不清 ...
python3导入自定义模块
模块是个好东西啊,大牛们开源共享许多模块也加快了大家开发的速度,许多开源模块可以在这里找到 ↓ https://pypi.python.org/pypi 因为刚入门所有有很多细节不懂,在网上搜寻资料的 ...
Postman之token动态获取
目前项目涉及PC及APP端接口共用问题,后台接口给登陆后的用户设置了一个token,接口调用时请求头的参数值必须要动态生成,为了解决这个问题,查看Postman API文档,配置了可以方便后端开发者的 ...
简单的互斥同步方式——synchronized关键字详解
目录 1. 关于synchronized关键字 2. synchronized的原理和实现细节 2.1 synchronized可以用在那些地方 2.2 synchronized是如何实现线程互斥访问 ...
第01章开发准备（对最新版的RN进行了升级）1-3+项目结构介绍
selenium2 用testNG对百度首页输入框进行测试（三）
如果还没有安装testNG的亲,可以点击http://www.cnblogs.com/milanmi/p/4346580.html查看安装过程. 这节主要是对百度首页的输入框进行输入测试. packa ...
Solidity string to uint
oraclize result以string格式返回,solidity没有uint(string)这样的强制转换功能,如果要解析其中的数字,可以用oraclize提供的parseInt方法: prag ...
SparkR 读取数据& Spark运行的配置
1.本地LOCAL环境安装Spark并试运行配置(在Ubuntu系统下例子) # 打开文件配置环境变量: JAVA,SCALA,SPARK,HADOOP,SBT gedit /etc/profile ...
打印单据，A4纸，每个单据占一个A4纸，两个单据之间不挨着
打印单据,A4纸,每个单据占一个A4纸,两个单据之间不挨着 <style type="text/css" media="print">.Noprin ...

1.2、Logistics Regression算法实践

1.2、Logistics Regression算法实践的更多相关文章

随机推荐

热门专题