1.2、Logistics Regression算法实践
 1.1、Logistics Regression算法实践
  有了上篇博客的理论准备后,接下来,我们用以及完成的函数,构建Logistics Regression分类器。我们利用线性可分的数据作为训练样本来训练。在构建模型的过程中,主要有两个步骤:(1)利用训练样本训练模型,(2)利用训练好的模型对新样本进行预测。
1.1.1、利用训练样本训练Logistics Regression模型
训练模型的主函数:
if __name__=="__main__":
print("------------1.load data----------------")
#导入数据
feature,lable = load_data("data.txt")
print("------------2.training-----------------")
#训练模型
w = lr_train_bgd(feature,lable,1000,0.01)
print("------------3.save model---------------")
#保存数据
save_model("weights",w)
保存数据模块函数:
def save_model(file_name,w):
'''
:param file_name: #模型文件的保存名
:param w: #模型的权重
:return:
'''
m = np.shape(w)[0]
f_w = open(file_name,'w')
w_array = []
for i in range(m):
w_array.append(str(w[i,0]))
f_w.write('\t'.join(w_array))
f_w.close()
加载数据的函数:
def load_data(file_name):
'''
:param file_name: 训练数据的位置
:return: 特征,标签
'''
f = open(file_name)
feature_data = []
lable_data = []
for line in f.readlines():
feature_tmp = []
lable_tmp = []
lines = line.strip().aplit("\t")
feature_tmp.append(1)#偏置项
for i in range(len(lines)-1):
feature_tmp.append(float(lines[i]))
lable_tmp.append(float(lines[-1]))
feature_data.append(feature_tmp)
lable_data.append(lable_tmp)
f.close()
return np.mat(feature_data),np.mat(lable_data)
训练结果:

最终得到的Logistics Regression模型的权重为:


最终分隔超平面为:

1.1.2对数据进行预测:
对于分类算法而言,训练好的模型需要能够对新的数据集进行划分。利用上述步骤,我们训练好LR模型,并将其保存再“weights”文件中。此时我们队训练好的文件进行预测。
预测的主函数:
if __name__=="__main__":
#导入LR模型
print("---------------------1.load model----------")
w = load_weight("weights")
n = np.shape(w)[1]
#导入测试数据
print("---------------------2.load data-----------")
testData = load_data("test_data",n)
#队测试数据进行预测
print("---------------------3.get prediction------")
h = predict(testData,w)
#保存最终数据
print("---------------------4.save prediction-----")
save_result("result",h)
Load_weight函数:
def load_weight(w):
'''导入LR模型
input: w(string)权重所在的文件位置
output: np.mat(w)(mat)权重的矩阵
'''
f = open(w)
w = []
for line in f.readlines():
lines = line.strip().split("\t")
w_tmp = []
for x in lines:
w_tmp.append(float(x))
w.append(w_tmp)
f.close()
return np.mat(w)
Loda_data函数:
def load_data(file_name, n):
'''导入测试数据
input: file_name(string)测试集的位置
n(int)特征的个数
output: np.mat(feature_data)(mat)测试集的特征
'''
f = open(file_name)
feature_data = []
for line in f.readlines():
feature_tmp = []
lines = line.strip().split("\t")
# print lines[2]
if len(lines) < n - 1:
continue
feature_tmp.append(1)
for x in lines:
# print x
feature_tmp.append(float(x))
feature_data.append(feature_tmp)
f.close()
return np.mat(feature_data)
predict函数:
def predict(data, w):
'''对测试数据进行预测
input: data(mat)测试数据的特征
w(mat)模型的参数
output: h(mat)最终的预测结果
'''
h = sig(data * w.T)#sig
m = np.shape(h)[0]
for i in range(m):
if h[i, 0] < 0.5:
h[i, 0] = 0.0
else:
h[i, 0] = 1.0
return h
save_result函数:
def save_result(file_name, result):
'''保存最终的预测结果
input: file_name(string):预测结果保存的文件名
result(mat):预测的结果
'''
m = np.shape(result)[0]
#输出预测结果到文件
tmp = []
for i in range(m):
tmp.append(str(result[i, 0]))
f_result = open(file_name, "w")
f_result.write("\t".join(tmp))
f_result.close()
测试结果:

生成了一个result.txt文件:

结果为:

1.2、Logistics Regression算法实践的更多相关文章
- 2.2、Softmax Regression算法实践
		Softmax Regression算法实践 有了上篇博客的理论知识,我们可以利用实现好的函数,来构建Softmax Regression分类器,在训练分类器的过程中,我们使用多分类数据作为训练数据: ... 
- 1.1、Logistics Regression模型
		1.线性可分VS线性不可分 对于一个分类问题,通常可以分为线性可分与线性不可分两种 .如果一个分类问题可以使用线性判别函数正确的分类,则称该问题为线性可分.如图所示为线性可分,否则为线性不可分: 下图 ... 
- logistics regression
		logistics regression用于解决一些二分类问题.比如(纯假设)网上购物时,网站会判断一个人退货的可能性有多大,如果该用户退货的可能性很大,那么网站就不会推荐改用户购买退费险.反之,如果 ... 
- LTP 分词算法实践
		参考链接: https://github.com/HIT-SCIR/ltp/blob/master/doc/install.rst http://www.xfyun.cn/index.php/serv ... 
- 机器学习算法实践:Platt SMO 和遗传算法优化 SVM
		机器学习算法实践:Platt SMO 和遗传算法优化 SVM 之前实现了简单的SMO算法来优化SVM的对偶问题,其中在选取α的时候使用的是两重循环通过完全随机的方式选取,具体的实现参考<机器学习 ... 
- Logistic Regression 算法向量化实现及心得
		Author: 相忠良(Zhong-Liang Xiang) Email: ugoood@163.com Date: Sep. 23st, 2017 根据 Andrew Ng 老师的深度学习课程课后作 ... 
- 算法实践——舞蹈链(Dancing Links)算法求解数独
		在“跳跃的舞者,舞蹈链(Dancing Links)算法——求解精确覆盖问题”一文中介绍了舞蹈链(Dancing Links)算法求解精确覆盖问题. 本文介绍该算法的实际运用,利用舞蹈链(Dancin ... 
- 4、2支持向量机SVM算法实践
		支持向量机SVM算法实践 利用Python构建一个完整的SVM分类器,包含SVM分类器的训练和利用SVM分类器对未知数据的分类, 一.训练SVM模型 首先构建SVM模型相关的类 class SVM: ... 
- 机器学习算法实践:朴素贝叶斯 (Naive Bayes)(转载)
		前言 上一篇<机器学习算法实践:决策树 (Decision Tree)>总结了决策树的实现,本文中我将一步步实现一个朴素贝叶斯分类器,并采用SMS垃圾短信语料库中的数据进行模型训练,对垃圾 ... 
随机推荐
- matlab GPU 操作
			从Matlab2013版本开始,matlab将可以直接调用gpu进行并行计算,而不再需要安装GPUmat库.这一改动的好处是原有的matlab内置函数都可以直接运用,只要数据格式是gpuArray格式 ... 
- java Web JSTL介绍及基本应用
			由于实际开发中我们一般不能在jsp页面上写java代码,而el表达式也做不了判断 循环之类的复杂操作,为了弥补这些缺点,所以就有了JSTL. 简介 JavaServer Pages Standard ... 
- 【HDU4970】Killing Monsters
			题意 数轴上有n个点,有m座炮塔,每个炮塔有一个攻击范围和伤害,有k个怪物,给出他们的初始位置和血量,问最后有多少怪物能活着到达n点.n<=100000 分析 对于某个怪物,什么情况下它可以活着 ... 
- 在web.Config文件中添加数据库连接配置
			新建一个网站,打开web.config文件,在connectionString配置节点添加add节点进行数据库进行数据库连接配置代码如下: <connectionStrings> < ... 
- 面试题:java实例变量,局部变量,类变量  背1
			一.实例变量 也叫对象变量.类成员变量:从属于类由类生成对象时,才分配存储空间,各对象间的实例变量互不干扰,能通过对象的引用来访问实例变量.但在Java多线程中,实例变量是多个线程共享资源,要注意同步 ... 
- c语言split的实现代码
			我们知道在其他语言中有split函数可以把一个字符串按你自己想要的分隔符分割成多个字符串并以列表的形式返回.但是对于c语言来说,是没有这样一个函数接口可以直接调用的.但是有时候在项目工作中,又会用到这 ... 
- 整合Office Web Apps至自己的开发系统
			原文出处:http://www.cnblogs.com/poissonnotes/p/3267190.html 还可参考:https://www.cnblogs.com/majiang/p/36729 ... 
- ssh试卷
			2.简述Hibernate的工作原理. 答:首先,Configuration读取Hibernate的配置文件及映射文件中的信息,即加载配置文件和映射文件,并通过Hibernate配置文件生成一个多线程 ... 
- 编写高质量代码改善C#程序的157个建议——建议46:显式释放资源需继承接口IDisposable
			建议46:显式释放资源需继承接口IDisposable C#中的每一个类型都代表一种资源,资源分为两类: 托管资源:由CLR管理分配和释放的资源,即从CLR里new出来的对象. 非托管资源:不受CLR ... 
- 设计模式06: Adapter 适配器模式(结构型模式)
			Adapter 适配器模式(结构型模式) 适配(转换)的概念无处不在:电源转接头.电源适配器.水管转接头... 动机(Motivation)在软件系统中,由于应用环境的变化,常常需要将“一些现存的对象 ... 
