机器学习 1 linear regression 作业(二)

这个线性回归的作业需要上传到https://inclass.kaggle.com/c/ml2016-pm2-5-prediction 上面，这是一个kaggle比赛的网站。第一次接触听说这个东西，恰好在京东上有一本刚出来的关于这个的书《Python机器学习及实践：从零开始通往Kaggle竞赛之路》。把我自己写的代码运行保存的结果提交上去后发现，损失函数值很大，baseline是6，而我的却是8，于是很不心甘，尝试了其他方法无果后，准备利用scikit learn 工具刷刷数据。

具体步骤：

1 安装scikit learn ，在CMD下输入

pip install -U scikit-learn

2 安装完成后就可以使用模型进行预测了，上完整代码

 # -*- coding: utf-8 -*-

 __author__ = 'Administrator'

 # -*- coding:UTF-8 -*-

 __author__ = 'tao'

 import csv

 import cv2

 import sys

 import numpy as np

 import matplotlib.pyplot as plt

 from sklearn import datasets, linear_model

 import math

 filename = 'F:/台湾机器学习/data/train.csv'

 ufilename = unicode(filename , "utf8") #这一块主要是因为汉字路径 也就是python调用open打开文件时，其路径必须要转换为utf-8格式

 list=[]

 result=[]

 row=0

 colum=0;

 with open(ufilename, 'r') as f:

     data = f.readlines()  #dat中所有字符串读入data

     for line in data:

         odom = line.split(',')        #将单个数据分隔开存好

         colum=len(odom)

         if 'PM2.5'in odom:

             lists= map(int, odom[3:12])#第三个开始开始数据  一直取9个数

             results= map(int, odom[12:13])#取第10个数

             list.append(lists)

             result.append(results)

             # print odom

         row=row+1

 #print("原始数据是：{0}行 ：{1}列 的数据".format(row, colum))

 print("有{0}个训练数据".format(len(list)))

 ###

 regr = linear_model.LinearRegression()

 regr.fit(list, result) #这里就是在训练模型了

 print(' intercept: \n', regr. intercept_) #这就是w0，常数项

 print('Coefficients: \n', regr.coef_) #这就是w1，常数项

 b_0=regr. intercept_

 th =regr.coef_;

 print("-训练得到的权值如下--")

 print" %10.5f %10.5f  %10.5f %10.5f   %10.5f  %10.5f  %10.5f %10.5f   %10.5f  %10.5f \n" %(b_0,th[0][0],th[0][1],th[0][2],th[0][3],th[0][4],th[0][5],th[0][6],th[0][7],th[0][8])

 #测试训练集

 for k in range(len(list)):

     xset = np.array(list[k])

     nptresult= np.array(result[k])

     # print("预测数据{0}".format( b_0 + np.dot(th,xset)))

     # print("真实数据{0}".format(nptresult))

     error= b_0 + np.dot(th,xset)-nptresult

     print("训练集的实际误差{0}".format(error))

 #读取测试集数据

 testfilename = 'F:/台湾机器学习/data/test_X.csv'

 utestfilename = unicode(testfilename , "utf8") #这一块主要是因为汉字路径 也就是python调用open打开文件时，其路径必须要转换为utf-8格式

 testlist=[]

 testrow=0

 testcolum=0;

 with open(utestfilename, 'r') as f:

     data = f.readlines()  #dat中所有字符串读入data

     for line in data:

         odom = line.split(',')        #将单个数据分隔开存好

         colum=len(odom)

         if 'PM2.5'in odom:

             testlists= map(int, odom[2:11])#第三个开始开始数据  一直取9个数

             testlist.append(testlists)

             # print odom

         testrow=row+1

 print("测试数据是：{0}行 ：{1}列 的数据".format(testrow, testcolum))

 print("有{0}个测试数据".format(len(testlist)))

 print(testlist)

 #输出最后的测试结果

 csvfile = file('d:\\csv_result.csv', 'wb')

 writer = csv.writer(csvfile)

 writer.writerow(['id', 'value'])

 for k in range(len(testlist)):

     id_list=[]

     xset = np.array(testlist[k])

     result= b_0 +np.dot(th,xset)

     int_result = int(result)

     if(int_result<0):

         int_result=0

     id_list = [('id_{0}'.format(k), '{0}'.format(int_result))]

     print(id_list)

     writer.writerows(id_list)

 csvfile.close()

得到的程序

-训练得到的权值如下--
bo 1.86833 wo -0.07357 w1 0.08100 w2 0.16498 w3-0.25133 w4 -0.05844 w5 0.67979 w5 -0.66656 w6 -0.12575 w7 1.22998

然后试了试：

from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.ensemble import GradientBoostingRegressor as GBR
下面三种回归方法，都没有达到好的排名。。。囧，

#regr = linear_model.LinearRegression()

#regr = linear_model.Ridge()

# regr = linear_model.Lasso()

regr =  GBR()

regr.fit(list, result) #这里就是在训练模型了

print(' intercept: \n', regr. intercept_) #这就是w0，常数项

print('Coefficients: \n', regr.coef_) #这就是w1，常数项

###

 error=  regr.predict(xset)-nptresult

参考博客：http://blog.csdn.net/sa14023053/article/details/51817650

算了，超过baseline就心满意足了。

机器学习 1 linear regression 作业(二)的更多相关文章

机器学习 1 linear regression 作业
话说学机器学习,不写代码就太扯淡了.好了,接着上一次的线性回归作业. hw1作业的链接在这: http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/L ...
[ML] Bayesian Linear Regression
热身预览 1.1.10. Bayesian Regression 1.1.10.1. Bayesian Ridge Regression 1.1.10.2. Automatic Relevance D ...
机器学习 (二) 多变量线性回归 Linear Regression with Multiple Variables
文章内容均来自斯坦福大学的Andrew Ng教授讲解的Machine Learning课程,本文是针对该课程的个人学习笔记,如有疏漏,请以原课程所讲述内容为准.感谢博主Rachel Zhang 的个人 ...
Andrew Ng机器学习编程作业: Linear Regression
编程作业有两个文件 1.machine-learning-live-scripts(此为脚本文件方便作业) 2.machine-learning-ex1(此为作业文件) 将这两个文件解压拖入matla ...
Stanford机器学习---第二讲. 多变量线性回归 Linear Regression with multiple variable
原文:http://blog.csdn.net/abcjennifer/article/details/7700772 本栏目(Machine learning)包括单参数的线性回归.多参数的线性回归 ...
Stanford机器学习---第一讲. Linear Regression with one variable
原文:http://blog.csdn.net/abcjennifer/article/details/7691571 本栏目(Machine learning)包括单参数的线性回归.多参数的线性回归 ...
机器学习之多变量线性回归（Linear Regression with multiple variables）
1. Multiple features(多维特征) 在机器学习之单变量线性回归(Linear Regression with One Variable)我们提到过的线性回归中,我们只有一个单一特征量 ...
斯坦福机器学习视频笔记 Week1 Linear Regression and Gradient Descent
最近开始学习Coursera上的斯坦福机器学习视频,我是刚刚接触机器学习,对此比较感兴趣:准备将我的学习笔记写下来, 作为我每天学习的签到吧,也希望和各位朋友交流学习. 这一系列的博客,我会不定期的更 ...
斯坦福CS229机器学习课程笔记 Part1：线性回归 Linear Regression
机器学习三要素机器学习的三要素为:模型.策略.算法. 模型:就是所要学习的条件概率分布或决策函数.线性回归模型策略:按照什么样的准则学习或选择最优的模型.最小化均方误差,即所谓的 least-sq ...

随机推荐

使用html5 地理位置技术和百度地图api查询当前位置
使用了 zepto 和 requirejs define(['zepto'],function($){ var geolocation = { init:function(config,onSuc ...
TCP和UDP的区别
(1)TCP是面向连接的传输控制协议,而UDP提供了无连接的数据报服务:(2)TCP具有高可靠性,确保传输数据的正确性,不出现丢失或乱序:UDP在传输数据前不建立连接,不对数据报进行检查与修改,无须等 ...
使用密码记录工具keepass来保存密码
在第一章,曾经给过您建议,密码不要保存在文档中,那样不安全,如果密码很多而且又很复杂,人的大脑是不可能很容易记住的,只能记录下来,如果不能记在文档中那记在哪里呢?下面介绍给您一款记录密码的软件,使用. ...
剑指Offer面试题：22.二叉搜索树的后序遍历序列
一.题目:二叉搜索树的后序遍历序列题目:输入一个整数数组,判断该数组是不是某二叉搜索树的后序遍历的结果.如果是则返回true,否则返回false.假设输入的数组的任意两个数字都互不相同. 例如在下面 ...
关于printf错用格式化字符串导致double和long double输出错误的小随笔
[题外话] 以前用HUSTOJ给学校搭建Online Judge,所有的评测都是在Linux下进行的.后来为了好往学校服务器上部署,所以大家重新做了一套Online Judge,Web和Judge都是 ...
C#设计模式之组合
IronMan之组合在上个篇幅中讲到怎么把“武器”装饰到“部件”上,这个篇幅呢,还是要讲到“武器”,不过呢是关于“武器”使用的. 本篇介绍"武器"的合理使用方式,不说废话,直接来 ...
Jquery UI - DatePicker 在Dialog中无法自动隐藏的解决思路
通过Jquery UI Dialog模态展示如下的一个员工编辑页面,但是遇到一个奇怪的问题:点击Start Date的input元素后,其无法失去焦点.从而导致DatePicker控件在选择日期后无法 ...
Objective-C 观察者模式--简单介绍和使用
观察者模式(有时又被称为发布-订阅模式) 在此种模式中,一个目标物件管理所有相依于它的观察者物件,并且在它本身的状态改变时主动发出通知. 这通常透过呼叫各观察者所提供的方法来实现.此种模式通常被用来实 ...
bootstrap-popover的配置与灵活应用
首先罗列一下配置参数: 1.animation true/false 是否动画 2.placement 'right'/'left'/top/bottom/function(){return 'rig ...
SikuliX简介及安装
一.简单介绍 SikuliIDE和Sikuli Script就是现在的SikuliX,最新版本是SikuliX1.1.0, 部分兼容Sikuli JAVA API,支持Python和Ruby,Siku ...

机器学习 1 linear regression 作业(二)

机器学习 1 linear regression 作业(二)的更多相关文章

随机推荐

热门专题