李宏毅机器学习课程笔记-2.5线性回归Python实战

本文为作者学习李宏毅机器学习课程时参照样例完成homework1的记录。

任务描述（Task Description）

现在有某地空气质量的观测数据，请使用线性回归拟合数据，预测PM2.5。
数据集描述（Dataset Description）
- train.csv
  
  该文件中是2014年每月前20天每小时的观察数据，每小时的数据是18个维度的（其中之一是PM2.5）。
- test.csv
  
  该文件中包含240组数据，每组数据是连续9个小时的所有观测数据（同样是18个维度）。
  
  请预测每组数据对应的第10个小时的PM2.5数值。
结果格式

要求上交结果的格式为CSV文件。

第一行必须是id,value。

从第二行开始每行分别为id值及预测的PM2.5数值，两者用逗号间隔
总结
- 数据处理
  - 将数据处理、转换成什么形式，要根据数据集格式、任务来确定。
  - 要熟练掌握pandas、numpy等数据处理工具，特别是要知道它们能实现什么功能。
参考链接

https://colab.research.google.com/drive/131sSqmrmWXfjFZ3jWSELl8cm0Ox5ah3C

Python代码

import pandas as pd

import numpy as np

import csv

## 读取数据

data = pd.read_csv('./train.csv', encoding = 'big5') # 读取训练集

# print(data.describe())

## 数据预处理

data = data.iloc[:, 3:] # 不需要使用前三列的表头，所以删除

data[data == 'NR'] = 0 # 将非数值NR改为0

raw_data = data.to_numpy() # pandas转numpy数组，形状是4320(=18*20*12)*24

# print(raw_data.shape)

## 修改数据格式

# 数据格式为12(month)*18(features)*480(=24*20hours)，即12个月、每个月有480小时的数据（18维）

month_data = {} # 字典

for month in range(12):

    sample = np.empty([18, 480])

    for day in range(20):

        sample[ : , 24 * day : 24 * (day + 1)] = raw_data[(month * 20 + day) * 18 : (month * 20 + day + 1) * 18, : ]

    month_data[month] = sample

## 修改数据格式

# 数据格式为每个月有连续的480个小时，每10个小时形成1个object，每个月就有471个object，12个月就有471*12个oeject，每个object包括x(18*9的featrues)和y(1个PM2.5数值)。

x = np.empty([471*12, 18*9], dtype=float) # 471*12行，一行是一个object的x

y = np.empty([471*12, 1], dtype=float) # 471*12行，一行是一个object的y

for month in range(12):

    for day in range(20):

        for hour in range(24):

            if day == 19 and hour > 14: # 最后一个10小时从第20天14小时开始，防止越界

                continue

            x[month * 471 + day * 24 + hour, :] = month_data[month][:,day * 24 + hour : day * 24 + hour + 9].reshape(1, -1) # reshape时的(1, -1)指：1行、列数自动计算

            y[month * 471 + day * 24 + hour, 0] = month_data[month][9, day * 24 + hour + 9] # 取对应的第10个小时的PM2.5的值

# print(x, y)

## 标准化

#关于标准化，可以看这篇文章https://www.cnblogs.com/chouxianyu/p/13872444.html

mean_x = np.mean(x, axis=0) # 平均值，axis=0指沿着列计算平均值，即计算每列的平均值

std_x = np.std(x, axis=0) # 标准差，axis=0指沿着列计算平均值，即计算每列的标准差

# print(mean_x.shape, std_x.shape)

for i in range(len(x)):

    for j in range(len(x[0])):

        if std_x[j] != 0:

            x[i][j] = (x[i][j] - mean_x[j]) / std_x[j]

## 训练

dim = 18 * 9 + 1 # 这个+1是为了保存偏置

w = np.zeros([dim, 1])

x = np.concatenate((np.ones([471 * 12, 1]), x), axis=1).astype(float) # axis=1表示将两个数组按行拼接，向x中添加1是为了让其与weight中的偏置相乘

learning_rate = 100 # 学习率

iter_time = 1000 # 迭代次数

adagrad = np.zeros([dim, 1])

eps = 1e-10  # eps是避免Adagrad分母为0而加的

for t in range(iter_time):

    loss = np.sqrt(np.sum(np.power(np.dot(x, w) - y, 2)) / 471 / 12) # RMSE

    if (t % 100 == 0):

        print(t, loss)

    gradient = 2 * np.dot(x.transpose(), np.dot(x, w) - y) # dim*1

    adagrad += gradient ** 2

    w -= learning_rate * gradient / np.sqrt(adagrad + eps)

np.save('weight.npy', w)

print('Training Done')

## 测试

# 读取数据

test_data = pd.read_csv('./test.csv',header=None, encoding='big5')

test_data = test_data.iloc[ : , 2:] # 去除表头（前两列）

test_data[test_data == 'NR'] = 0

test_data = test_data.to_numpy()

test_x = np.empty([240, 18 * 9]) # 240个object，一行是一个object的x

# 修改数据格式

for i in range(240):

    test_x[i, :] = test_data[i * 18 : (i + 1) * 18, : ].reshape(1, -1) # 格式和训练集一样

# 标准化

for i in range(len(test_x)):

    for j in range(len(test_x[0])):

        if std_x[j] != 0:

            test_x[i, j] = (test_x[i, j] - mean_x[j]) / std_x[j]

test_x = np.concatenate((np.ones([240, 1]), test_x), axis=1).astype(float) # axis=1表示将两个数组按行拼接，向x中添加1是为了让其与weight中的偏置相乘

## 预测

w = np.load('weight.npy')

ans_y = np.dot(test_x, w)

# print('ans_y.shape', ans_y.shape)

with open('answer.csv', mode='w', newline='') as answer_file:

    csv_writer = csv.writer(answer_file)

    csv_writer.writerow(['id', 'value'])

    for i in range(240):

        row = ['id_' + str(i), ans_y[i][0]]

        csv_writer.writerow(row)

        # print(row)

Github（github.com）：@chouxianyu

Github Pages（github.io）：@臭咸鱼

知乎（zhihu.com）：@臭咸鱼

博客园（cnblogs.com）：@臭咸鱼

B站（bilibili.com）：@绝版臭咸鱼

微信公众号：@臭咸鱼的快乐生活

转载请注明出处，欢迎讨论和交流!

李宏毅机器学习课程笔记-2.5线性回归Python实战的更多相关文章

斯坦福CS229机器学习课程笔记 Part1：线性回归 Linear Regression
机器学习三要素机器学习的三要素为:模型.策略.算法. 模型:就是所要学习的条件概率分布或决策函数.线性回归模型策略:按照什么样的准则学习或选择最优的模型.最小化均方误差,即所谓的 least-sq ...
Andrew Ng机器学习课程笔记--汇总
笔记总结,各章节主要内容已总结在标题之中 Andrew Ng机器学习课程笔记–week1(机器学习简介&线性回归模型) Andrew Ng机器学习课程笔记--week2(多元线性回归& ...
Andrew Ng机器学习课程笔记--week1（机器学习介绍及线性回归）
title: Andrew Ng机器学习课程笔记--week1(机器学习介绍及线性回归) tags: 机器学习, 学习笔记 grammar_cjkRuby: true --- 之前看过一遍,但是总是模 ...
Andrew Ng机器学习课程笔记（一）之线性回归
Andrew Ng机器学习课程笔记(一)之线性回归版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7364598.html 前言 ...
Andrew 机器学习课程笔记
Andrew 机器学习课程笔记完成 Andrew 的课程结束至今已有一段时间,课程介绍深入浅出,很好的解释了模型的基本原理以及应用.在我看来这是个很好的入门视频,他老人家现在又出了一门 deep l ...
【读书笔记与思考】Andrew 机器学习课程笔记
Andrew 机器学习课程笔记完成 Andrew 的课程结束至今已有一段时间,课程介绍深入浅出,很好的解释了模型的基本原理以及应用.在我看来这是个很好的入门视频,他老人家现在又出了一门 deep l ...
Andrew Ng机器学习课程笔记（五）之应用机器学习的建议
Andrew Ng机器学习课程笔记(五)之应用机器学习的建议版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7368472.h ...
Andrew Ng机器学习课程笔记（四）之神经网络
Andrew Ng机器学习课程笔记(四)之神经网络版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7365730.html 前言 ...
Andrew Ng机器学习课程笔记（三）之正则化
Andrew Ng机器学习课程笔记(三)之正则化版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7365475.html 前言 ...

随机推荐

浅谈树链剖分 F&Q
这是一篇迟来的博客,由于我懒得写文章,本篇以两个问题阐述笔者对树链剖分的初步理解. Q1:树链剖分解决什么问题? 树链剖分,就是把一棵树剖分成若干连续的链,将这些链里的数据映射在线性数组上维护.比方说 ...
Codeforces Round #665 (Div. 2) D. Maximum Distributed Tree 题解（贪心+易错）
题目链接题目大意给你一课树,要你给每一条边分权值,每条边的权值大于0,他们的乘积等于k,而且要使得n-1条边1的数量尽可能少,定义 f(u,v)为u到v的边权和求 \(\max \sum_{i=1 ...
CentOS虚拟化尝试
KVM ///确认cpu是否支持kvm,确认支持,主板还得开启VT和HT egrep '(vmx|svm)' --color=always /proc/cpuinfo ///yum安装rpm包 yum ...
解决linux挖矿病毒（kdevtmpfsi，sysupdate, networkservice）
突然发现公司测试服务器CPU过高,是这两个sysupdate, networkservice进程,很明显是被挖矿了,记录下来以供参考. 病毒会把一些文件给加i锁或a锁,导致无法修改数据,所以某些操作需 ...
Steps 组件的设计与实现
NutUI 组件源码揭秘前言本文的主题是 Steps 组件的设计与实现.Steps 组件是 Steps 步骤和 Timeline 组件结合的组件,在此之前他们是两个不同的组件,在 NutUI 最近 ...
oracle sql%notfound
SQL%NOTFOUND 是一个布尔值.与最近的sql语句(update,insert,delete,select)发生交互,当最近的一条sql语句没有涉及任何行的时候,则返回true.否则返回fal ...
新手上路A4——多JDK环境变量的配置
目录配置单个JDK的方法配置2+JDK的方法方法补充检查JDK版本是否切换成功前面讲了如何选择Java版本. 以及JDK8和JDK11的下载安装配置有想法的人就开始发动他们优秀的小脑袋瓜 ...
20200311_最新爬取mzitu
废话不多, 直接上代码, python3.6: import requests from bs4 import BeautifulSoup import os import time; import ...
PyQt学习随笔：QtDesigner ListView控件列表项的初始化
在QtDesigner中设计的界面中添加ListView控件后,是没办法添加需要在ListView控件中显示的列表项.由于ListView控件只是一个展示列表项的视图控件,实现了界面与数据的分离,其要 ...
Error.name 六种值对应的信息
1 EvalErroe:eval() 的使用与定义不一致 2 RangrError: 数值越界 3 ReferenceError:非法或不能识别的引用数值 4 SyntaxError:发生语法解析错 ...

李宏毅机器学习课程笔记-2.5线性回归Python实战

李宏毅机器学习课程笔记-2.5线性回归Python实战的更多相关文章

随机推荐

热门专题