Otto Group Product Classification

遇到的坑：

做多分类，用CrossEntropyLoss时，训练时候的正确标签的范围应该是[0,n-1]，而不是[1,n]，不然会报 IndexError: Target is out of bounds

比如这题就应该预处理为[0,8],而不是[1,9]
pd.read_csv以后得到data,然后np.array(data)里面就已经不包括原本csv文件里第一行的名称了
关于read_csv用相对路径读不到，用绝对路径就读的到的问题，应该是vscode workspace的问题，在vscode里打开文件即可

疑问：

读进来的数据数据都要变成np.float32形式？

import torch

from torchvision import transforms

from torchvision import datasets

from torch.utils.data import DataLoader

from torch.utils.data import Dataset

import torch.nn.functional as F

import torch.optim as optim

import numpy as np

import pandas as pd

batch_size=64

#归一化 均值和方差？

transform=transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,),(0.3081,))])

def process_label(labels):

    ret=[]

    for label in labels:

        ret.append(int(label[-1])-1)

    ret=torch.tensor(ret)

    return ret

class otto(Dataset):

    def __init__(self,filepath):

        data=pd.read_csv(filepath)

        #print(data)

        labels=data['target']

        self.len=data.shape[0]

        self.x_data=torch.tensor(np.array(data)[:,1:-1].astype(np.float32))

        self.y_data=process_label(labels)

    def __getitem__(self,index):

        return self.x_data[index],self.y_data[index]

    def __len__(self):

        return self.len

# train_dataset=datasets.MNIST(root='./dataset/mnist/',train=True,download=True,transform=transform)

# train_loader=DataLoader(train_dataset,shuffle=True,batch_size=batch_size)

# test_dataset=datasets.MNIST(root='./dataset/mnist/',train=False,download=True,transform=transform)

# test_loader=DataLoader(test_dataset,shuffle=False,batch_size=batch_size)

dataset=otto('/Users/zzy81/Desktop/py/62/9/train.csv')

train_loader=DataLoader(dataset=dataset,batch_size=64,shuffle=True,num_workers=0)

class Net(torch.nn.Module):

    def __init__(self):

        super(Net,self).__init__()

        self.l1=torch.nn.Linear(93,70)

        self.l2=torch.nn.Linear(70,60)

        self.l3=torch.nn.Linear(60,40)

        self.l4=torch.nn.Linear(40,20)

        self.l5=torch.nn.Linear(20,9)

    def forward(self,x):

       # x=x.view(-1,93)

        x=F.relu(self.l1(x))

        x=F.relu(self.l2(x))

        x=F.relu(self.l3(x))

        x=F.relu(self.l4(x))

        return self.l5(x)

    def solve(self,x):

        with torch.no_grad():

            x=F.relu(self.l1(x))

            x=F.relu(self.l2(x))

            x=F.relu(self.l3(x))

            x=F.relu(self.l4(x))

            x=self.l5(x)

          #  x=F.relu(self.l5(x)) #need to be changed to softmax

            _,tmp=torch.max(x,dim=1)

            tmp=pd.get_dummies(tmp)

            return tmp

model=Net()

criterion=torch.nn.CrossEntropyLoss()

optimizer=optim.SGD(model.parameters(),lr=0.01,momentum=0.5)

def train(epoch):

    running_loss=0.0

    for batch_idx,data in enumerate(train_loader):

        inputs,target=data

        optimizer.zero_grad()

        outputs=model(inputs)

        loss=criterion(outputs,target)

        #这里outputs.shape=(64,9), target.shape=(64)

        loss.backward()

        optimizer.step()

        running_loss+=loss.item()

        if batch_idx%300==299:

            print('[%d, %5d] loss:%.3f'%(epoch+1,batch_idx+1,running_loss/300))

            running_loss=0.0

# def test():

#     correct=0

#     total=0

#     with torch.no_grad():

#         for data in test_loader:

#             images,labels=data

#             outputs=model(images)

#             _,predicted=torch.max(outputs.data,dim=1)

#             total+=labels.size(0)

#             correct+=(predicted==labels).sum().item()

#     print('accuracy on test set : %d %%' % (100*correct/total))

if __name__=='__main__':

    for epoch in range(3000):

        train(epoch)

    test_data=pd.read_csv('./test.csv')

    test_input=torch.tensor(np.array(test_data)[:,1:].astype(np.float32))

    output=model.solve(test_input)

    output.columns=['Class_1','Class_2','Class_3','Class_4','Class_5','Class_6','Class_7','Class_8','Class_9']

    output.insert(0,'id',test_data['id'])

    tmp=pd.DataFrame(output)

    tmp.to_csv('./zzy_predict.csv',index=False)

       # test()

Otto Group Product Classification的更多相关文章

Otto Product Classification Winner's Interview: 2nd place, Alexander Guschin ¯\_(ツ)_/¯
Otto Product Classification Winner's Interview: 2nd place, Alexander Guschin ¯\_(ツ)_/¯ The Otto Grou ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
PyTorch深度学习实践——多分类问题
多分类问题目录多分类问题 Softmax 在Minist数据集上实现多分类问题作业课程来源:PyTorch深度学习实践--河北工业大学 <PyTorch深度学习实践>完结合集_哔哩 ...
How Much Did It Rain? Winner's Interview: 1st place, Devin Anzelmo
How Much Did It Rain? Winner's Interview: 1st place, Devin Anzelmo An early insight into the importa ...
[机器学习]集成学习--bagging、boosting、stacking
集成学习简介集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务. 如何产生"好而不同"的个体学习器,是集成学习研究的核心. 集成学习的思路是通过 ...
SAP T CODE : Description (Program)
SAP T CODE : Description (Program) V : Quickstart RKCOWUSL (RKCOWUSL)V+01 : Create Sales Call (SAPMV ...
Entity Framework 基于方法的查询语法
实体框架(Entity Framework )是 ADO.NET 中的一套支持开发面向数据的软件应用程序的技术. LINQ to Entities 提供语言集成查询 (LINQ) 支持,它允许开发 ...
LINQ to Entities 查询语法
转自: http://www.cnblogs.com/asingna/archive/2013/01/28/2879595.html 实体框架(Entity Framework )是 ADO.NET ...
Magento创建configurable产品的要点
接着上一篇用API创建可配置的产品Configurable Product说事.Magento的产品类型可分为Simple Product.Group Product.Configurable Pro ...
LINQ（隐式表达式、lambda 表达式）
.NET 中一项突破性的创新是 LINQ(Language Integrated Query,语言集成查询),这组语言扩展让你能够不必离开舒适的 C# 语言执行查询. LINQ 定义了用于构建查询表达 ...

随机推荐

网络很慢mtu设置
[root@db-***** etc]# cat /etc/rc.local #!/bin/sh # # This script will be executed *after* all the ot ...
JavaScript 错误 throw、try、catch
JavaScript错误throw.try.catch try:语句测试代码的错误: catch:语句处理错误: throw:语句创建自定义错误: finally:语句在try和catch语句之后,无 ...
【10】python之条件判断
Python 条件语句是通过一条或多条语句的执行结果(True 或者 False)来决定执行的代码块. Python中没有switch – case语句,也没有三元运算符. 1.if 语句 Pytho ...
Github快速访问
Github快速访问 1. 国内访问github慢 github是国外网站,用国内的网络很难访问到,也就无法使用github,作为程序猿的我们,无法使用github可太难受了,那么我们有什么办 ...
LeetCode 29. 两数相除时间击败【100.00%】内存击败【76.25%】
不禁让我想起了计算机是怎样进行除法运算的,单独考虑溢出以及边界情况,单独考虑符号,其他过程和我们小学除法是一模一样的:左移除数(十进制就是扩大十倍,二进制扩大两倍),直到正好比被除数小,一边累加商(在 ...
SAP GGB0 校验
需求,针对财务凭证分配号的要求在满足条件下进行必填校验在需要的位置创建确认创建步骤,一般通过点击就可以形成需要的前提逻辑,也可以通过设置->专门方式来进行自定义编写. 如果前提条件是 ...
zabbix-proxy部署笔记
前提:配置好yum源 1. 安装mariadb-server systemctl start mariadb.service systemctl enable mariadb.service mysq ...
python获取主机内网中所有MAC地址
import osimport subprocessimport socket"""python获取主机内网中所有MAC地址"""def g ...
JS篇(003)-请用 js 去除字符串空格？
答案:replace 正则匹配方法.str.trim()方法.JQ 方法:$.trim(str)方法解析: 方法一:replace 正则匹配方法去除字符串内所有的空格:str = str.repl ...
Docker-Compose编排与部署
Docker Compose (多个容器编排) 是一个定义及运行多个docker容器的工具,可以使用YAML文件来配置应用,使用命令,可以创建并启动配置中的所有服务.docker compose会通过 ...

Otto Group Product Classification

Otto Group Product Classification的更多相关文章

随机推荐

热门专题