动手学深度学习-python基础知识介绍（数据处理基础流程）part2

数据预处理

import os

os.makedirs(os.path.join('..','data'),exist_ok=True)

data_file=os.path.join('..','data','house_tiny.csv')

with open(data_file,'w') as f:

    f.write('NumRooms,Alley,Price\n') #列名

    f.write('NA,Pave,127500\n') #每行表示一个数据样本

    f.write('2,NA,106000\n')

    f.write('4,NA,178100\n')

    f.write('NA,NA,140000\n')

#os.path.join('..', 'data')：生成一个路径字符串，表示当前目录的父目录下的data文件夹。

#os.makedirs(..., exist_ok=True)：创建这个目录。如果目录已经存在，exist_ok=True参数会防止抛出错误。

# os.path.join('..', 'data', 'house_tiny.csv')：生成一个路径字符串，表示data文件夹下的house_tiny.csv文件。

# with open(data_file, 'w') as f：以写入模式打开文件。如果文件已存在，会被覆盖。

# f.write(...)：向文件写入字符串。每行字符串表示一个数据样本，包括列名和数据。

从创建的csv文件中加载原始数据集

import pandas as pd

data=pd.read_csv(data_file)

print(data)

处理缺失数据，可以插值以及删除

# 插值

#对于每列中的缺失值，使用该列的平均值进行填充

inputs,outputs=data.iloc[:,0:2],data.iloc[:,2]

inputs=inputs.fillna(inputs.mean())

print(inputs)

#fillna方法填充inputs中的缺失值（NA）

#inputs.mean()：计算inputs中每列的平均值

对于inputs中的类别值（离散值），我们将“NAN”视为一个类别

inputs=pd.get_dummies(inputs,dummy_na=True)

print(inputs)

# pd.get_dummies(inputs)：这个函数将inputs DataFrame中的分类变量转换为虚拟变量。对于每个分类变量的每个类别，

# 都会创建一个新的列，值为0或1，表示该类别是否存在于原始数据中。例如，如果Alley列有值Pave和NA，

# 则会生成两个新的列：Alley_Pave和Alley_NA。

# dummy_na=True：

# 这个参数指示pd.get_dummies在处理缺失值（NA）时，也要将其视为一个单独的类别，并为其创建一个虚拟变量列。

# 例如，如果Alley列中有缺失值，dummy_na=True会创建一个额外的列（如Alley_NA），

# 并将缺失值所在行的该列值设为1，其他行设为0。

现在inputs和outputs中所有的条目都是数值类型，可以转换为张量格式

import torch

x,y=torch.tensor(inputs.values),torch.tensor(outputs.values)

x,y

动手学深度学习-python基础知识介绍（数据处理基础流程）part2的更多相关文章

对比《动手学深度学习》 PDF代码+《神经网络与深度学习》PDF
随着AlphaGo与李世石大战的落幕,人工智能成为话题焦点.AlphaGo背后的工作原理"深度学习"也跳入大众的视野.什么是深度学习,什么是神经网络,为何一段程序在精密的围棋大赛中 ...
小白学习之pytorch框架(2)-动手学深度学习(begin-random.shuffle()、torch.index_select()、nn.Module、nn.Sequential())
在这向大家推荐一本书-花书-动手学深度学习pytorch版,原书用的深度学习框架是MXNet,这个框架经过Gluon重新再封装,使用风格非常接近pytorch,但是由于pytorch越来越火,个人又比 ...
【动手学深度学习】Jupyter notebook中 import mxnet出错
问题描述打开d2l-zh目录,使用jupyter notebook打开文件运行,import mxnet 出现无法导入mxnet模块的问题, 但是命令行运行是可以导入mxnet模块的. 原因: 激活 ...
动手学深度学习9-多层感知机pytorch
多层感知机隐藏层激活函数小结多层感知机之前已经介绍过了线性回归和softmax回归在内的单层神经网络,然后深度学习主要学习多层模型,后续将以多层感知机(multilayer percetro ...
动手学深度学习1- pytorch初学
pytorch 初学 Tensors 创建空的tensor 创建随机的一个随机数矩阵创建0元素的矩阵直接从已经数据创建tensor 创建新的矩阵计算操作加法操作转化形状 tensor 与nu ...
《动手学深度学习》系列笔记—— 1.2 Softmax回归与分类模型
目录 softmax的基本概念交叉熵损失函数模型训练和预测获取Fashion-MNIST训练集和读取数据 get dataset softmax从零开始的实现获取训练集数据和测试集数据模型参 ...
动手学深度学习14- pytorch Dropout 实现与原理
方法从零开始实现定义模型参数网络评估函数优化方法定义损失函数数据提取与训练评估 pytorch简洁实现小结针对深度学习中的过拟合问题,通常使用丢弃法(dropout),丢弃法有很多的 ...
动手学深度学习6-认识Fashion_MNIST图像数据集
获取数据集读取小批量样本小结本节将使用torchvision包,它是服务于pytorch深度学习框架的,主要用来构建计算机视觉模型. torchvision主要由以下几个部分构成: torchv ...
【零基础学深度学习】动手学深度学习2.0--tensorboard可视化工具简单使用
1 引言老师让我将线性回归训练得出的loss值进行可视化,于是我使用了tensorboard将其应用到Pytorch中,用于Pytorch的可视化. 2 环境安装本教程代码环境依赖: python ...
mxnet 动手学深度学习
http://zh.gluon.ai/chapter_crashcourse/introduction.html 强化学习(Reinforcement Learning) 如果你真的有兴趣用机器学习开 ...

随机推荐

three.js优化
Three js 开发的一些知识整理,方便后期遇到类似的问题,能够及时查阅使用. three.js 性能优化方面,整理一下常用的优化方法或者方向,供大家一个优化思考的方向尽量重用Material和G ...
正则g修饰符对test方法的影响
标签: js 坑位最近在使用正则的时候遇到一个问题,从一个数组中选出符合我要求的元素做进一步使用,但正则验证莫名的失效不通过,坑位代码片段如下测试地址 : var reg = /\[.{32}\] ...
MQ系列 | RabbitMQ 消息确认机制
RabbitMQ 消息确认机制温馨提示:基于JDK17.SpringBoot 2.1.8.RELEASE 版本,由于RabbitMQ 在 SpringBoot3+ 的配置项有所不同, 所以请严格按照 ...
编写bash脚本快速kill或启动tomcat
假设tomcat安装路径为 /home/tomcat,示例如下: 1. kill tomcat进程 vim kill-tomcat-force.sh set fileformat=unix path ...
Netty 那些事儿 ——— 关于 “Netty 发送大数据包时触发写空闲超时” 的一些思考
作者:tomas家的小拨浪鼓链接:https://www.jianshu.com/p/8fe70d313d78来源:简书本文是笔者和朋友(笔名:oojeek)一起讨论该问题的一个记录.文章以讨论过程 ...
Qt/C++视频监控Onvif工具/组播搜索/显示监控画面/图片参数调节/OSD管理/祖传原创
一.前言能够写出简单易用而又不失功能强大的组件,一直是我的追求,简单主要体现在易用性,不能搞一些繁琐的流程和一些极难使用的API接口,或者一些看不懂的很难以理解的函数名称,一定是要越简单越好.功能强 ...
Typora设置自定义脚本上传图片
搭建图床服务这里利用CloudFlare搭建免费的图床服务 cf-image-hosting 部署Pages $ git clone https://github.com/ifyour/cf-ima ...
Pycharm IDE中导入和移除python项目
1.Pycharm导入python项目进入PyCharm后,点击File→Open,然后在弹窗中选择需要导入项目的文件夹: 打开了python项目后,需要配置该项目对应的python才可以正常运行: ...
Java实现拍卖系统详解
一.项目背景与需求分析随着互联网技术的飞速发展,电子商务领域不断拓展新的业务模式,在线拍卖系统应运而生并逐渐成为一种重要的商业交易方式.在当今数字化的时代,人们越来越倾向于通过网络平台进行各类交易活 ...
Web端IM系统：RainbowChat-Web v4.0发布
关于RainbowChat-Web ► RainbowChat-Web详细介绍:http://www.52im.net/thread-2483-1-1.html► 历史版本更新记录:http://ww ...

动手学深度学习-python基础知识介绍（数据处理基础流程）part2

数据预处理

从创建的csv文件中加载原始数据集

处理缺失数据，可以插值以及删除

对于inputs中的类别值（离散值），我们将“NAN”视为一个类别

现在inputs和outputs中所有的条目都是数值类型，可以转换为张量格式

动手学深度学习-python基础知识介绍（数据处理基础流程）part2的更多相关文章

随机推荐

热门专题