如何使用GPU训练Pytorch模型

这两天的深度学习实验真实让人头疼，传说中的“猫狗大战”，对模型的训练用CPU的话9h起步，12h是常态，大学生哪耗得起，因此查找资料搭建了GPU环境。

确定CUDA版本

首先你需要知道自己的电脑处理器，再去官网查看对应的CUDA版本：

我的处理器low了点，只配9.0的CUDA。

下载CUDA及对应版本的pytorch

然后你就需要知道9.0的CUDA怎么下载，很简单，找pyrotch官网

在Anaconda Prompt中运行该命令即可。

可能遇到的问题及解决方案

当然期间你会遇到各种问题：

问题一：CondaHTTPError: HTTP 000 CONNECTION FAILED for url ...

首先需要添加清华镜像：

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/

conda config --set show_channel_urls yes

如果还不行，就需要更改C:\Users\86132下的.condarc配置：

问题二、到上面这步，那条命令基本可以成功执行，但过程中不出意外的话还会报错：

对于第一张图的错误，我们直接照它的提醒执行命令就行，如果失败可以手动指定版本：

conda install conda=4.12.0

对于第二张图的错误，只需简单的进入该文件夹，删除它提醒的文件即可。

至此，你应该可以成功执行之前的，命令下载了。

不！还没完，下载后你会发现你的jupyter不见了，emmmm，当时也是吓我一跳，不要慌，我们只需要简单的在amd中：

pip install jupyter

Pytorch版本降低后的问题

在之后的使用你会发现，由于大大降低了pytorch的版本，在实际运用中会出一些问题

1、torch.load("xxxx.pth")命令会报错，因为pytorch1.5以下的不再支持加载zip文件，当然我们可以直接令pretrained==true，重新拉取，不自己加载权重。

2、pandas在import时报错：ImportError: Can’t determine version for bottleneck，解决参考：https://blog.csdn.net/weixin_42233755/article/details/105693375 修改后需要清除jupyter的缓存：Restar & Clear Output

3、低版本的pytorch所使用的低版本CUDA其实空间会比较，往往只有3gbi，对于超大数据集的训练，会占据几乎所有的GPU空间，此时我们需要对模型进行相应的调整，batch_size降低，以及不计算梯度等，具体见https://blog.csdn.net/weixin_43760844/article/details/113462431

使用GPU训练Pytorch模型的更多相关文章

使用GPU训练TensorFlow模型
查看GPU-ID CMD输入: nvidia-smi 观察到存在序号为0的GPU ID 观察到存在序号为0.1.2.3的GPU ID 在终端运行代码时指定GPU 如果电脑有多个GPU,Tensorfl ...
Pytorch多GPU训练
Pytorch多GPU训练临近放假, 服务器上的GPU好多空闲, 博主顺便研究了一下如何用多卡同时训练原理多卡训练的基本过程首先把模型加载到一个主设备把模型只读复制到多个设备把大的batc ...
pytorch 多GPU训练总结（DataParallel的使用）
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn.net/weixin_40087578/artic ...
Pytorch中多GPU训练指北
前言在数据越来越多的时代,随着模型规模参数的增多,以及数据量的不断提升,使用多GPU去训练是不可避免的事情.Pytorch在0.4.0及以后的版本中已经提供了多GPU训练的方式,本文简单讲解下使用P ...
Mxnet速查_CPU和GPU的mnist预测训练_模型导出_模型导入再预测_导出onnx并预测
需要做点什么方便广大烟酒生研究生.人工智障炼丹师算法工程师快速使用mxnet,所以特写此文章,默认使用者已有基本的深度学习概念.数据集概念. 系统环境 python 3.7.4 mxnet 1.9. ...
从零搭建Pytorch模型教程（四）编写训练过程--参数解析
前言训练过程主要是指编写train.py文件,其中包括参数的解析.训练日志的配置.设置随机数种子.classdataset的初始化.网络的初始化.学习率的设置.损失函数的设置.优化方式的设置. ...
使用C++调用并部署pytorch模型
1.背景(Background) 上图显示了目前深度学习模型在生产环境中的方法,本文仅探讨如何部署pytorch模型! 至于为什么要用C++调用pytorch模型,其目的在于:使用C++及多线程可以加 ...
[源码分析] Facebook如何训练超大模型---(1)
[源码分析] Facebook如何训练超大模型---(1) 目录 [源码分析] Facebook如何训练超大模型---(1) 0x00 摘要 0x01 简介 1.1 FAIR & FSDP 1 ...
[源码分析] Facebook如何训练超大模型 --- (2)
[源码分析] Facebook如何训练超大模型 --- (2) 目录 [源码分析] Facebook如何训练超大模型 --- (2) 0x00 摘要 0x01 回顾 1.1 ZeRO 1.1.1 Ze ...
[源码分析] Facebook如何训练超大模型 --- (3)
[源码分析] Facebook如何训练超大模型 --- (3) 目录 [源码分析] Facebook如何训练超大模型 --- (3) 0x00 摘要 0x01 ZeRO-Offload 1.1 设计原 ...

随机推荐

基于 Web 的 Linux 终端 WebTerminal
有时候用公共电脑,或者在没有安装 putty.xshell 之类的终端的电脑上访问或展示服务器上的一些资料数据,甚至是在运维平台开发中想要嵌入 WebTerminal 功能,于是找到了这个项目--基于 ...
远程挂载 NFS 共享目录引发死机问题
集群的存储空间有限,把一些历史的归档数据放在了公司的另外一台老旧存储服务器上,并使用 NFS 把它挂载到了 log 节点.周末的时候机房空调故障,旧存储服务器挂掉了!周一上班,在集群登陆节点使用df ...
JS引擎中的线程，事件循环，上下文
线程浏览器中有哪些进程呢? 1.浏览器进程:浏览器的主进程,负责浏览器的界面界面显示,与用户交互,网址栏输入.前进.后退,以及页面的创建和销毁. 2.渲染进程(浏览器内核):默认一个tab页面一 ...
6 种方式读取 Springboot 的配置，老鸟都这么玩（原理+实战）
大家好,我是小富- 从配置文件中获取属性应该是SpringBoot开发中最为常用的功能之一,但就是这么常用的功能,仍然有很多开发者在这个方面踩坑. 我整理了几种获取配置属性的方式,目的不仅是要让大家学 ...
在线免费ChatGPT，官方api
作为一款强大的语言模型,ChatGPT在自然语言处理领域享有较高声誉.现在,您可以在我们的在线平台上免费体验ChatGPT的功能了! 经过不断地优化和改进,我们的在线聊天机器人已经能够针对各种话题展示 ...
win10搜索框的热门搜索怎么关闭?
搜索cmd,以管理员模式运行,输入下列命令,重启生效 reg add HKCU\Software\Policies\Microsoft\Windows\explorer /v DisableSearc ...
Bean生命周期的扩展点：Bean Post Processor
摘要:在本篇文章中,我们将深入探讨Spring框架中的重要组件--BeanPostProcessor.首先,我们将了解其设计理念和目标,然后通过实际的例子学习如何基础使用它,如何通过BeanPostP ...
基于GPT搭建私有知识库聊天机器人（一）实现原理
1.成品演示支持微信聊天支持网页聊天支持微信语音对话支持私有知识文件训练,并针对文件提问步骤1:准备本地文件a.txt,支持pdf.txt.markdown.ppt等步骤2:上传a.txt ...
SQL专家云回溯某时间段内的阻塞
背景 SQL专家云像"摄像头"一样,对环境.参数配置.服务器性能指标.活动会话.慢语句.磁盘空间.数据库文件.索引.作业.日志等几十个运行指标进行不同频率的实时采集,保存到SQL专 ...
报错 no currentsessioncontext configured！
no currentsessioncontext configured! 使用hibernate框架报错配置了session工厂类,使用getCurrentSession();时候引起的,原因是cu ...

使用GPU训练Pytorch模型