前言

最近好久没写博客了,事情太多了,我还搞了个新的好玩的项目,等后续做得差不多了来写篇文章介绍一下。

在我们目前的AI项目中,团队需要共同使用一台GPU服务器来做模型训练和数据处理。为了让每个团队成员都能高效地使用这台服务器,我们决定设置一个多用户共享环境。这样,无论是代码开发、模型测试还是结果验证,所有人都可以方便地访问并利用服务器的强大算力。

本文将记录一下配置Linux共享环境的过程,同时也希望能帮助那些面临类似需求的团队。

设置用户和组

要有效管理我们的GPU服务器,首先需要创建新的用户账户,并将这些账户组织到一个专门的用户组中。这样做可以更容易地管理权限和访问控制。

创建用户和组

先创建个组

sudo groupadd gpugroup

接下来创建用户

sudo adduser [用户名]

然后把用户添加到组里面

sudo usermod -a -G gpugroup username

配置SSH公钥登录

为了让团队成员能够安全地通过SSH连接到服务器,统一使用公钥认证,禁止密码登录。

每个用户需要生成一对密钥(如果还没有的话),并将公钥发送给管理员。然后,管理员需要将这些公钥添加到用户的 .ssh/authorized_keys 文件中。

首先,确保每个用户的 home 目录下都有 .ssh 目录,如果没有,可以使用下面的命令创建:

sudo mkdir /home/[用户名]/.ssh
sudo chmod 700 /home/[用户名]/.ssh

然后,将公钥添加到 authorized_keys 文件中:

echo [公钥内容] >> /home/[用户名]/.ssh/authorized_keys
sudo chmod 600 /home/[用户名]/.ssh/authorized_keys

替换 [用户名][公钥内容] 为实际的用户名和公钥。

创建共享文件夹

之前我把代码放在 home 目录下,不过实践中发现这样不利于共享。

毕竟把某个用户 home 目录下的一个文件夹设置为共享目录,让其他用户访问,总觉得怪怪的。

通常为了安全性和组织性,还是创建一个专门的目录用于共享项目比较好,问了GPT是这么说的

安全性:避免不必要的权限泄露。当你将项目放在个人家目录下时,可能会不小心赋予其他用户过多的访问权限,这可能导致敏感信息的泄露或不小心的数据损坏。

易管理性:一个专门的共享目录使得管理更为简单明了。你可以轻松控制谁可以访问这个目录,而不必担心影响到其他个人数据或设置。

扩展性:随着团队的增长,可能会有更多的用户需要访问这些共享资源。有一个独立的共享目录可以更方便地管理用户和权限,而不是不断调整家目录下的权限设置。

清晰的权限界定:独立的共享目录让权限的设置和调整变得更加清晰和简单。例如,可以针对这个目录设置定制的安全策略和备份策略。

所以我在 /srv 目录里创建了一个目录 /srv/projects 用来共享。

组权限设置

接下来,将团队共享的项目文件夹 /srv/projects 的所有权设置给 gpugroup 组。

sudo chown -R root:gpugroup /srv/projects
sudo chmod -R 775 /srv/projects

设置SGID(Set Group ID)

SGID 是一个特殊的权限设置,它确保在一个目录下创建的任何新文件或目录都会自动继承该目录的组。这非常适合我们的项目目录,因为它可以让团队中的所有成员都能访问和修改文件,而不必担心单个文件的组设置。

你可以使用以下命令来设置SGID位:

sudo chmod g+s /path/to/directory

例如,如果我们的项目目录是 /srv/projects,命令将是:

sudo chmod g+s /srv/projects

这样设置后,所有在 /srv/projects 下创建的新文件和目录都将自动设置为该组,保持权限的一致性。

调整 umask (optional)

PS: 我没有设置这个,可以但没必要

umask 是一个系统设置,决定了新创建的文件和目录的默认权限。为了确保团队成员可以编辑彼此的文件,我们需要设置一个合适的 umask 值。

通常的 umask 值是 022,这意味着新创建的文件默认权限是 644(用户可读写,组和其他人可读),新目录的默认权限是 755(用户可读写执行,组和其他人可读执行)。为了团队协作,我们可以设置 umask 为 002,这样新文件的权限为 664(用户和组可读写,其他人可读),新目录的权限为 775(用户和组可读写执行,其他人可读执行)。

可以通过以下命令临时改变 umask 值:

umask 002

为了永久改变,需要在用户的 shell 配置文件中设置,比如 .bashrc.profile

echo "umask 002" >> ~/.bashrc

其他

还有一些细节的,比如我之前把 conda 装到 home 目录里了

现在也得重新在 /srv/apps 里安装,原本在 home 里的就不要了

这样所有用户都能共享 python 的虚拟环境

复制文件时显示进度

cp -R 命令不支持显示进度

可以使用 rsync 或 pv 代替

rsync

rsync -ah --progress source destination

参数解释:

  • -a 是归档模式,它保留符号链接、文件权限、用户组信息等。
  • -h 使输出更易于阅读,使用人类可读的格式。
  • --progress 显示复制进度。

pv

这个是搭配压缩工具使用的,有些系统不自带,可能得先安装。

tar cf - source/ | pv | tar xf - -C destination

这个命令将 source 目录打包并通过 pv 显示进度,然后在 destination 目录中解包。

小结

这样设置下来就基本搞定了

我最近还探索了一些项目管理工具,部署了 MatterMost

接下来可以写文章记录一下。

为团队配置Linux环境,简单高效的项目共享方案的更多相关文章

  1. VSCode配置c++环境简单教程

    VSCode配置c++环境简单教程 1.下载MinGW 安装有关gdb,gcc,g++的所有包 2.文件夹 打开一个文件夹 在里面随便写一个cpp 不管是VS还是VSCode,它的基本操作单位都是文件 ...

  2. eclipse弃坑记第一篇之在idea上配置Tomcat环境并创建Javaweb项目的详细步骤原创

    IntelliJ IDEA是一款功能强大的开发工具,在代码自动提示.重构.J2EE支持.各类版本工具(如git.svn.github).maven等方面都有很好的应用. IntelliJ IDEA有免 ...

  3. Linux环境下第一次提交项目

    Linux环境下第一次提交项目: vi 日记 新增一个文件名为“日记”的文件 git status 工作区的状态 git add 日记 建立跟踪 git commit 提交变更 ----------- ...

  4. linux下配置python环境 django创建helloworld项目

    linux下配置python环境 1.linux下安装python3 a. 准备编译环境(环境如果不对的话,可能遇到各种问题,比如wget无法下载https链接的文件) yum groupinstal ...

  5. Hadoop第一式:配置Linux环境

    所有操作在虚拟机下完成,虚拟机软件选用VMware Workstation Pro 12 (后文简称为VM) 关于Linux安装不再阐述一.网络环境配置 1)Windows界面 首先在VM页面,点击虚 ...

  6. 三种配置linux环境变量的方法(以java为例)

    1.先确认是否为openjdk:参考 2. 修改/etc/profile文件  如果你的计算机仅仅作为开发使用时推荐使用这种方法,因为所有用户的shell都有权使用这些环境变量,可能会给系统带来安全性 ...

  7. 【转】Linux环境进程间通信(五) 共享内存(上)

    转自:https://www.ibm.com/developerworks/cn/linux/l-ipc/part5/index1.html 采用共享内存通信的一个显而易见的好处是效率高,因为进程可以 ...

  8. <转>Linux环境进程间通信(五): 共享内存(上)

    http://www.ibm.com/developerworks/cn/linux/l-ipc/part5/index1.html 采用共享内存通信的一个显而易见的好处是效率高,因为进程可以直接读写 ...

  9. ASP.NET Core Linux环境安装并运行项目

    原文地址:https://blog.csdn.net/u014368040/article/details/79192622 一 安装环境 1.  从微软官网下载 Linux版本的.NetCoreSd ...

  10. (一)配置linux环境实现持续集成

    目录 1.Centos7操作系统 2.Gnome 可视化桌面 3.远程shell工具 4.远程桌面工具 5.Jdk 6..Net Core 7.Git 8.Docker 容器 9.Kubernetes ...

随机推荐

  1. NOIP模拟81

    T1 语言 解题思路 模拟即可,对于一个合法的句子直接判断每一个前缀和每一个后缀是否是合法的名词词组. 然后枚举动词的位置判断前后两段是否合法就好了. code #include<bits/st ...

  2. SQL练习之打卡记录数据统计类问题

    最近老婆的公司,关闭了OA系统中,各类打卡时间数据统计的功能,为了不麻烦老婆手算,就做了一个简单的打卡系统,方便自动统计老婆想要知道的各类数据. 做的过程中就遇到了几个还挺有意思的SQL,这里写成一篇 ...

  3. java springboot 指定运行端口

    java springboot 指定运行端口 方法1: 修改源代码里的"\src\main\resources\application.properties" 文件,增加或修改 s ...

  4. 修改 WIN10 WIN11 操作系统启动菜单名称

    修改 WIN10 WIN11 操作系统启动菜单名称 一块硬盘装双系统后,自动更新的启动菜单名称可能无法区分WIN10.WIN11,需要通过"卷2"."卷3"字样 ...

  5. 老张,你的服务是不是挂了?论全局 SLI 的重要性

    场景再现 你正在午休,正梦见中了彩票,突然收到电话告警,说服务对外接口 95 分位延迟突增,惊出一身冷汗,睡意全无,抓紧打开监控系统,查看服务的 SLI 指标,发现确实有问题,已经持续 1 分钟,这服 ...

  6. Kubernetes监控手册05-监控Kubelet

    上一篇我们介绍了如何监控Kube-Proxy,Kube-Proxy的/metrics接口没有认证,相对比较容易,这一篇我们介绍一下Kubelet,Kubelet的监控相比Kube-Proxy增加了认证 ...

  7. 一种复习flex布局的方法

    方法论 flex布局有多个属性,时常会忘记.我们复习的话,单纯看一些博客文章,不能直观的理解,也比较枯燥. 因此如果有一种用写代码闯关的方式来复习(学习)flex布局,那也许会更有意思. FLEXBO ...

  8. Service Mesh技术详解

    深入探讨Service Mesh的基本概念和核心技术,涵盖了服务发现.负载均衡.断路器与熔断机制,以及数据平面与控制平面的详细工作原理和实现方法. 关注作者,复旦博士,分享云服务领域全维度开发技术.拥 ...

  9. python 判断token是否有效,若失效,重新发起token请求

    场景: 1.对一个接口,进行接口自动化测试,查找的是有权限操作的用例,传入到获取token接口,生成token,判断当前是否有token,如果存在token,则无需再次发起token接口: 存在的问题 ...

  10. 天翼云安装nexus3.37.1

    有点操蛋,官网网络太慢了! 百度了不少网友的内容,综合如下 总体是个皮毛,但已经可以用于开发了! 一.下载和安装 https://download.sonatype.com/nexus/3/nexus ...