阿里云交互式建模(DSW)的探索和踩坑

前言

自己的笔记本炼丹还是太吃力了些，风扇嘶吼有点心疼，看到阿里云出了一些免费试用的资源，想着能白嫖一下高端显卡跑一跑自制模型还挺有趣，于是有了下面的一些操作，其实没啥难度的，大胆的按文档来做基本就可以了.

在PAI-DSW中，可以为存储外挂OSS或NAS，注意，我看着oss好像也便宜于是就买了半年的，但是没想到这里不给挂载，说第一个挂载盘必须是NAS的，如果想真的白嫖那可能不想使用这些。每个容器自带500GB的临时存储空间也是够用的，但是请注意，该存储空间是临时的，所以如果关机或者容器运行出现问题，里面的数据将会丢失。这也引出了一个问题，要选择一个完整的镜像，这样就不用每次部署后都要重新配置

不过，也可以使用其他方法来解决这个问题。例如，可以保存运行中的镜像，这样可以保存镜像中的文件等，下次启动新的实例时就可以使用该镜像。

另外温馨提醒，官方虽然免费试用三个月，但是有计算时长限制，总共是5000CU_H。例如，我们选择A10型号，每小时花费6.99CU_H大约可以玩29.8天。但是请注意，不用的话最好关机(一定要记得在关机前保存数据/镜像)，细水长流才是白嫖的要义。这篇水文可以说是全网最全的了，希望能帮到你.

聚焦真正有价值的事，不要耗散了自己的激情和好奇心

禁止转载 原创
无界AI，创作无限，以致涌现! 要是只是对ai绘画尝尝鲜,可以在这里试试

白嫖交互式建模

阿里云免费试用 - 阿里云 (aliyun.com) 选择交互式建模，阿里云注册和认证什么的自己搞定
跟着阿里云文档快速启动Stable Diffusion WebUI (aliyun.com) 看一遍，了解下大概使用流程，注意创建资源时选择可以抵扣的配置
要是只是简单玩玩，那就用阿里云的镜像，按文档来，后面的内容不看也罢
要是想玩的更自由些，那后面的内容才能帮到你

镜像选择

选择一个好用的镜像特别重要，可以说是最重要的事了，不要用官方的镜像，他们的不给保存，于是去hub.docker.com上找了些stable-diffusion-webui的镜像，可以说前几个给出的都不好用，测试下来，这些镜像为了减小体积都裁剪了重要的linux命令，对于使用交互式建模(DSW)可玩性不高，出了问题很不好定位，有几个镜像还默认使用的非root账号启动的就更难用了

# 这些镜像都没有定位工具，基础命令缺失，很难使用

registry.docker.com/universonic/stable-diffusion-webui:latest

registry.docker.com/siutin/stable-diffusion-webui-docker:latest

# 阿里云上的镜像，但无法保存，很不好用

eas-registry-vpc.cn-hangzhou.cr.aliyuncs.com/pai-eas/stable-diffusion-webui:1.1

# 这个镜像看着还行，命令不算完整，但够用

registry.docker.com/kestr3l/stable-diffusion-webui:1.2.2

由于镜像的选择太重要了，想着打一个好用又完整的镜像，于是把上面的镜像都尝试了，期间踩了很多坑，贸然更新里面的cuda或者nvida驱动都会导致镜像无法使用，最后使用了kestr3l的这个镜像作为基础，打包了自己觉得重要的东西整合了一个新的镜像，看了下镜像仓库里大概17G大小，放了两个常用大模型和关键的插件，也把训练包打了进去.算是一个all in one

操作过程记录

找到下面这段代码，给每个github地址前边都加上ghproxy.com，最好是设置下环境变量吧，参考下面的. 其实体验下来，容器中下载github数据挺快的，不配置也没关系，下载不动就多尝试几次.

# 原本的下载源，可以把秋叶大佬整合包里的下载源复用到这里，自己找风险很大

export GFPGAN_PACKAGE=git+https://github.com/TencentARC/GFPGAN.git@8d2447a2d918f8eba5a4a01463fd48e45126a379

export CLIP_PACKAGE=git+https://github.com/openai/CLIP.git@d50d76daa670286dd6cacf3bcd80b5e4823fc8e1

export OPENCLIP_PACKAGE=git+https://github.com/mlfoundations/open_clip.git@bb6e834e9c70d9c27d0dc3ecedeebeaeb1ffad6b

export STABLE_DIFFUSION_REPO=https://github.com/Stability-AI/stablediffusion.git

export TAMING_TRANSFORMERS_REPO=https://github.com/CompVis/taming-transformers.git

export K_DIFFUSION_REPO=https://github.com/crowsonkb/k-diffusion.git

export CODEFORMER_REPO=https://github.com/sczhou/CodeFormer.git

export BLIP_REPO=https://github.com/salesforce/BLIP.git

补充的一些自己的操作

# source venv/bin/activate

python -m venv --system-site-packages --symlinks venv

sed -i 's/can_run_as_root=0/can_run_as_root=1/g' webui.sh

wget -c https://huggingface.co/naonovn/chilloutmix_NiPrunedFp32Fix/resolve/main/chilloutmix_NiPrunedFp32Fix.safetensors -O chilloutmix_NiPrunedFp32Fix.safetensors

cd stable-diffusion-webui/repositories/CodeFormer/weights/facelib/

wget -c http://pai-vision-data-hz.oss-cn-zhangjiakou.aliyuncs.com/EasyCV/datasets/try_on/detection_Resnet50_Final.pth && wget -c http://pai-vision-data-hz.oss-cn-zhangjiakou.aliyuncs.com/EasyCV/datasets/try_on/parsing_parsenet.pth

cd stable-diffusion-webui/embeddings && wget -c http://pai-vision-data-hz.oss-cn-zhangjiakou.aliyuncs.com/EasyCV/datasets/try_on/ng_deepnegative_v1_75t.pt

cd stable-diffusion-webui/models/Lora && wget -c https://huggingface.co/Kanbara/doll-likeness-series/resolve/main/koreanDollLikeness_v10.safetensors

处理报错

# 报错

Could not load library libcudnn_cnn_infer.so.8. Error: libnvrtc.so: cannot open shared object file: No such file or directory

Aborted

# 解决

export LD_LIBRARY_PATH=/usr/local/lib/python3.10/dist-packages/nvidia/cudnn/lib/

# 保存镜像报错

failed to push image registry-vpc.cn-hangzhou.aliyuncs.com/aleimu123/stablediffusion-webui:v1， please try again later， failed to commit image， error: different regsitry for base images and commit image

dsw-registry-vpc.cn-hangzhou.cr.aliyuncs.com/cloud-dsw/eas-service:aigc-torch113-cu117-ubuntu22.04-v0.2.1_accelerated

# 经过工单询问得知，阿里云官方提供的镜像(_accelerated)都不支持保存

不要使用阿里云的pip镜像源，安装GFPGAN有问题，换成清华源即可.

vim ~/.pip/pip.conf

[global]

index-url = https://pypi.tuna.tsinghua.edu.cn/simple

[install]

trusted-host = pypi.tuna.tsinghua.edu.cn

常用命令和操作

# 非root镜像，用root启动

docker run -ti --entrypoint /bin/bash -u root 41c15e30f4ff

# 补全常用命令行

vim /etc/apt/sources.list

apt-get install pciutils

apt-get install cron

apt-get install iputils-ping

apt-get install net-tools

apt install vim

apt-get install systemctl

# 启动相关

cd stable-diffusion-webui && python -m venv --system-site-packages --symlinks venv

cd stable-diffusion-webui && sed -i 's/can_run_as_root=0/can_run_as_root=1/g' webui.sh

./webui.sh 

# 安装下ossutil的命令行，方便上传东西到oss里

apt-get install p7zip-full

curl https://gosspublic.alicdn.com/ossutil/install.sh | sudo bash

ossutil config

# 记得最后清理下缓存，避免保存的镜像过大

apt-get clean

cd ~/.cache/pip && rm -rf *

必装插件

git clone https://github.com/DominikDoom/a1111-sd-webui-tagcomplete.git

git clone https://github.com/pkuliyi2015/multidiffusion-upscaler-for-automatic1111.git

git clone https://github.com/fkunn1326/openpose-editor.git

git clone https://github.com/adieyal/sd-dynamic-prompts.git

git clone https://github.com/vladmandic/sd-extension-system-info.git

git clone https://github.com/Mikubill/sd-webui-controlnet.git

git clone https://github.com/continue-revolution/sd-webui-segment-anything.git

git clone https://github.com/hako-mikan/sd-webui-supermerger.git

git clone https://github.com/VinsonLaro/stable-diffusion-webui-chinese

git clone https://github.com/AlUlkesh/stable-diffusion-webui-images-browser.git

git clone https://github.com/sdbds/stable-diffusion-webui-wildcards.git

安装训练脚本

按照https://github.com/Akegarasu/lora-scripts 的文档安装就好，没啥好说的.

最后

一切都装好了，运行也没问题，点一下保存镜像不用时停止实例，虽然是白嫖来的但也省着点花，减少碳排放人人有责

常用连接

Stable Diffusion (aliyun.com) 远程映射出来的页面，可以公网访问，每次都不一样
pai_nzkj0ys7no4hl24d6x-PAI工作空间 (aliyun.com)
stablediffusion - DSW (aliyun.com) 后台控制
阿里云用户中心 (aliyun.com) 账单，可以查询配额用了多少，防止白嫖失败
PAI-DSW计费说明 (aliyun.com) 既然是白嫖那就关心计费啊
容器镜像服务 (aliyun.com) 建了一个镜像仓库，用于保存安装后的镜像
AIGC Stable Diffusion文生图Lora模型微调实现虚拟上装 (aliyun.com) 参考意义不大，只能引导dsw的使用，具体安装sd看下面的
DSW Gallery (aliyun.com) 安装sd的手册，这个可以有，但是说的官方镜像找不到
Could not load library libcudnn_cnn_infer.so.8 - PyTorch Forums 安装sd过程遇到的错误
阿里云 PAI 免费试用搭建 stable-diffusion-WebUI - 知乎 (zhihu.com) 可以参考学习pai的使用
禁止转载 原创
无界AI，创作无限，以致涌现! 要是只是对ai绘画尝尝鲜,可以在这里试试