导读

在当今的人工智能时代，大型AI模型已成为获得人工智能应用程序的关键。但是，这些巨大的模型需要庞大的计算资源和存储空间，因此搭建这些模型并对它们进行交互需要强大的计算能力，这通常需要使用云计算服务。从云产品性能上来看，GPU云主机是最适合的工具之一，对于业务方或者个人开发者来讲，使用GPU云主机搭建AI大语言模型有以下优势：

•高性能计算：GPU云主机提供了高性能GPU处理器，加速模型的训练和推理；

•高性价比：灵活资源管理、可扩展性、弹性伸缩等云计算优势，根据业务或个人训练的需要，快速调整计算资源，满足模型的训练和部署需求；

•开放性：云计算的开放性让用户更容易进行资源的共享和协作，为AI模型的研究和应用提供了更广泛的合作机会；

•丰富的API和SDK：云计算厂商提供了丰富的API和SDK，使得用户能够轻松地接入云平台的各种服务和功能，进行定制化开发和集成。

在本文中，我们将以chatglm-6b为例详细介绍GPU云主机搭建AI大语言模型的过程，并使用Flask构建前端界面与该模型进行对话。

整个流程也比较简单：配置GPU云主机 → 搭建Jupyterlab开发环境 → 安装ChatGLM → 用Flask输出模型API

一、Start：配置GPU云主机

GPU 云主机（GPU Cloud Virtual Machine ）是提供 GPU 算力的弹性计算服务，具有超强的并行计算能力，在深度学习、科学计算、图形图像处理、视频编解码等场景被广泛使用。GPU驱动，提供大量的GPU内存和强悍的计算性能，非常适合运行深度学习应用程序。

相对于实体卡，一张售价一般都是几万左右，而GPU云主机费用门槛很低，按时计费，一小时才十几元，可以根据自己的需求调配。

•本次选取的是P40卡： https://www.jdcloud.com/cn/calculator/calHost

•系统环境：Ubuntu 20.04 64位

二、搭建Jupyterlab开发环境

下载Anaconda包需要在终端里执行以下命令：

mkdir anaconda # 创建文件夹

cd anaconda # 进入文件夹

wget https://repo.anaconda.com/archive/Anaconda3-2023.03-Linux-x86_64.sh # 下载安装包

bash Anaconda3-2023.03-Linux-x86_64.sh # 安装

也可以用清华源，速度更快：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2023.03-Linux-x86_64.sh

接下来进行环境变量设置

cd /root/anaconda3/bin

vim ~/.bashrc

在.bashrc下添加以下内容：#Anaconda

export PATH="/root/anaconda3/bin:$PATH"

然后退出编辑

source ~/.bashrc

conda create -n jabari python=3.8  安装python3.8版本

# 创建环境

jupyter lab --generate-config

# 生成配置文件

Writing default config to: /root/.jupyter/jupyter_lab_config.py

[root@lavm-ba6po1r9fh bin]# vim /root/.jupyter/jupyter_lab_config.py

# 编辑配置文件

c.ServerApp.ip = '*' # 设置访问的IP地址

c.ServerApp.open_browser = False  

# 不自动打开浏览器

c.ServerApp.port = 6888   #（自己可以自己设置端口，这里设置了6888）

# ServerApp的端口号

c.MappingKernelManager.root_dir = '/root/jupyter_run' 

# 设置Jupyter Notebook的根文件夹

c.ServerApp.allow_remote_access = True 

# 允许远程访问

c.ServerApp.password = '' 

# 不设置登录密码

c.ServerApp.allow_origin='*' 

# 允许任何来源的请求

c.ServerApp.password_required = False 

# 不需要密码

c.ServerApp.token = ''

# 不设置验证token

jupyter lab --allow-root # 启动JupyterLab

之后，在本地浏览器输入"服务器ip:端口号"访问即可：

也可以安装汉化软件：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jupyterlab-language-pack-zh-CN

三、重点来了：开始安装ChatGLM语言模型

https://huggingface.co/THUDM/chatglm-6b

ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。ChatGLM-6B 使用了和 ChatGLM 相同的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

先安装语言依赖

pip install protobuf==3.20.0 transformers==4.27.1 icetk cpm_kernels

然后在jupyter运行代码

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True)

model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().cuda()

response, history = model.chat(tokenizer, "你好", history=[])

print(response)

response, history = model.chat(tokenizer, "晚上睡不着应该怎么办", history=history)

print(response)

这里会直接从huggingface.co下载

最终下载完后，再次运行，提示

这里需要安装显卡驱动同时还要安装nvidia-cuda-toolkit

NVIDIA CUDA Toolkit 提供了一个开发环境，用于创建高性能 GPU 加速应用程序。

apt install nvidia-cuda-toolkit

再次运行，已经ok了，出现模型回复内容

这里在命令行输入nvidia-smi 也看下显卡类型：

四、用Flask输出模型API

app.py的代码如下：

from gevent import pywsgi

from flask import Flask

from flask_restful import Resource, Api, reqparse

from transformers import AutoTokenizer, AutoModel

from flask_cors import CORS

app = Flask(__name__)

CORS(app, resources={r"/api/*": {"origins": "*"}})

api = Api(app)

tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True)

model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().cuda()

parser = reqparse.RequestParser()

parser.add_argument('inputs', type=str, help='Inputs for chat')

parser.add_argument('history', type=str, action='append', help='Chat history')

class Chat(Resource):

    def post(self):

        args = parser.parse_args()

        inputs = args['inputs']

        history = args['history'] or []

        response, new_history = model.chat(tokenizer, inputs, history)

        return {'response': response, 'new_history': new_history}

api.add_resource(Chat, '/api/chat')

if __name__ == '__main__':

    server = pywsgi.WSGIServer(('0.0.0.0', 80), app)

    server.serve_forever()

最后在Terminal 里执行python 目录地址/app.py

客户端，开发者可以通过API来获取数据：

五、前端效果：问问五一去哪玩！

你可以自定义UI效果，比如胡老师用5分钟搞定的Demo——

保姆级教程：用GPU云主机搭建AI大语言模型并用Flask封装成API，实现用户与模型对话的更多相关文章

保姆级教程——Ubuntu16.04 Server下深度学习环境搭建：安装CUDA8.0，cuDNN6.0，Bazel0.5.4，源码编译安装TensorFlow1.4.0(GPU版)
写在前面本文叙述了在Ubuntu16.04 Server下安装CUDA8.0,cuDNN6.0以及源码编译安装TensorFlow1.4.0(GPU版)的亲身经历,包括遇到的问题及解决办法,也有一些 ...
强大博客搭建全过程（1）-hexo博客搭建保姆级教程
1. 前言本人本来使用国内的开源项目solo搭建了博客,但感觉1核CPU2G内存的服务器,还是稍微有点重,包括服务器内还搭建了数据库.如果自己开发然后搭建,耗费时间又比较多,于是乎开始寻找轻量型的博 ...
自建本地服务器，自建Web服务器——保姆级教程！
搭建本地服务器,Web服务器--保姆级教程! 本文首发于https://blog.chens.life/How-to-build-your-own-server.html. 先上图!大致思路就是如此. ...
RocketMQ保姆级教程
大家好,我是三友~~ 上周花了一点时间从头到尾.从无到有地搭建了一套RocketMQ的环境,觉得还挺easy的,所以就写篇文章分享给大家. 整篇文章可以大致分为三个部分,第一部分属于一些核心概念和工作 ...
Eclipse for C/C++ 开发环境部署保姆级教程
Eclipse for C/C++ 开发环境部署保姆级教程工欲善其事,必先利其器. 对开发人员来说,顺手的开发工具必定事半功倍.自学编程的小白不知道该选择那个开发工具,Eclipse作为一个功能强大 ...
云主机搭建Kubernetes 1.10集群
一.基础环境云主机下载软件包将所有软件下载至/data目录 # 链接:https://pan.baidu.com/s/13DlR1akNBCjib5VFaIjGTQ 密码:1l69 # 链接:h ...
在云主机上基于nginx部署基于Flask的网站服务器（自己部署）
1.申请云主机 a.阿里云 (注意:阿里云的服务器需要手动添加安全规则使能80端口) b.腾讯云 2.把网站服务器程序拷贝到云主机 3.远程登录云主机 4.解压网站服务器程序 yum install ...
保姆级教程！手把手教你使用Longhorn管理云原生分布式SQL数据库！
作者简介 Jimmy Guerrero,在开发者关系团队和开源社区拥有20多年的经验.他目前领导YugabyteDB的社区和市场团队. 本文来自Rancher Labs Longhorn是Kubern ...
保姆级教程，带你认识大数据，从0到1搭建 Hadoop 集群
大数据简介,概念部分概念部分,建议之前没有任何大数据相关知识的朋友阅读大数据概论什么是大数据大数据(Big Data)是指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需 ...
利用云主机搭建MySQL服务器
前言:有了一台云服务器之后,就想着如何物尽其用.利用其不关机(意外除外)的特性,我们可以在服务器上安装数据库服务,实现云数据库服务器,这样就可以随时随地的访问数据库了,不再受各种限制. 这里以MySQ ...

随机推荐

LNK2001 无法解析的外部符号 "int const ROUND"
今天在写代码时出现了这个错误,网上的解决方法都不合适我的代码是这样,在一个cpp里申明了一个常量 //data.cpp const int ROUND = 3; 然后在一个头文件里申明为全局变量 / ...
Centos7.6操作系统安装
新建虚拟机默认下一步稍后安装操作系统选择对应的操作系统和版本指定虚拟机名称和存储位置处理器配置内存配置:图形化界面至少2G,字符界面至少1G. 网络类型默认为NAT I/O控制器类型默认L ...
Java笔记第七弹
案例:复制Java文件(打印流改进版) import java.io.*; public class Main{ public static void main(String[] args) thro ...
URule规则引擎
没有规则,不成方圆: 一.背景前段时间,在做项目重构的时候,遇到很多地方需要做很多的条件判断.当然可以用很多的if-else判断去解决,但是当时也不清楚怎么回事,就想玩点别的.于是乎,就去调研了规则 ...
同步协程的必备工具: WaitGroup
1. 简介本文将介绍 Go 语言中的 WaitGroup 并发原语,包括 WaitGroup 的基本使用方法.实现原理.使用注意事项以及常见的使用方式.能够更好地理解和应用 WaitGroup 来协 ...
MATLAB信号处理常用函数（转载）
https://shimo.im/docs/YyRXY8cQdqY8RJvc/ <MATLAB信号处理工具箱>,可复制链接后用石墨文档 App 或小程序打开嗯这个肯定是随便看看,有个印象 ...
Netty 线程模型（Reactor 线程模型）
更多内容,前往个人博客当说到 Netty 线程模型的时候,一般首先会想到经典的 Reactor 线程模型,尽管不同的 NIO 框架对于 Reactor 模式的实现存在差异,但本质上还是遵循了 Rea ...
使用 Netty 实现简单的 RPC 框架
Dubbo 底层使用 Netty 作为网络通信框架.[网络传输问题]:相对于传统的 RPC 或者 RMI 等方式的远程服务过程调用采用了同步阻塞IO,当客户端的并发压力或者网络时延增长之后,同步阻塞 ...
MySQL 开发规范【X千万/表级别】
一.MySQL 开发规范概述原则:SQL开发规范制定是基于良好的编码习惯和可读性:目的:消除冗余,数据简约,提高效率,提高安全:范围:<SQL开发规范手册> 二.MySQL 开发规范手册 ...
阿里巴巴为什么建议使用BigDecimal进行浮点数运算
本文先引入一个例子,星期天你和女朋友去逛街,看到一家奶茶店.女朋友想喝奶茶了,你就去买了杯奶茶,然后你问了一下价格.店员说奶茶0.9元一杯.然后你给了1元钱.这个时候你忽然问了一下女友.服务员该找我们 ...

保姆级教程：用GPU云主机搭建AI大语言模型并用Flask封装成API，实现用户与模型对话

导读