本文首发于公众号：Hunter后端

原文链接：在 Windows 上利用Qwen大模型搭建一个 ChatGPT 式的问答小助手

最近 ChatGPT 式的聊天机器人比较火，可以提供各种问答功能，阿里最近推出了 Qwen1.5 系列的大模型，提供了各个参数版本的大模型，其中有一些参数量较小的模型，比较适合我们这种穷* 用于尝试一下手动运行大模型。

今天我们就使用 Qwen1.5 大模型来尝试一下，自己搭建一个问答小助手。

1、配置

首先介绍一下搭建的环境，8g 内存，4g GPU 显存，win10系统，所以如果配置等于或高于我这个环境的也可以轻松实现这一次的搭建过程。

下面是搭建成功后一些问答的效果展示：

其中，因为显存限制，我这边分别使用 Qwem1.5-0.5B-Chat 和 Qwem1.5-1.8B-Chat 进行测试，0.5B 版本占用显存不到 2g，1.8B 版本显存占用不到 4g，这个 B 表示的是模型使用的参数量，在我电脑上 0.5B 的版本推理速度要比 1.8B 的速度要快很多，但是某些问题的准确性没有 1.8B 高。

接下来正式介绍搭建过程。

2、环境安装

使用 Qwen 这个大模型需要用到 CUDA 相关驱动以及几个 Python 库，torch，transformers，accelerate 等。

1. CUDA

首先，确认 Windows 机器上是否有相关驱动，这里我们可以在 cmd 里输入 nvidia-smi 查看相应输出，比如我的输入如下：

然后上张图里截出来的 CUDA Version 去下面这个地址下载 CUDA Toolkit：https://developer.nvidia.com/cuda-toolkit-archive

到这一步完成，相应的 CUDA 准备工作就 OK 了。

建议可以先看下下面这个链接，里面有完整的安装示意流程：Windows下CUDA安装

2. conda 环境准备

这里为了方便，我新建了一个 conda 环境，使用的 Python 3.10 版本

conda create -n qwen python=3.10

3. torch 库

为了使用 GPU，torch 库的版本需要是 cuda 版本的，在 Windows 版本下我直接安装其 whl 包，可以在下面的地址找到对应的版本：https://download.pytorch.org/whl/torch_stable.html。

这里我下载的是文件名是 torch-2.2.1+cu121-cp310-cp310-win_amd64.whl。

torch-2.2.1 表示的是 torch 的版本

cu121 表示的是 cuda 版本是 12.1，我们实际的 CUDA Version 是 12.4，没有最新的但是也能兼容

cp310 是 Python 的版本 3.10

win_amd64 则是 Windows 版本。

whl 包比较大，有 2 个多 g，下载后直接到对应的目录下执行下面的操作即可：

pip3 install torch-2.2.1+cu121-cp310-cp310-win_amd64.whl

4. transformers 库

transformers 库是使用大模型的基础库，这里注意下，Qwen1.5 版本的大模型是最近才出来的，所以 transformers 库需要比较新的才能支持，需要 >= 4.37.0

这里我们直接 pip3 install transformers 就会自动为我们安装最新的库，也可以直接指定这个版本。

5. accelerate 库

我在操作的过程中，还需要用到 accelerate 这个库，所以额外安装下：

pip3 install accelerate -i https://mirrors.aliyun.com/pypi/simple/

到这一步，我们的环境就安装好了，我们可以尝试一下是否可以正常使用 CUDA：

import torch

print(torch.cuda.is_available())

# True

输出为 True 则表示可以正常使用 CUDA。

3、下载模型

所有大模型的下载官方都会发布在 huggingface 网站上：https://huggingface.co/。

我们可以在上面搜索到目前所有发布的大模型，包括 Qwen 系列，百川系列，ChatGLM 系列，Llama 系列等。

我们可以下载下一步执行代码的时候直接指定模型名称，会自动为我们下载，但是我习惯于先将其下载下来，然后在本地指定路径进行调用。

这里我们可以去这两个地址下载对应的文件：

https://huggingface.co/Qwen/Qwen1.5-0.5B-Chat/tree/main

https://huggingface.co/Qwen/Qwen1.5-1.8B-Chat/tree/main

分别是 Qwen1.5 的 0.5B Chat 版本和 1.8B Chat 版本。

其中，最主要的文件是 model.safetensors，这个就是大模型本身，也就是我们运行的时候需要加载的文件，可以看到这两个地址的这个文件分别是 1g 多和 3g 多。

除此之外，还有一些必要的配置文件比如 config.json，一些词表的文件用于加载的时候做映射操作。

注意：上面的网址可能需要一些魔法操作，如果你没有魔法的途径，可以去魔搭社区找对应的版本，https://www.modelscope.cn/search?search=Qwen1.5

这里，下载的大模型文件列表如下图所示：

至此，我们所有的准备工作就完成了，接下来我们可以开始写代码进行问答操作了。

4、对话代码

我们需要先加载大模型：

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # the device to load the model onto

path = r"F:\\models\\Qwen1.5-0.5B-Chat"

model = AutoModelForCausalLM.from_pretrained(

    path,

    torch_dtype="auto",

    device_map="auto"

)

tokenizer = AutoTokenizer.from_pretrained(path)

这里的 path 就是我们下载的大模型的本地文件路径。

接下来下面的代码就是进行对话的操作了：

prompt = "你是谁"

messages = [

    {"role": "system", "content": "You are a helpful assistant."},

    {"role": "user", "content": prompt}

]

text = tokenizer.apply_chat_template(

    messages,

    tokenize=False,

    add_generation_prompt=True

)

model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(

    model_inputs.input_ids,

    max_new_tokens=512

)

generated_ids = [

    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)

]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(response)

# 我是来自阿里云的超大规模语言模型，我叫通义千问。我是一个能够回答问题、创作文字，还能表达观点、撰写代码的 人工智能模型。如果您有任何问题或需要帮助，请随时告诉我，我会尽力提供支持和解答。

1. 封装成函数

我们可以将上面下部分代码封装成函数，这样就可以每次直接调用函数来进行问答操作了：

def get_response(prompt):

    messages = [

        {"role": "system", "content": "You are a helpful assistant."},

        {"role": "user", "content": prompt}

    ]

    text = tokenizer.apply_chat_template(

        messages,

        tokenize=False,

        add_generation_prompt=True

    )

    model_inputs = tokenizer([text], return_tensors="pt").to(device)

    generated_ids = model.generate(

        model_inputs.input_ids,

        max_new_tokens=512,

        pad_token_id=tokenizer.eos_token_id

    )

    generated_ids = [

        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)

    ]

    response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

    print(response)

然后可以直接调用函数进行问答：

get_response("如何学习Python？")

2. 保存历史进行多轮对话

接下来我们可以保存对话历史来进行多轮对话，以下是代码：



def run_qwen_with_history():

    messages = [

        {"role": "system", "content": "You are a helpful assistant."},

        # {"role": "user", "content": prompt}

    ]

    while True:

        new_question = input("请输入你的问题：")

        if new_question == "clear":

            messages = [messages[0]]

            continue

        messages.append({"role": "user", "content": new_question})

        text = tokenizer.apply_chat_template(

            messages,

            tokenize=False,

            add_generation_prompt=True

        )

        model_inputs = tokenizer([text], return_tensors="pt").to(device)

        generated_ids = model.generate(

            model_inputs.input_ids,

            max_new_tokens=512,

            pad_token_id=tokenizer.eos_token_id

        )

        generated_ids = [

            output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)

        ]

        response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

        print(response)

        messages.append({"role": "system", "content": response})

在这里执行这个函数之后，会在命令行里输出 请输入你的问题：，然后我们可以输入我们的问题，之后可以连续多轮输出，后台会记住我们之前的对话，从而实现多轮对话的功能。

5、总结

经过分别使用 0.5B 版本和 1.8B 的版本，在我电脑的配置里，0.5B 版本的输出会快一些，但是在某些问题回答的质量上不如 1.8B。

而 1.8B 版本答案质量相对较高，但是速度在 4g 显存的情况下，则非常慢。

以上就是本次使用 Qwen1.5 在 Windows 上搭建问答小助手的全过程，之后还可以将大模型提供接口操作，将其应用到 web 页面上，从而实现一个真正的 ChatGPT 式问答助手。

对于以上这些操作是直接使用的大模型，而真正要将其应用于生产，还需要对大模型进行微调，训练等一系列操作，使其更适用于实际场景，这些以后有机会再学习介绍吧。

如果想获取更多后端相关文章，可扫码关注阅读：

在 Windows 上利用Qwen大模型搭建一个 ChatGPT 式的问答小助手的更多相关文章

【数据库开发】在Windows上利用C++开发MySQL的初步
[数据库开发]在Windows上利用C++开发MySQL的初步标签(空格分隔): [编程开发] Windows上在上面配置环境的基础上开展一个小demo链接数据库,没想到中间也出现了这么多的问题,简 ...
利用git+hugo+markdown 搭建一个静态网站
利用git+hugo+markdown 搭建一个静态网站一直想要有一个自己的文档管理系统: 可以很方便书写,而且相应的文档很容易被分享很方便的存储.管理.历史记录比较方面的浏览和查询第一点用M ...
利用Wamp在本地搭建一个wordpress站点
原文链接:利用Wamp在本地搭建一个wordpress站点有时候我们会想搭建一个自己的站点,可是由于只是想自己访问,就不是很想为这个站点在买一个服务器和域名,那我们可能首先就想到把自己电脑当做服务器 ...
利用vue-cli配合vue-router搭建一个完整的spa流程
好文章备忘录: 转自:https://segmentfault.com/a/1190000009160934?_ea=1849098 demo源码:https://github.com/1590123 ...
技术人如何利用 github+Jekyll ，搭建一个独立免费的技术博客
上次有人留言说,技术博客是程序员的标配,但据我所知绝大部分技术同学到现在仍然没有自己的技术博客.原因有很多,有的是懒的写,有的是怕写不好,还有的是一直想憋个大招,幻想做到完美再发出来,结果一直胎死腹中 ...
利用@keyframe及animation做一个页面Loading时的小动画
前言利用@keyframe规则和animation常用属性做一个页面Loading时的小动画. 1 @keyframe规则简介 @keyframes定义关键帧,即动画每一帧执行什么. 要使用关键帧 ...
windows上利用dhcpsrv搭建DHCP服务器
起因是一个很奇葩的需求:乙方要远程升级仪器,用TeamViewer远程控制并ssh到仪器,但仪器内部IP地址没有写死,靠DHCP服务器获取.那么就要在PC建立DHCP服务器,用网线连接仪器,然后才能看 ...
windows上JSP开发环境全搭建
JSP开发环境全搭建最近需要用到JSP做项目,所以要配置JSP的开发环境,总结一下配置步骤以备以后再配置需要. 配置JAVA开发环境,配置JDK 下载JDK,在这里下载开发所需的JDK,可以根据自己 ...
Windows上IOCP Socket事件模型管理
1.IOCP 2.使用IOCP 1)创建完成端口CreateIoCompletionPort: 2)向完成端口添加管理句柄与管理用户数据: 3)异步发送一个管理的事件请求: 4)开启工作线程来处理I ...
NLP实践！文本语法纠错模型实战，搭建你的贴身语法修改小助手 ⛵
作者:韩信子@ShowMeAI 深度学习实战系列:https://www.showmeai.tech/tutorials/42 自然语言处理实战系列:https://www.showmeai.tech ...

随机推荐

[数据库] 数据库中的DDL、DML、DQL、DCL
SQL 程序语言有四种类型,对数据库的基本操作都属于这四种类,也就是标题上显示的 DDL.DML.DQL.DCL. 1. DDL DDL(Data Definition Language 数据定义语言 ...
BasicSample项目说明
整个示例项目,两个Fragment,ProductListFragment和ProductFragment,一个MainActivity.在MainActivity里面展示的是ProductListF ...
Jenkins安装和Host key verification failed问题的处理
在Centos7上安装的Jenkins 2.303.1 命令行安装为服务因为新版本的Jenkins的war是用java -jar启动, 并且无法后台运行, 所以要么通过screen创建一个sessi ...
Uniapp+Nodejs实现外卖App项目1-项目介绍
项目介绍本项目采用uniapp和nodejs(数据接口).mongodb等技术实现了一个类似美团外卖的简易APP.项目主要目的是为了快速上手,如何快速使用uniapp开发一个app项目,同时掌握一些 ...
oracle FGAC（细粒度访问控制）介绍
在ORACLE中,RLS有时也叫做虚拟私有数据库(VPD)或者细粒度访问控制(FGAC). RLS由8i引进,利用这一特性我们可以对表定义安全策略(并且指明对表的操作类型),实现对用户可以看到或者修改 ...
Spring Boot图书管理系统项目实战-4.基础信息管理
导航: pre: 3.用户登录 next:5.读者管理只挑重点的讲,具体的请看项目源码. 1.项目源码需要源码的朋友,请捐赠任意金额后留下邮箱发送:) 2.页面设计出版社管理.语种管理.书架管 ...
Java网络编程之使用URL类
Lesson: Working with URLs 使用URLs 整理自Oracle官方文档. URL is the acronym for Uniform Resource Locator. URL ...
Vue3学习（十八） - TreeSelect 树选择
写在前面本以为可以在家学习一天,结果家里来了客人拜年,就没学习上,有点小遗憾吧. 昨天完成从分类管理的前后端代码复制出文档管理的前后端代码,遗留问题是只能选择一级父分类.值得说的是,昨晚的遗留的问题 ...
【译】代码更快、更好，借助 GitHub Copilot 的新功能：斜杠命令和上下文变量
你是否曾经希望有一个人工智能助手可以帮助你更快更好地编写代码?那就是 Visual Studio Copilot Chat 为您提供的:一个人工智能驱动的结对程序员,可以回答您的问题,建议代码片段,解 ...
第134篇:解决浏览器的CORS跨域问题(CORS policy: Cross origin requests are only supported for protocol schemes: http, data, isolated-app, chrome-extension, chrome-untrusted, https, edge.)
好家伙, 我继续尝试着将我的飞机大战使用ES6模块化分离开来,出了点问题 1.出现问题: edge,chrome等一系列浏览器,会为了安全,禁止你跨域访问目录如下: 主程序 index.htm ...

在 Windows 上利用Qwen大模型搭建一个 ChatGPT 式的问答小助手