前段时间百度创始人李彦宏信誓旦旦地说开源大模型会越来越落后,闭源模型会持续领先。随后小扎同学就给了他当头一棒,向他展示了什么叫做顶级开源大模型。

美国当地时间4月18日,Meta 在官网上发布了两款开源大模型,参数分别达到 80 亿 (8B) 和 700 亿 (70B),是目前同体量下性能最好的开源模型,而且直接逼近了一线顶级商业模型 GPT-4 和 Claude3。

与此同时,还有一个 400B 的超大杯模型还在路上,估计很快就会放出来,到时候就真的碾压了,某些声称闭源遥遥领先的哥们就等着哭吧

虽然才过去短短几日,Huggingface 上已经涌现了非常多的 Llama3 中文微调版,令人眼花缭乱:

想不想自己也部署一个 Llama3 中文版?

对于没有 GPU 的同学,我们可以使用微调的量化模型来使用 CPU 运行。不同的量化方法会带来不同的性能损失:

  1. 8bit 量化没有性能损失。
  2. AWQ 4bit 量化对 8B 模型来说有 2%性能损失,对 70B 模型只有 0.05%性能损失。
  3. 参数越大的模型,低 bit 量化损失越低。AWQ 3bit 70B 也只有 2.7%性能损失,完全可接受。

综合来说,如果追求无任何性能损失,8B 模型用 8bit 量化,70B 模型用 4bit 量化

如果能接受 2-3%损失,8B 模型用 4bit 量化,70B 模型用 3bit 量化。

目前效果最好的中文微调版是 HuggingFace 社区的 zhouzr/Llama3-8B-Chinese-Chat-GGUF 模型,该模型采用 firefly-train-1.1M、moss-003-sft-data、school_math_0.25M、弱智吧(没错,就是那个弱智吧~)数据集,使模型能够使用中文回答用户的提问。

下面我们来看看如何在三分钟内快速部署这个模型吧。

直接在浏览器中打开以下链接:

然后点击右上角的「去 Sealos 部署」。

如果您是第一次使用 Sealos,则需要注册登录 Sealos 公有云账号,登录之后会立即跳转到模板的部署页面。

跳转进来之后,点击右上角的「部署应用」开始部署,部署完成后,直接点击应用的「详情」进入该应用的详情页面。

等待实例状态变成 running 之后,Llama3 中文版模型就部署好了,默认会提供一个与 OpenAI 官方接口对齐的 API,你可以打开终端直接通过 API 来测试。我框出来的部分就是该模型 API 在 Sealos 集群的内网地址,你可以点击它直接复制。

为了更直观地使用,我们可以选择再部署一个 WebUI,Lobe Chat、ChatGPT Next Web 这些都可以使用,本文以 Lobe Chat 为例,直接在浏览器打开以下链接:

需要填写三个变量的值,如下图所示:

  • OPENAI_PROXY_URL 的值就是我们刚刚复制的内网 API 接口地址,记得要在末尾加上 /v1
  • OPENAI_MODEL_LIST 的值是 +Llama3-8B-Chinese-Chat.q4_k_m.GGUF
  • OPENAI_API_KEY 的值随便瞎写一个就行。

然后点击右上角的「部署应用」,部署完成后,直接点击应用的「详情」进入该应用的详情页面,等待实例状态变成 running 之后,点击外网地址即可打开 Lobe Chat 的可视化界面。

进来之后,先点击顶部的 gpt-3.5-turbo:

在弹出来的下拉框中点击「Llama3-8B-Chinese-Chat.q4_k_m.GGUF」,切换到该模型。

现在就可以和模型愉快地对话了,先来个弱智吧的问题尝尝咸淡:

再来试试 GPT-4 专用测试问题:

数学能力测试:

???

这个应用模板默认只给了 8核 CPU,而且都没跑满,效果肯定还是不如 GPU 的。有条件的同学可以直接用 GPU 部署 70B 的模型。

一分钟部署 Llama3 中文大模型,没别的,就是快的更多相关文章

  1. 从零开始学数据分析,什么程度可以找到工作?( 内附20G、5000分钟数据分析工具教程大合集 )

    从零开始学数据分析,什么程度可以找到工作?( 内附20G.5000分钟数据分析工具教程大合集 )   我现在在Coursera上面学data science 中的R programming,过去很少接 ...

  2. 华为高级研究员谢凌曦:下一代AI将走向何方?盘古大模型探路之旅

    摘要:为了更深入理解千亿参数的盘古大模型,华为云社区采访到了华为云EI盘古团队高级研究员谢凌曦.谢博士以非常通俗的方式为我们娓娓道来了盘古大模型研发的"前世今生",以及它背后的艰难 ...

  3. PowerDesigner 学习:十大模型及五大分类

    个人认为PowerDesigner 最大的特点和优势就是1)提供了一整套的解决方案,面向了不同的人员提供不同的模型工具,比如有针对企业架构师的模型,有针对需求分析师的模型,有针对系统分析师和软件架构师 ...

  4. PowerDesigner 15学习笔记:十大模型及五大分类

    个人认为PowerDesigner 最大的特点和优势就是1)提供了一整套的解决方案,面向了不同的人员提供不同的模型工具,比如有针对企业架构师的模型,有针对需求分析师的模型,有针对系统分析师和软件架构师 ...

  5. [转帖]五分钟彻底搞懂你一直没明白的Linux内存管理

    五分钟彻底搞懂你一直没明白的Linux内存管理 https://cloud.tencent.com/developer/article/1462476 现在的服务器大部分都是运行在Linux上面的,所 ...

  6. AI大模型学习了解

    # 百度文心 上线时间:2019年3月 官方介绍:https://wenxin.baidu.com/ 发布地点: 参考资料: 2600亿!全球最大中文单体模型鹏城-百度·文心发布 # 华为盘古 上线时 ...

  7. DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍

    DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍 1. 概述 近日来,ChatGPT及类似模型引发了人工智能(AI)领域的一场风潮. 这场风潮对数字世 ...

  8. 无插件的大模型浏览器Autodesk Viewer开发培训-武汉-2014年8月28日 9:00 – 12:00

    武汉附近的同学们有福了,这是全球第一次关于Autodesk viewer的教室培训. :) 你可能已经在各种场合听过或看过Autodesk最新推出的大模型浏览器,这是无需插件的浏览器模型,支持几十种数 ...

  9. 使用C++部署Keras或TensorFlow模型

    本文介绍如何在C++环境中部署Keras或TensorFlow模型. 一.对于Keras, 第一步,使用Keras搭建.训练.保存模型. model.save('./your_keras_model. ...

  10. 几种部署Goku API Gateway的方式,最快一分钟可使用上网关

    本文将介绍几种部署Goku API Gateway的方式,最快一分钟可使用上为网关,详情请看全文. 什么是Goku API Gateway? Goku API Gateway (中文名:悟空 API ...

随机推荐

  1. GPT-SoVITS教程,接入酒馆AI,SillyTavern-1.11.5,让AI女友声若幽兰

    本次分享一下如何将GPT-SoVITS接入SillyTavern-1.11.5项目,让让AI女友声若幽兰,首先明确一下,SillyTavern-1.11.5只是一个前端项目,它没有任何大模型文本生成能 ...

  2. APP探索之iAPP

    APP探索之iAPP 1.基本作用 iAPP是一个手机上的应用,可以用于快速设计手机应用,基本免费.使用的语言好像是自创的脚本语言.无聊时可以用iAPP做一些简单的训练,可以练习文件和数据的操作.对于 ...

  3. KingbaseES V8R6集群运维案例---数据块故障自动修复(auto_bmr)

    案例说明: 在Oracle11.2版本之后,DataGuard 若搭建实时应用日志的物理备库,那么在主库数据文件少 量坏块的情况下,可以利用ABCR技术快速修复坏块. Starting in Orac ...

  4. 网页实现串口TCP数据通讯的两种方案

    概述 串口和TCP数据通讯客户端的形式比较多,但是网页中用的比较少. 其实最大的是网页无法访问本地资源造成的,可能是出于安全方面考虑吧. 解决方案也不是没有,这里介绍几种供大家参考. ​ 方案一:专用 ...

  5. OpenHarmony Meetup 2023北京站圆满举办

      "OpenHarmony正当时"OpenHarmony Meetup 2023城市巡回活动,旨在通过meetup线下交流形式,解读OpenHarmony作为下一代智能终端操作系 ...

  6. Avalonia的自定义用户组件

    Avalonia中的自定义用户控件 Avalonia是一个跨平台的.NET UI框架,它允许开发者使用C#和XAML来构建丰富的桌面应用程序. 自定义用户控件(UserControl)是Avaloni ...

  7. C 语言中布尔值的用法和案例解析

    C语言中的布尔值 在编程中,您经常需要一种只能有两个值的数据类型,例如: 是/否 开/关 真/假 为此,C语言有一个 bool 数据类型,称为布尔值. 布尔变量 在C语言中,bool 类型不是内置数据 ...

  8. K8S 性能优化 - K8S APIServer 调优

    前言 K8S 性能优化系列文章,本文为第二篇:Kubernetes API Server 性能优化参数最佳实践. 系列文章: <K8S 性能优化 - OS sysctl 调优> 参数一览 ...

  9. HarmonyOS应用窗口管理(Stage模型)

      一.  窗口开发概述 窗口模块的定义 窗口模块用于在同一块物理屏幕上,提供多个应用界面显示.交互的机制. ● 对应用开发者而言,窗口模块提供了界面显示和交互能力. ● 对终端用户而言,窗口模块提供 ...

  10. Spring Cloud Config:外部集中化配置管理

    Spring Cloud Config:外部集中化配置管理 SpringCloud学习教程 SpringCloud Spring Cloud Config 可以为微服务架构中的应用提供集中化的外部配置 ...