突破性的多语言代码大模型基CodeShell：北京大学与四川天府银行联合打造，引领AI编程新时代

1.CodeShell简介

CodeShell是北京大学知识计算实验室联合四川天府银行AI团队研发的多语言代码大模型基座。它拥有70亿参数，经过对五千亿Tokens的训练，并具有8192的上下文窗口长度。CodeShell在权威的代码评估Benchmark（HumanEval与MBPP）上取得了同等规模最好的性能。这个项目为多语言代码处理和理解提供了有力的工具

能力点
- 强大的性能：CodelShell在HumanEval和MBPP上达到了7B代码基座大模型的最优性能
- 完整的体系：除了代码大模型，同时开源IDE（VS Code与JetBrains）插件，形成开源的全栈技术体系
- 轻量化部署：支持本地C++部署，提供轻量快速的本地化软件开发助手解决方案
- 全面的评测：提供支持完整项目上下文、覆盖代码生成、代码缺陷检测与修复、测试用例生成等常见软件开发活动的多任务评测体系（即将开源）
- 高效的训练：基于高效的数据治理体系，CodeShell在完全冷启动情况下，只训练了五千亿Token即获得了优异的性能
开源模型
- CodeShell Base：CodelShell底座模型，具有强大的代码基础能力。
- CodeShell Chat：CodelShell对话模型，在代码问答、代码补全等下游任务重性能优异。
- CodeShell Chat 4bit：CodelShell对话模型4bit量化版本，在保证模型性能的前提下内存消耗更小，速度更快。
- CodeShell CPP：CodelShell对话模型CPP版本，支持开发者在没有GPU的个人电脑中使用。注意，CPP版本同样支持量化操作，用户可以在最小内存为8G的个人电脑中运行CodeShell。

2.效果评估

我们选取了目前最流行的两个代码评测数据集（HumanEval与MBPP）对模型进行评估，与目前最先进的两个7b代码大模型CodeLllama与Starcoder相比，Codeshell 取得了最优的成绩。具体评测结果如下。

任务	CodeShell-7b	CodeLlama-7b	Starcoder-7b
humaneval	34.32	29.44	27.80
mbpp	38.65	37.60	34.16
multiple-js	33.17	31.30	27.02
multiple-java	30.43	29.24	24.30
multiple-cpp	28.21	27.33	23.04
multiple-swift	24.30	25.32	15.70
multiple-php	30.87	25.96	22.11
multiple-d	8.85	11.60	8.08
multiple-jl	22.08	25.28	22.96
multiple-lua	22.39	30.50	22.92
multiple-r	20.52	18.57	14.29
multiple-rkt	17.20	12.55	10.43
multiple-rs	24.55	25.90	22.82

3.快速开始

3.1环境依赖

- python 3.8 and above

- pytorch 2.0 and above are recommended

- transformers 4.32 and above

- CUDA 11.8 and above are recommended (this is for GPU users, flash-attention users, etc.)

CodeShell系列模型已经上传至 Hugging Face，开发者可以通过Transformers快速调用CodeShell和CodeShell-Chat。

在开始之前，请确保已经正确设置了环境，并安装了必要的代码包，以及满足上一小节的环境要求。你可以通过下列代码快速安装相关依赖。

pip install -r requirements.txt

接下来你可以通过Transformers使用CodeShell。

3.2 Code Generation

开发者可以使用CodeShell快速生成代码，加速开发效率。

import torch

from transformers import AutoModelForCausalLM, AutoTokenizer

device = 'cuda' if torch.cuda.is_available() else 'cpu'

tokenizer = AutoTokenizer.from_pretrained("WisdomShell/CodeShell-7B")

model = AutoModelForCausalLM.from_pretrained("WisdomShell/CodeShell-7B", trust_remote_code=True, torch_dtype=torch.bfloat16).to(device)

inputs = tokenizer('def merge_sort():', return_tensors='pt').to(device)

outputs = model.generate(**inputs)

print(tokenizer.decode(outputs[0]))

Fill in the Moddle

CodeShell 支持Fill-in-the-Middle模式，从而更好的支持软件开发过程。

input_text = "<fim_prefix>def print_hello_world():\n    <fim_suffix>\n    print('Hello world!')<fim_middle>"

inputs = tokenizer(input_text, return_tensors='pt').to(device)

outputs = model.generate(**inputs)

print(tokenizer.decode(outputs[0]))

代码问答

CodeShell同时开源了代码助手模型CodeShell-7B-Chat，开发者可以通过下列代码与模型进行交互。

model = AutoModelForCausalLM.from_pretrained('WisdomShell/CodeShell-7B-Chat', trust_remote_code=True, torch_dtype=torch.bfloat16).to(device)

tokenizer = AutoTokenizer.from_pretrained('WisdomShell/CodeShell-7B-Chat')

history = []

query = '你是谁?'

response = model.chat(query, history, tokenizer)

print(response)

history.append((query, response))

query = '用Python写一个HTTP server'

response = model.chat(query, history, tokenizer)

print(response)

history.append((query, response))

开发者也可以通过VS Code与JetBrains插件与CodeShell-7B-Chat交互，详情请参VSCode插件仓库与IntelliJ插件仓库。

Model Quantization

CodeShell 支持4 bit/8 bit量化，4 bit量化后，占用显存大小约6G，用户可以在显存较小的GPU上使用CodeShell。

model = AutoModelForCausalLM.from_pretrained('WisdomShell/CodeShell-7B-Chat-int4', trust_remote_code=True).to(device)

tokenizer = AutoTokenizer.from_pretrained('WisdomShell/CodeShell-7B-Chat-int4')

CodeShell in c/c++

由于大部分个人电脑没有GPU，CodeShell提供了C/C++版本的推理支持，开发者可以根据本地环境进行编译与使用，详见CodeShell C/C++本地化版。

3.3 Demo

我们提供了Web-UI、命令行、API、IDE四种形式的Demo。

3.3.1 Web UI

开发者通过下列命令启动Web服务，服务启动后，可以通过https://127.0.0.1:8000进行访问。

python demos/web_demo.py

3.3.2 CLI Demo

我们也提供了命令行交互的Demo版本，开发者可以通过下列命令运行。

python demos/cli_demo.py

3.3.3 API

CodeShell也提供了基于OpenAI API的部署方法。

python demos/openai_api.py

启动后即可通过HTTP请求与CodeShell交互。

curl http://127.0.0.1:8000/v1/chat/completions \

  -H "Content-Type: application/json" \

  -d '{

    "model": "CodeShell-7B-Chat",

    "messages": [

      {

        "role": "user",

        "content": "你好"

      }

    ]

  }'

3.3.4 IDE

CodeShell最后提供了线上IDE，开发者可以通过IDE进行代码补全、代码问答等操作。同时，IDE插件也同时发布，开发者可以自行在本地进行安装使用。插件相关问题欢迎在VSCode插件仓库与IntelliJ插件仓库中讨论。

4.模型详情

Code Shell使用GPT-2作为基础架构，采用Grouped-Query Attention、RoPE相对位置编码等技术。

4.1 Hyper-parameter

Hyper-parameter	Value
n_layer	42
n_embd	4096
n_inner	16384
n_head	32
num_query_groups	8
seq-length	8192
vocab_size	70144

4.2 数据集

CodeShell基于自己爬取的Github数据、Big Code开源的Stack和StarCoder数据集、以及少量高质量的中英文数据进行训练。在原始数据集的基础上，CodeShell采用基于Minihash对数据去重，基于KenLM以及高质量数据筛选模型对数据进行了过滤与筛选，最终得到高质量的预训练数据集。

4.3 Tokenizer

CodeShell基于Starcoder词表进行了优化，去除了使用频率较低的词语，并添加了部分中文词表，显著提升了中文的压缩率，为Chat版本的训练提供了基础。

Tokenizer	Size	Chinese	English	Code	Total
Starcoder	49152	1.22	3.47	3.30	2.66
CodeShell	70020	1.50	3.47	3.30	2.95

参考链接：

* Hugging Face模型链接：[https://huggingface.co/WisdomShell/CodeShell-7B/tree/main](https://huggingface.co/WisdomShell/CodeShell-7B/tree/main)

* [codeshell](https://github.com/WisdomShell/codeshell)

* https://se.pku.edu.cn/kcl/

更多优质内容请关注公号：汀丶人工智能；会提供一些相关的资源和优质文章，免费获取阅读。

突破性的多语言代码大模型基CodeShell：引领AI编程新时代的更多相关文章

机器学习十大算法总览（含Python3.X和R语言代码）
引言一监督学习二无监督学习三强化学习四通用机器学习算法列表线性回归Linear Regression 逻辑回归Logistic Regression 决策树Decision Tree 支持向 ...
C 语言代码风格之 Linux 内核代码风格
GitHub: https://github.com/storagezhang Emai: debugzhang@163.com 华为云社区:https://bbs.huaweicloud.com/b ...
千亿参数开源大模型 BLOOM 背后的技术
假设你现在有了数据,也搞到了预算,一切就绪,准备开始训练一个大模型,一显身手了,"一朝看尽长安花"似乎近在眼前 -- 且慢!训练可不仅仅像这两个字的发音那么简单,看看 BLOOM ...
如何提高单片机C语言代码效率
代码效率包括两个方面内容:代码的大小和代码执行速度.如果代码精简和执行速度快,我们就说这个代码效率高.一般情况下,代码精简了速度也相应提上来了.单片机的ROM和RAM的空间都很有限,当您编程时遇到单片 ...
基于R语言的ARIMA模型
A IMA模型是一种著名的时间序列预测方法,主要是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型.ARIMA模型根据原序列是否平稳以及 ...
PowerDesigner 学习：十大模型及五大分类
个人认为PowerDesigner 最大的特点和优势就是1)提供了一整套的解决方案,面向了不同的人员提供不同的模型工具,比如有针对企业架构师的模型,有针对需求分析师的模型,有针对系统分析师和软件架构师 ...
PowerDesigner 15学习笔记：十大模型及五大分类
个人认为PowerDesigner 最大的特点和优势就是1)提供了一整套的解决方案,面向了不同的人员提供不同的模型工具,比如有针对企业架构师的模型,有针对需求分析师的模型,有针对系统分析师和软件架构师 ...
Spark GraphX宝刀出鞘，图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark实战高手之路】
Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈大数据的概念与应用,正随着智能手机.平板电脑的快速流行而日渐普及,大数据中图的并行化处理一直是一个非常热门的话题.图计算正在被广泛地应用于社交 ...
浅析VS2010反汇编 VS 反汇编方法及常用汇编指令介绍 VS2015使用技巧调试-反汇编查看C语言代码对应的汇编代码
浅析VS2010反汇编 2015年07月25日 21:53:11 阅读数:4374 第一篇 1. 如何进行反汇编在调试的环境下,我们可以很方便地通过反汇编窗口查看程序生成的反汇编信息.如下图所示. ...
编程精粹--编写高质量C语言代码（4）：为子系统设防（一）
通常,子系统都要对事实上现细节进行隐藏,在进行细节隐藏的同一时候.子系统为用户提供了一些关键入口点. 程序猿通过调用这些关键的入口点来实现与子系统的通信.因此假设在程序中使用这种子系统而且在其调用点加 ...

随机推荐

Codeforces Global Round 12（个人题解）
1450A. Avoid Trygub 挺简单的题,题意是避免字符串中有子串"Trygub" 只要给字符串排序就可以了,这样一定不会出现 void solve() { string ...
第三届云原生编程挑战赛正式启动，Serverless 赛道邀你参加！
据<云原生开发现状报告>显示,全球云原生开发人员达 680 万,与 2020 年 5 月报告的云原生开发者数量 470 万相比,全球云原生开发人员数量正极速增长,越来越多开发者加入到云原生 ...
mybatis-plus数据批量插入
为了提高数据处理效率,大量数据需要插入数据时可以采用批量数据插入的策略提高数据插入的效率. 如下是实现方法 1.代码结构 2.实体类 package little.tiger.one.applicat ...
vue路由模块化
https://www.bilibili.com/video/BV1Tg411u7oy?from=search&seid=5098139115981575542&spm_id_from ...
简单的git使用命令
一.Git简介 Git(读音为/gɪt/.)是一个开源的分布式版本控制系统,可以有效.高速地处理从很小到非常大的项目版本管理.Git 是 Linus Torvalds 为了帮助管理 Lin ...
大数相加 a+b
#include<stdio.h> #include<string.h> #include<stdlib.h> #include<ctype.h> #i ...
JMeter接口性能测试使用
下载完JMeter以后,通过JMeter.bat启动JMeter,打开JMeter界面如下所示: 右击"测试计划">添加>Threads(Users)>线程组.J ...
Java之利用openCsv将csv文件导入mysql数据库
前两天干活儿的时候有个需求,前台导入csv文件,后台要做接收处理,mysql数据库中,项目用的springboot+Vue+mybatisPlus实现,下面详细记录一下实现流程. 1.Controll ...
【面试题精讲】你知道MySQL中有哪些隔离级别吗
有时博客内容会有变动,首发博客是最新的,其他博客地址可能未同步,请认准https://blog.zysicyj.top 首发博客地址系列文章地址脏读(Dirty Read)是指一个事务读取到了另一 ...
[转帖]使用 Logical Import Mode
https://docs.pingcap.com/zh/tidb/v6.5/tidb-lightning-logical-import-mode-usage 配置及使用可以通过以下配置文件使用 Lo ...

突破性的多语言代码大模型基CodeShell：引领AI编程新时代