【转帖】ChatGPT的前身：InstructGPT

https://www.jianshu.com/p/6daf35cbc46a

ChatGPT的论文目前还没有发布，在其官方博客（https://openai.com/blog/chatgpt/）中对方法有这样的简述：

我们使用来自人类反馈的强化学习（RLHF）来训练这个模型，使用与InstructionGPT相同的方法，但数据收集设置略有不同。我们使用有监督的微调训练了一个初始模型：人工智能训练师提供对话，他们扮演用户和人工智能助手的双方角色。我们让训练师获得模型书面建议，以帮助他们撰写回复。我们将这个新的对话数据集与InstructGPT数据集混合，并将其转换为对话格式。为了创建强化学习的奖励模型，我们需要收集比较数据，其中包括两个或多个按质量排序的模型响应。为了收集这些数据，我们进行了AI训练师与聊天机器人的对话。我们随机选择了一个模型撰写的消息，抽样了几个备选的完成，并让AI训练师对其进行排名。使用这些奖励模型，我们可以使用近端策略优化对模型进行微调。我们对这个过程进行了多次迭代。

We trained this model using Reinforcement Learning from Human Feedback (RLHF), using the same methods as InstructGPT, but with slight differences in the data collection setup. We trained an initial model using supervised fine-tuning: human AI trainers provided conversations in which they played both sides—the user and an AI assistant. We gave the trainers access to model-written suggestions to help them compose their responses. We mixed this new dialogue dataset with the InstructGPT dataset, which we transformed into a dialogue format.To create a reward model for reinforcement learning, we needed to collect comparison data, which consisted of two or more model responses ranked by quality. To collect this data, we took conversations that AI trainers had with the chatbot. We randomly selected a model-written message, sampled several alternative completions, and had AI trainers rank them. Using these reward models, we can fine-tune the model using Proximal Policy Optimization. We performed several iterations of this process.

来源：https://mp.weixin.qq.com/s/7N3HveaIfn2N-zKjBoRL1A

RLHF代码可参考：https://github.com/lucidrains/PaLM-rlhf-pytorch 5k stars

InstructGPT

标题：Training language models to follow instructions with human feedback

https://arxiv.org/abs/2203.02155

https://openai.com/blog/instruction-following/

使语言模型更大并不意味着它们能够更好地遵循用户的意图。例如，大型语言模型可以生成不真实、有毒或对用户毫无帮助的输出。换句话说，这些模型与其用户不一致。在这篇文章中，我们展示了一种通过微调人类反馈来调整语言模型和用户在广泛任务中的意图的方法。从一组标注者编写的提示和通过OpenAI API提交的提示开始，我们收集了所需模型行为的标注者演示数据集，我们使用该数据集使用监督学习来微调GPT-3。然后，我们收集了一个模型输出排序的数据集，我们使用该数据集使用来自人类反馈的强化学习来进一步微调这个受监督的模型。我们将生成的模型称为InstructGPT。在对我们的即时分布的人类评估中，1.3B参数InstructGPT模型的输出优于175B GPT-3的输出，尽管其参数少了100倍。此外，InstructionGPT模型显示了真实性的提高和有毒输出生成的减少，同时在公共NLP数据集上具有最小的性能回归。尽管InstructGPT仍然会犯一些简单的错误，但我们的结果表明，对人类反馈进行微调是使语言模型与人类意图保持一致的一个有希望的方向。

https://cdn.openai.com/instruction-following/draft-20220126f/methods.svg

http://zx.gd/academic/

【转帖】ChatGPT的前身：InstructGPT的更多相关文章

我在京东做研发 | 从好玩到好用，爆火ChatGPT前沿分享
| 嘉宾:吴友政,京东集团高级总监.京东科技语音语言算法部负责人. 2006年中科院自博士毕业后,先后在日本国立信息通信研究机构.英国爱丁堡大学.索尼中国研究院从事自然语言处理相关研究工作,主要聚焦自 ...
ChatGPT强势爆红，背后的技术原理是？一文轻松搞懂！
目录什么是ChatGPT? OpenAI 背后的原理和发展历程带来的争议和挑战尾语作者:小牛呼噜噜 | https://xiaoniuhululu.com 计算机内功.源码解析.科技故事.项目 ...
ChatGPT/InstructGPT详解
作者:京东零售刘岩前言 GPT系列是OpenAI的一系列预训练文章,GPT的全称是Generative Pre-Trained Transformer,顾名思义,GPT的目的就是通过Transfo ...
[转帖]Apache、Tomcat与Catalina作为软件名字的含义与关系
Apache.Tomcat与Catalina作为软件名字的含义与关系 -- :: 复杂度掠夺者阅读数 3356更多分类专栏: 术语解释版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA ...
玩 ChatGPT 的正确姿势「GitHub 热点速览 v.22.49」
火了一周的 ChatGPT,HG 不允许还有小伙伴不知道这个东西是什么?简单来说就是,你可以让它扮演任何事物,据说已经有人用它开始了颜色文学创作.因为它太火了,所以,本周特推在几十个带有"c ...
ChatGPT 背后的“功臣”——RLHF 技术详解
OpenAI 推出的 ChatGPT 对话模型掀起了新的 AI 热潮,它面对多种多样的问题对答如流,似乎已经打破了机器和人的边界.这一工作的背后是大型语言模型 (Large Language Mode ...
程序员大杀器？带你玩转ChatGPT
作者:京东零售栗鸿宇 ChatGPT简介 ChatGPT是一款基于AI技术的机器人对话软件,它能够与用户进行智能化的聊天对话,帮助用户解决日常生活中的问题,为用户提供丰富的信息和服务.它集成了海量知 ...
ChatGPT 背后核心技术的白话版
本文是关于ChatGPT 背后核心技术实现的一个通俗白话版,不涉及到的AI具体实现的技术细节哦. 在编排上增加了一些分割,内容具体如下: LLMs(大型语言模型) 如果将ChatGPT比作是动物,它就 ...
聊聊最近爆火的 CHAT-GPT
Chat-GPT 以问答的方式呈现给用户,如何使用 Chat-GPT,实际上转换为另一个问题:如何有效地提问. 编写程序难度为"困难",通过率仅 30.9% 的动态规划题: 很稳 ...
ChatGPT调研分析与应用场域结合构想
作者:京东科技胡骏摘要 1. ChatGPT调研分析 2022年11月30日,ChatGPT横空出世,在全球范围内形成了热烈的讨论.根据Similarweb的数据,今年1月,平均每天约有1300万 ...

随机推荐

如何使用loki查询日志中大于某一数字的值的日志
简介 loki是一款轻量级的日志收集中间件,比elk体系占用的内存更小,采用go语言开发,可以利用grafana来查询loki中存储的日志,loki存储日志只对提前预设的标签做索引,所以日志存储空间占 ...
.NET周报【10月最后一期 2022-11-01】
精选要闻 .NET 7 NativeAOT比.NET单文件发布文件小80% https://twitter.com/JamesNK/status/1584919726861737984?s=20&am ...
神经网络基础篇：关于 python_numpy 向量的说明（A note on python or numpy vectors）
关于 python_numpy 向量的说明主要讲Python中的numpy一维数组的特性,以及与行向量或列向量的区别.并说一下在实际应用中的一些小技巧,去避免在coding中由于这些特性而导致的bu ...
手把手教您在PyCharm中连接云端资源进行代码调试
摘要:ModelArts提供了一个PyCharm插件工具PyCharm ToolKit,协助用户完成代码上传.提交训练作业.将训练日志获取到本地展示等,用户只需要专注于本地的代码开发即可. 本文分享自 ...
想从单体架构演进到分布式架构，SBA 会是一个不错的选择
摘要:SBA 可以看成是单体架构和微服务架构之间的一个折中方案,它也是按照业务领域进行服务划分,但服务划分的粒度相比微服务要更粗.从单体架构演进到 SBA,会比直接演进到微服务架构更加容易. 本文分享 ...
为了减少代码复杂度，我将if-else升级为面向状态编程
摘要:面向过程设计和面向对象设计的主要区别是:是否在业务逻辑层使用冗长的if else判断. 本文分享自华为云社区<从面向if-else编程升级为面向状态编程,减少代码复杂度>,作者:br ...
火山引擎 VeDI 推出这款产品助力企业实现以“人”为中心的数据洞察
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 CDP(Customer Data Platform,客户数据平台)市场将迎来新一轮的高速增长. 国际数据公司(以 ...
Treap（平衡树）
Treap 前置芝士二叉搜索树(BST),见 BST. 平衡二叉树(AVL). 先来介绍一下平衡二叉树. 背景 BST 出现以后,人们很快发现一个问题,当其维护一个有序序列时,很可能会退化成链.如图 ...
python中的代码运行时间获取方式
python中的代码运行时间获取方式我们知道为了提高代码的运行速度,我们需要对书写的python代码进行性能测试,而代码性能的高低的直接反馈就是电脑运行代码所需要的时间. 使用time模块对代码 ...
Flask小知识集合
全局变量g的使用 flask在上下文中提供了四种变量,分别是: 变量名上下文说明 current_app 应用上下文当前激活程序的程序实例 g 应用上下文处理请求时用作临时存储的对象.每次请求 ...

【转帖】ChatGPT的前身：InstructGPT

【转帖】ChatGPT的前身：InstructGPT的更多相关文章

随机推荐

热门专题