最近,Argilla 和 Hugging Face 共同 推出Data is Better Together 计划,旨在凝聚社区力量协力构建一个对提示进行排名的偏好数据集。仅用几天,我们就吸引了:

  • 350 个社区贡献者参与数据标注
  • 超过 11,000 个提示评分

你可通过 进度面板 了解最新的统计数据!

基于此,我们发布了 10k_prompts_ranked 数据集,该数据集共有 1 万条提示,其中每条提示都附带用户的质量评分。我们希望后续能开展更多类似的项目!

本文将讨论为什么我们认为社区合作构建数据集至关重要,并邀请大家作为首批成员加入社区,Argilla 和 Hugging Face 将共同支持社区开发出更好的数据集!

“无数据,不模型”仍是颠扑不破的真理

数据对于训练出更好的模型仍具有至关重要的作用: 现有的研究 及开源 实验 不断地证明了这一点,开源社区的实践也表明更好的数据才能训练出更好的模型。

为什么需要社区合力构建数据集?

“数据对于机器学习至关重要”已获得广泛共识,但现实是对很多语言、领域和任务而言,我们仍然缺乏用于训练、评估以及基准测试的高质量数据集。解决这一问题的路径之一是借鉴 Hugging Face Hub 的经验,目前,社区已通过 Hugging Face Hub 共享了数千个模型、数据集及演示应用,开放的 AI 社区协力创造了这一令人惊叹的成果。我们完全可以将这一经验推广,促成社区协力构建下一代数据集,从而为构建下一代模型提供独特而宝贵的数据基础。

赋能社区协力构建和改进数据集得好处有:

  • 无需任何机器学习或编程基础,人人皆能为开源机器学习的发展作出贡献。
  • 可为特定语言创建聊天数据集。
  • 可为特定领域开发基准数据集。
  • 可创建标注者多样化的偏好数据集。
  • 可为特定任务构建数据集。
  • 可利用社区的力量协力构建全新的数据集。

重要的是,我们相信凭借社区的协力会构建出更好的数据集,同时也能让那些不会编码的人也能参与进来为 AI 的发展作贡献。

让人人都能参与

之前许多协力构建 AI 数据集的努力面临的挑战之一是如何赋能大家以高效完成标注任务。Argilla 作为一个开源工具,可让大家轻松地为 LLM 或小型特化模型创建数据集,而 Hugging Face Spaces 是一个用于构建和托管机器学习演示应用的平台。最近,Argilla 对 Spaces 上托管的 Argilla 实例增加了对 Hugging Face 账户验证的支持,有了这个,用户现在仅需几秒钟即可开始参与标注任务。

我们在创建 10k_prompts_ranked 数据集时已对这个新的工作流进行了压力测试,我们已准备好支持社区创建新的协作数据集。

首批加入数据集共建社区!

我们对这个新的、简单的托管标注工作流的潜力深感兴奋。为了支持社区构建更好的数据集,Hugging Face 和 Argilla 邀请感兴趣的个人或社区作为首批成员加入我们的数据集构建者社区。

加入这个社区,你将可以:

  • 创建支持 Hugging Face 身份验证的 Argilla Space。 Hugging Face 将为参与者提供免费的硬盘和增强型 CPU 资源。
  • Argilla 和 Hugging Face 可提供额外的宣传渠道以助力项目宣传。
  • 受邀加入相应的社区频道。

我们的目标是支持社区协力构建更好的数据集。我们对所有想法持开放态度,并愿竭尽所能支持社区协力构建更好的数据集。

我们在寻找什么样的项目?

我们愿意支持各种类型的项目,尤其是现存的开源项目。我们对专注于为目前开源社区中数据不足的语言、领域和任务构建数据集的项目尤其感兴趣。当前我们唯一的限制是主要针对文本数据集。如果你对多模态数据集有好想法,我们也很乐意听取你的意见,但我们可能无法在第一批中提供支持。

你的任务可以是完全开放的,也可以是向特定 Hugging Face Hub 组织的成员开放的。

如果你想成为首批成员,请加入 Hugging Face Discord 中的 #data-is-better-together 频道,并告诉我们你想构建什么数据集!

期待与大家携手共建更好的数据集!


英文原文: https://hf.co/blog/community-datasets

原文作者: Daniel van Strien,Daniel Vila

译者: Matrix Yao (姚伟峰),英特尔深度学习工程师,工作方向为 transformer-family 模型在各模态数据上的应用及大规模模型的训练推理。

数据好合: Argilla 和 Hugging Face Spaces 携手赋能社区合力构建更好的数据集的更多相关文章

  1. vue批量验证提交表单的数据是否合规

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  2. GIS数据下载合集:遥感、土壤、气象、行政区数据...

      本文介绍GIS领域相关的各类综合数据免费获取网站,包括遥感数据.气象数据.土地数据.土壤数据.农业数据.行政区数据.社会数据.经济数据等等.   数据较多,大家可以直接通过下方目录加以总览:点击数 ...

  3. Hugging Face 每周速递: Chatbot Hackathon;FLAN-T5 XL 微调;构建更安全的 LLM

    每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新.社区活动.学习资源和内容更新.开源库和模型更新等,我们将其称之为「Hugging Ne ...

  4. Java数据持久层框架 MyBatis之API学习九(SQL语句构建器详解)

    对于MyBatis的学习而言,最好去MyBatis的官方文档:http://www.mybatis.org/mybatis-3/zh/index.html 对于语言的学习而言,马上上手去编程,多多练习 ...

  5. Jenkins日常运维笔记-重启数据覆盖问题、迁移、基于java代码发版(maven构建)

    之前在公司机房部署了一套jenkins环境,现需要迁移至IDC机房服务器上,迁移过程中记录了一些细节:1)jenkins默认的主目录放在当前用户家目录路径下的.jenkins目录中.如jenkins使 ...

  6. 人工智能、大数据、物联网、区块链,四大新科技PK,你更看好谁?

    最近行业中备受关注并且非常火热的产业有哪些呢?小编这边总结了一下,一共有4个,分别是人工智能.大数据.物联网和区块链,这四种新科技也一直是蓄势待发,未来将引领新一代的科技成长,也会带给人类很多更方便快 ...

  7. 数据可视化之DAX篇(二十三)ALLEXCEPT应用示例:更灵活的累计求和

    https://zhuanlan.zhihu.com/p/67441847 累计求和问题,之前已经介绍过(有了这几个公式,你也可以快速搞定累计求和),主要是基于比较简单的情形,针对所有的数据进行累计求 ...

  8. Hugging Face 每周速递: Space 支持创建模版应用、Hub 搜索功能增强、BioGPT-Large 还有更多

    每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新.社区活动.学习资源和内容更新.开源库和模型更新等,我们将其称之为「Hugging Ne ...

  9. [转]综述论文翻译:A Review on Deep Learning Techniques Applied to Semantic Segmentation

    近期主要在学习语义分割相关方法,计划将arXiv上的这篇综述好好翻译下,目前已完成了一部分,但仅仅是尊重原文的直译,后续将继续完成剩余的部分,并对文中提及的多个方法给出自己的理解. _论文地址:htt ...

  10. 综述论文翻译:A Review on Deep Learning Techniques Applied to Semantic Segmentation

    近期主要在学习语义分割相关方法,计划将arXiv上的这篇综述好好翻译下,目前已完成了一部分,但仅仅是尊重原文的直译,后续将继续完成剩余的部分,并对文中提及的多个方法给出自己的理解. 论文地址:http ...

随机推荐

  1. SQLServer复制表及数据的两种方法

    1.新表不存在(即复制数据的同时创建与旧表相同结构的新表):     select [col1,col2,col3...] into new_table from old_table where 1= ...

  2. typora beta版本 typora免费版 typora 0.11.18 下载

    壹 ❀ 引 typora从1.0.0正式版开始就不再免费了,可能有一些开了自动检测更新的同学,在某次打开typora就看到了购买以及试用天数的弹窗,但typora正式之前的beta版依旧免费,这里就分 ...

  3. git基本操作(二)

    分支(git branch) git branch 命令用于列出,创建或删除分支. git branch -a git branch git branch -v # 查看每一个分支上的最后一次comm ...

  4. NVME(学习笔记三)—PMR

    PMR(Persistent Memory Region)持久性内存区域 NVM Express在2019年完成了NVMe 1.4规范的制定,新的NVMe协议带来了大量的全新特性,尤其在纠错.强化性能 ...

  5. java 从零开始手写 redis(九)LRU 缓存淘汰算法如何避免缓存污染

    前言 java从零手写实现redis(一)如何实现固定大小的缓存? java从零手写实现redis(三)redis expire 过期原理 java从零手写实现redis(三)内存数据如何重启不丢失? ...

  6. DS1302与STC12的连接电路和驱动实现

    简介 DS1302是低功耗带RAM的实时时钟电路, 常见的SOP8封装体积很小, 它可以对年月日周时分秒进行计时, 具有闰年补偿功能, 工作电压为2.0V-5.5V, 采用三线接口与CPU进行同步通信 ...

  7. 解密prompt系列24. RLHF新方案之训练策略:SLiC-HF & DPO & RRHF & RSO

    去年我们梳理过OpenAI,Anthropic和DeepMind出品的经典RLHF论文.今年我们会针对经典RLHF算法存在的不稳定,成本高,效率低等问题讨论一些新的方案.不熟悉RLHF的同学建议先看这 ...

  8. DVWA sqli

    level low 可以看到查询请求为 http://192.168.31.xxx/vulnerabilities/sqli/?id=1&Submit=Submit# ##### id 改为 ...

  9. 海康摄像SDK开发笔记(一):海康威视网络摄像头SDK介绍与模块功能

    前言   视频监控.人脸识别等应用中经常使用到摄像头,当前占据主流视频监控摄像头就是海康和大华两家,都可通过自家的sdk或者是onvif方式使用和控制摄像头.  本文章讲解海康的sdk方式.   海康 ...

  10. 【Azure 事件中心】关闭或开启Azure Event Hub SDK中的日志输出

    问题描述 使用Azure Event Hub的Java SDK 作为消费端消费消息,集成在项目中后,发现大量日志产生,并且都是Debug 级别日志,如何来关闭这部分日志输出呢? import com. ...