WOT 全球技术创新大会2024·北京站于 6 月 22 日圆满落幕。本届大会以“智启新纪,慧创万物”为主题,邀请到 60+ 位不同行业的专家,聚焦 AIGC、领导力、研发效能、架构演进、大数据等热门技术话题进行分享。

近年来,数据和人工智能已成为推动各行业创新和增长的关键力量。但如何将数据与人工智能融合,从而创造更大的价值,是企业都在寻找的答案。在 WOT 全球技术创新大会《AI 与数据的智能融合》专场中,来自腾讯云的专家分享了腾讯云在数据管理与人工智能领域的技术成果和成功案例,并探讨二者如何智能融合为企业提供更高效、更智能的数据服务。

大模型时代下的存储系统

在当前时代的发展中,企业正逐步利用大规模的对象存储来构建企业级数据湖和智能存储服务,存储系统正朝着更加弹性、高效和智能的方向发展,以满足企业在数据处理和利用方面日益增长的需求。随着大模型的出现,存储系统还需要满足大模型训练和推理过程中对数据规模、性能和稳定性的多样化需求,以及在处理海量数据的同时保证对高价值数据的高性能访问,实现大规模存储与高性能访问的平衡,确保大模型的高效训练和推理能力。

腾讯云是如何应对多样化的存储需求的呢?首先,腾讯云通过全球基础设施,在 21个地区部署 3200+ 加速节点,为企业提供卓越、稳定的公网接入和传输能力,满足企业安全、高效、可靠的数据迁移需求。在过往的数据迁移案例中,我们曾经支持过数十 PB 甚至上百 PB 数据的稳定迁移。

其次,腾讯云全自研对象存储引擎 YottaStore 能够为大模型训练和推理提供非常坚实的底座支持。在数据接入层面,腾讯云自研了无状态的弹性接入集群,支持丰富的公网接入和弹性伸缩能力;在存储引擎层面,腾讯云提供了原生多 AZ 的特性,提供了高可靠的存储能力;通过元数据分级存储等方式,单集群可以轻松扩展到百 EB 级别。通过深耕软硬件技术优化,腾讯云对象存储一方面可以满足业务不同规模、不同类型的数据存储需求;另一方面,也为业务提供了连续可用的服务,保证数据随时可访问,数据可以永久存储、不坏不丢。

存储系统存在着海量数据,企业如何找到真正需要用的数据?这就需要腾讯云自研的 GooseFS 三级加速服务来提升数据使用效率。GooseFS可以将数据智能存储到内存、计算集群的本地盘、或可用区的全闪存储集群等不同级别的缓存中,提供亚毫秒级的数据访问时延、百万级的IOPS和Tbps级别的吞吐能力,有效提升数据清洗效率。

AI 场景中存在海量文件的存储和访问需求,因此GooseFS 面临着海量元数据存储以及数据亲和性调度的挑战。为了应对海量元数据存储的压力,GooseFS 通过在高性能 KVDB 上实现了元数据分库分表、跨节点硬链等技术手段,有效提升元数据规模和平行扩展能力,当遇到主节点元数据访问故障时,整个元数据的访问可以快速迁移到备节点中。通过这些方式,GooseFS可以为大模型训练场景提供百亿级的热点元数据存储能力,提供百万级 IOPS,并且可以在高压情况下做到秒级故障恢复的能力。

介绍完对象存储COS如何助力大模型框架提效降本,接下来腾讯云存储高级产品经理林楠还介绍了数据万象CI如何利用AI赋能存储系统。

第一个能力是一体化AI审核+存储。在大模型的生产框架中,无论是训练还是推理都会涉及内容安全的问题,因此腾讯云数据万象在存储端提前预置审核能力,通过对用户输入和AIGC模型输出这两个阶段的内容审核,可以充分保障内容安全的合规要求。数据万象的审核能力可以根据数据存储位置智能地调度处理集群,通过近存储侧的处理能力,从而提供更优的数据传输时延和更低的成本。

第二个能力是知识产权保护。现阶段 AIGC 产权并没有明确的标识物,但当 AIGC 的产物被大规模应用时,知识产权保护的需求也会随之而生,这个时候就需要明确声明产出物的模型主权。腾讯云数据万象的数字水印技术提供一站式明暗水印添加能力,可以在图片、视频,文本中嵌入机密信息,保证数字产品的版权保护和侵权溯源。

第三个能力是多模态智能检索。与传统的基于标签的标量检索不同,腾讯云数据万象MetaInsight通过预先计算数据的向量空间并存储于向量数据库中,再利用向量检索技术在向量空间内寻找相似的图片、文本或视频内容,从而实现更精准的全媒体类型跨模态检索能力。MetaInsight支持以文搜图、以图搜图等多种高性能的数据检索手段,覆盖了上千个细分场景,可以帮助客户快速建设检索应用。

AI 与数据的智能融合丨大模型时代下的存储系统的更多相关文章

  1. 华为高级研究员谢凌曦:下一代AI将走向何方?盘古大模型探路之旅

    摘要:为了更深入理解千亿参数的盘古大模型,华为云社区采访到了华为云EI盘古团队高级研究员谢凌曦.谢博士以非常通俗的方式为我们娓娓道来了盘古大模型研发的"前世今生",以及它背后的艰难 ...

  2. LUSE: 无监督数据预训练短文本编码模型

    LUSE: 无监督数据预训练短文本编码模型 1 前言 本博文本应写之前立的Flag:基于加密技术编译一个自己的Python解释器,经过半个多月尝试已经成功,但考虑到安全性问题就不公开了,有兴趣的朋友私 ...

  3. FusionInsight,一个融合的大数据平台

    随着物联网技术和应用的普及,以运营商.互联网以及实体经济行业为代表的企业产生了越来越多的数据,大数据的发展越来越蓬勃. 从2007年开始,大数据应用成为很多企业的需求,2012年兴起并产生了大数据平台 ...

  4. 中国AI觉醒 阿里王坚:云智能将成为大趋势

    2019独角兽企业重金招聘Python工程师标准>>> <麻省理工科技评论>新兴科技峰会EmTech China于北京召开.大会中,其中一项热门的讨论便是:中国和美国的科 ...

  5. StartDT AI Lab | 数据增强技术如何实现场景落地与业务增值?

    有人说,「深度学习“等于”深度卷积神经网络算法模型+大规模数据+云端分布式算力」.也有人说,「能够在业内叱咤风云的AI都曾“身经百战”,经历过无数次的训练与试错」.以上都需要海量数据做依托,对于那些数 ...

  6. 华为有AI,这场转型战有点大

    华为有AI,这场转型战有点大 https://mp.weixin.qq.com/s/qnUP5cgbNxXcAT82NQARtA 李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI 华为有AI ...

  7. 大数据实时处理-基于Spark的大数据实时处理及应用技术培训

    随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据 的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的 ...

  8. CSDN专访:大数据时代下的商业存储

    原文地址:http://www.csdn.net/article/2014-06-03/2820044-cloud-emc-hadoop 摘要:EMC公司作为全球信息存储及管理产品方面的领先公司,不久 ...

  9. 大数据技术原理与应用——大数据处理架构Hadoop

    Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构. Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以 ...

  10. CSDN专訪:大数据时代下的商业存储

    原文地址:http://www.csdn.net/article/2014-06-03/2820044-cloud-emc-hadoop 摘要:EMC公司作为全球信息存储及管理产品方面的率先公司,不久 ...

随机推荐

  1. 阿里云Tomcat7配置域名详解

    一. 进入阿里云服务控制台,点击SSL证书 看到下载了么,对应着你的域名点击下载服务器类型选择Tomcat,点击下载,压缩包中包含 xxxxx__test.com.pfx, pfx-password. ...

  2. Centos LNMP 安装日记

    环境介绍 [root@k8s-master ~]# cat /etc/redhat-release CentOS Linux release 7.7.1908 (Core) mysql8.0.12_b ...

  3. 2022年12月中国数据库排行榜:OceanBase立足创新登榜首,华为腾讯排名上升树雄心

    不经一番寒彻骨,怎得梅花扑鼻香. 2022年12月的 墨天轮中国数据库流行度排行榜 火热出炉,本月共有249个数据库参与排名,相比上月新增3个数据库.本月排行榜前十用一句话可以概括为:榜单前十一片红, ...

  4. Solon 3.0 新特性:SqlUtils

    Solon 3.0 引入了新的 SqlUtils 用于数据库基础操作,SqlUtils 是对 JDBC 较为原始的封装,采用了 Utils API 的风格,极为反普归真. 特性有: 支持事务管理 支持 ...

  5. Putty 远程 连接kali Linux拒绝访问 refused connection

    1. 设置  ssh 文件 crtl + alt + t 代开终端 输入命令: vim /etc/ssh/sshd_config 说明 : 使用 vim 编辑器编辑 ssh 文件 : 说明: 修改第3 ...

  6. 《刚刚问世》系列初窥篇-Java+Playwright自动化测试-2-环境准备与搭建-基于Maven(详细教程)

    1.简介 上一篇宏哥已经讲解和分享了如何通过引入jar包来搭建Java+Playwright自动化测试环境,这一种是比较老的方法,说白了就是过时的老古董,但是我们必须了解和知道,其实maven搭建无非 ...

  7. 使用 KubeKey 在 AWS 高可用部署 Kubernetes

    作者:李耀宗 介绍 对于生产环境,我们需要考虑 Kubernetes 集群的高可用性.本文教您部署如何在多台 AWS EC2 实例快速部署一套高可用的生产环境.要满足 Kubernetes 集群服务需 ...

  8. Java开发23种设计模式(转)

    [转载]https://www.cnblogs.com/maowang1991/archive/2013/04/15/3023236.html 设计模式(Design Patterns) --可复用面 ...

  9. cxv文件合并

    1.新建bat脚本 @echo off setlocal enabledelayedexpansion copy *.csv new.csv echo @@@@@@@@@@@@@合并成功!@@@@@@ ...

  10. 关于sizeof、strlen的理解与辨析以及strlen的模拟实现

    关于sizeof.strlen的理解与辨析以及strlen的模拟实现 1. sizeof() sizeof的作用: 计算变量所占内存内存空间大小,单位是字节. 注意事项: ① 首先要明确的一点是:si ...