摘要:GaussDB(for Redis)轻松搞定推荐系统核心存储,为企业级应用保驾护航。

本文分享自华为云社区《GaussDB(for Redis)揭秘第13期:如何搞定推荐系统存储难题?》,作者:高斯Redis官方博客 。

一、推荐偏差引发的思考

七夕过后,笔者的一个朋友遇到了尴尬事:当女友点开他的购物APP,竟然自动弹出一系列推荐:玫瑰包邮、感动哭了、浪漫小夜灯……回想七夕那天,礼物并没有出现,于是问题出现了:从实招来,你送谁了?

为了帮助友人重建信任,笔者进行了一番技术调研:这一定是“推荐系统”出了偏差。

推荐系统是一种信息过滤系统,它能够快速分析海量用户行为数据,预测出用户喜好,从而进行有效推荐。在商品推荐、广告投放等业务中,推荐系统责任重大。根据亚马逊2019年度报告,其40%的营收来自内部稳定的推荐系统。

在本文开篇的例子中,正是由于推荐系统问题,才导致了尴尬的场面。笔者决定力挺友人,用可靠的知识让人信服!

二、推荐系统长什么样

通常来说,在一套成熟的推荐系统中,分布式计算、特征存储、推荐算法是关键的三大环节,缺一不可。

下面介绍一类完整的推荐系统,在系统中GaussDB(for Redis)负责核心的特征数据存储。该系统也是华为云诸多客户案例中较为成熟的最佳实践之一。

第一部分:获取特征数据

  • 原始数据采集

点赞、收藏、评论、购买……这些行为都属于原始数据,他们随时都在发生,因此数据量庞大。经由Kafka、Redis Stream等流组件向下游传递,或存入数仓,等待后期提取使用。

  • 分布式计算

原始数据离散、含义模糊,无法直接给算法使用。此时就要进行大规模的离线、在线计算,对数据加工。Spark、Flink都是典型的大数据计算组件,其强大的分布式计算能力是推荐系统不可或缺的。

  • 特征数据存储

经过加工的数据也就是特征、标签,是推荐算法所需的宝贵数据源。在特定场景下,也可以称之为用户画像、物品画像。这部分数据有着反复共享、复用的价值,不仅能用于训练算法模型,还能为生产环境提供服务。

确保特征数据的可靠存储,是推荐系统中极为关键的一环。

第二部分:消费特征数据

  • 线下模型训练

有了关键的特征数据,业务就可以开始训练算法模型。只有充分利用特征库,以及最新行为数据,不断打磨推荐算法,这样才能提升推荐系统整体水平,最终带给用户更好的体验。

  • 线上推理预测

算法模型训练结束后,将被部署到线上生产环境。它将继续利用已有的特征存储,根据用户的实时行为进行推理,快速预测出与用户最匹配的优质内容,形成推荐列表,并推送给终端用户。

三、推荐系统的存储难题

很显然, “特征数据”在整个系统中起到了关键的衔接作用。由于KV形式的数据抽象与特征数据极为接近,因此推荐系统里往往少不了Redis的身影。

在上述系统的方案中,数据库选型为GaussDB(for Redis),而不是开源Redis。原因是开源Redis在大数据场景下还是存在显而易见的痛点:

1. 数据无法可靠存储

推荐系统其实希望既能使用KV数据库,又能放心将数据长久保存。但开源Redis的能力更侧重于数据的缓存加速,而不是数据存储。而且开源Redis毕竟是纯内存设计,即使有AOF持久化,但通常也只能秒级落盘,数据的保存并不可靠。

2. 数据量上不去,成本下不来

涉及推荐的业务往往用户体量也不会小,随着业务发展,也会有更多的特征数据需要保存。实际上,相同容量的内存与极速SSD相比,价格贵10倍以上都很正常。于是,当数据量达到几十GB、几百GB,开源Redis会变得越来越“烧钱”,因此一般只当做“小”缓存使用。除此之外,开源Redis自身fork问题导致容量利用率低,硬件资源有很大的浪费。

3. 灌库表现不佳

特征数据需要定期更新,往往以小时或天为周期进行大规模数据灌入任务。如果存储组件不够“皮实”,大量写入造成数据库故障,将导致整个推荐系统发生异常。这就可能造成开篇提到的尴尬用户体验。

开源Redis抗写能力并不强,这是由于集群中有一半节点是备节点,它们只能处理读请求。当大批量写入到来时,主节点容易出问题,引发连锁反应。

理论上,架构设计并不是越复杂越好,如果可以,谁不想使用一种既能兼顾特征数据KV类型、成本友好、性能又有保障的可靠数据存储引擎?

四、相见恨晚,遇见GaussDB(for Redis)

与开源Redis不同,GaussDB (for Redis)基于存算分离架构,为推荐系统这一类大数据场景带来关键的技术价值:

1. 可靠存储

数据命令级落盘,在底层存储池中三副本冗余存储,真正做到了0丢失。

2. 降本增效

高性能持久化技术+细粒度存储池,帮助企业将数据库使用成本降低75%以上。

3. 抗写能力强

多线程设计+全部节点可写,抗写能力足够强大,从容应对Spark灌库压力和实时更新。华为云企业级数据库GaussDB (for Redis)提供稳定、可靠的KV存储能力,正是推荐系统核心数据的极佳选型。

五、完美衔接,实现想存就存的自由

其实,在Spark后端接入Redis已经成为一种主流方案,而使用Flink从Redis中提取维度表也是很常见的用法。它们也都提供了用于接入Redis的连接器。GaussDB(for Redis)完全兼容Redis协议,即开即用,用户随时都可以快速创建实例并接入业务。

1. Spark-Redis-Connector

Spark-Redis-Connector完美实现了Spark RDD、DataFrame到GaussDB(for Redis)实例中String、Hash、List、Set等结构的映射。用户可使用熟悉的Spark SQL语法轻松访问GaussDB(for Redis),完成特征数据灌库、更新、提取等关键任务。

使用方法非常简单:

1)当需要读取Hash、List、Set结构到Spark RDD时,分别只用一行即可搞定:

2)而当推荐系统进行灌库或特征数据更新时,可以按如下方式轻松完成写入:

2. Flink-Redis-Connector

Flink这款计算引擎流行程度不亚于Spark,它同样有成熟的Redis连接方案。使用Flink提供的Connector或结合Jedis客户端,都可轻松完成Flink到Redis的读写操作。

以使用Flink统计单词频次的简单场景为例,数据源经过Flink加工后,便可轻松存入GaussDB(for Redis)中。

六、结语

大数据应用对核心数据的存储有着很高的要求,云数据库GaussDB(for Redis)拥有存算分离的云原生架构,在完全兼容Redis协议的基础上,同时做到了稳定性、可靠性的全面领先。面对海量核心数据存储,它还能为企业带来相当可观的成本节约。面向未来,GaussDB(for Redis)极有潜力成为下一个大数据浪潮的新星。

七、附录

本文作者:华为云数据库GuassDB(for Redis)团队

杭州/西安/深圳简历投递:yuwenlong4@huawei.com

GuassDB(for Redis)产品主页:https://www.huaweicloud.com/product/gaussdbforredis.html

更多技术文章,关注高斯Redis官方博客:https://bbs.huaweicloud.com/community/usersnew/id_1614151726110813

点击关注,第一时间了解华为云新鲜技术~

华为云PB级数据库GaussDB(for Redis)揭秘第13期:如何搞定推荐系统存储难题的更多相关文章

  1. 华为云PB级数据库GaussDB(for Redis)揭秘第八期:用高斯 Redis 进行计数

    摘要:高斯Redis,计数的最佳选择! 一.背景 当我们打开手机刷微博时,就要开始和各种各样的计数器打交道了.我们注册一个帐号后,微博就会给我们记录一组数据:关注数.粉丝数.动态数-:我们刷帖时,关注 ...

  2. 华为云PB级数据库GaussDB(for Redis)揭秘第七期:高斯Redis与强一致

    摘要:在KV数据库领域,"强一致性"不仅是一个技术名词,它更是业务与运维的重要需求. 清明刚过,五一假期就要来了.大好春光,不如去婺源看油菜花吧!小云迅速打开APP刷出余票2张,赶 ...

  3. 华为云数据库GaussDB(for Cassandra)揭秘第二期:内存异常增长的排查经历

    摘要:华为云数据库GaussDB(for Cassandra) 是一款基于计算存储分离架构,兼容Cassandra生态的云原生NoSQL数据库:它依靠共享存储池实现了强一致,保证数据的安全可靠. 本文 ...

  4. 华为云企业级Redis揭秘第16期:超越开源Redis的ACID"真"事务

    摘要: 开源Redis只支持伪事务,应用场景受限.高斯Redis发布企业级事务特性,支持完备ACID,为交易.库存等上层业务带来全新可能. 本文分享自华为云社区<华为云企业级Redis揭秘第16 ...

  5. 华为云企业级Redis评测第一期:稳定性与扩容表现

    摘要:采用Redis Labs推出的多线程压测工具memtier_benchmark对比测试下GaussDB(for Redis) 和原生Redis的特性差异. 本文分享自华为云社区<华为云企业 ...

  6. 即时通讯系统为什么选择GaussDB(for Redis)?

    摘要:如果你需要一款稳定可靠的高性能企业级KV数据库,不妨试试GaussDB(for Redis). 每当网络上爆出热点新闻,混迹于各个社交媒体的小伙伴们全都开启了讨论模式.一条消息的产生是如何在群聊 ...

  7. 揭秘GaussDB(for Redis):全面对比Codis

    摘要:Codis集群在国内Redis生态圈很流行,社区已停止维护.本文从架构和特性两方面对比,带你感受华为云GaussDB(for Redis)的全新价值. 本文分享自华为云社区<华为云Gaus ...

  8. 升级的华为云“GaussDB”还能战否?

    摘要:芯片.操作系统.数据库是现代信息技术领域的三大核心基础,做数据库,不仅需要技术和投入,对华为这种做通讯起家的企业,更需要的是一种并非玩票性质的态度. GaussDB,不仅蕴含着华为对数学和科学的 ...

  9. 揭秘华为云GaussDB(for Influx)最佳实践:hint查询

    摘要:GaussDB(for Influx)通过提供hint功能,在单时间线的查询场景下,性能有大幅度的提升,能有效满足客户某些特定场景的查询需求. 本文分享自华为云社区<华为云GaussDB( ...

  10. 一文带你读懂!华为云在ACMUG技术沙龙上都透露了些啥?

    摘要:近日,华为云数据库业务总裁苏光牛在ACMUG中国MySQL用户组主办的 "华为云专场" 技术沙龙中分享了华为云数据库重磅新品GaussDB的核心能力与竞争优势.那么, Gau ...

随机推荐

  1. Redis系列之常见数据类型应用场景

    目录 String 简单介绍 常见命令 应用场景 Hash 简单介绍 常见命令 应用场景 List 简单介绍 常见命令 应用场景 Set 简单介绍 常见命令 应用场景 Sorted Set(Zset) ...

  2. windows 下终止nginx 进程 重新启动nginx

    进入cmd 输入一下命令 删除nginx所有进程 taskkill /f /t /im nginx.exe

  3. day2-JS基础&流程控制

    typora-root-url: img 自增自减运算符 1.基本使用 内置提供 ++.--运算符 是用于将变量本身进行加1或者减1操作 // 1.基本使用 var i = 10; i++;//等价于 ...

  4. .NET开源的处理分布式事务的解决方案

    前言 在分布式系统中,由于各个系统服务之间的独立性和网络通信的不确定性,要确保跨系统的事务操作的最终一致性是一项重大的挑战.今天给大家推荐一个.NET开源的处理分布式事务的解决方案基于 .NET St ...

  5. bi报表软件开发的特点什么,产品和流程?

    BI报表软件是一种针对企业数据分析和决策支持的工具,具有高度灵活性和易用性.在当前数据化的时代,越来越多的企业开始关注BI报表软件的开发和应用,因为它们可以帮助企业更好地管理数据,更好地进行商业决策. ...

  6. Linux笔记02: Linux环境_2.3 Linux网络连接

    2.3 Linux网络连接 本节介绍VMware Workstation Player 17下CentOS 7的网络连接. 2.3.1 VMware网络类型 VMware提供的网络连接有5种: ●桥接 ...

  7. [ABC263C] Monotonically Increasing

    Notes For two integer sequences of the same length $A_1,A_2,\dots,A_N$ and $B_1,B_2,\dots,B_N$, $A$ ...

  8. ASR项目实战-前处理

    本文深入探讨前处理环节. 首先介绍一些基本的名词,比如 文件名后缀 文件格式 音频格式 采样率和位深 预备知识 文件名后缀.文件格式和音频格式 常见的音频文件,比如.wav..mp3..m4a..wm ...

  9. ElasticSearch之Get index API

    获取指定索引的基本信息. 命令样例如下: curl -X GET "https://localhost:9200/testindex_001?pretty" --cacert $E ...

  10. IDM HOSTS本地注册 屏蔽的网址

    127.0.0.1 registeridm.com127.0.0.1 www.registeridm.com127.0.0.1 www.internetdownloadmanager.com127.0 ...