摘要:GaussDB(for Redis)轻松搞定推荐系统核心存储,为企业级应用保驾护航。

本文分享自华为云社区《GaussDB(for Redis)揭秘第13期:如何搞定推荐系统存储难题?》,作者:高斯Redis官方博客 。

一、推荐偏差引发的思考

七夕过后,笔者的一个朋友遇到了尴尬事:当女友点开他的购物APP,竟然自动弹出一系列推荐:玫瑰包邮、感动哭了、浪漫小夜灯……回想七夕那天,礼物并没有出现,于是问题出现了:从实招来,你送谁了?

为了帮助友人重建信任,笔者进行了一番技术调研:这一定是“推荐系统”出了偏差。

推荐系统是一种信息过滤系统,它能够快速分析海量用户行为数据,预测出用户喜好,从而进行有效推荐。在商品推荐、广告投放等业务中,推荐系统责任重大。根据亚马逊2019年度报告,其40%的营收来自内部稳定的推荐系统。

在本文开篇的例子中,正是由于推荐系统问题,才导致了尴尬的场面。笔者决定力挺友人,用可靠的知识让人信服!

二、推荐系统长什么样

通常来说,在一套成熟的推荐系统中,分布式计算、特征存储、推荐算法是关键的三大环节,缺一不可。

下面介绍一类完整的推荐系统,在系统中GaussDB(for Redis)负责核心的特征数据存储。该系统也是华为云诸多客户案例中较为成熟的最佳实践之一。

第一部分:获取特征数据

  • 原始数据采集

点赞、收藏、评论、购买……这些行为都属于原始数据,他们随时都在发生,因此数据量庞大。经由Kafka、Redis Stream等流组件向下游传递,或存入数仓,等待后期提取使用。

  • 分布式计算

原始数据离散、含义模糊,无法直接给算法使用。此时就要进行大规模的离线、在线计算,对数据加工。Spark、Flink都是典型的大数据计算组件,其强大的分布式计算能力是推荐系统不可或缺的。

  • 特征数据存储

经过加工的数据也就是特征、标签,是推荐算法所需的宝贵数据源。在特定场景下,也可以称之为用户画像、物品画像。这部分数据有着反复共享、复用的价值,不仅能用于训练算法模型,还能为生产环境提供服务。

确保特征数据的可靠存储,是推荐系统中极为关键的一环。

第二部分:消费特征数据

  • 线下模型训练

有了关键的特征数据,业务就可以开始训练算法模型。只有充分利用特征库,以及最新行为数据,不断打磨推荐算法,这样才能提升推荐系统整体水平,最终带给用户更好的体验。

  • 线上推理预测

算法模型训练结束后,将被部署到线上生产环境。它将继续利用已有的特征存储,根据用户的实时行为进行推理,快速预测出与用户最匹配的优质内容,形成推荐列表,并推送给终端用户。

三、推荐系统的存储难题

很显然, “特征数据”在整个系统中起到了关键的衔接作用。由于KV形式的数据抽象与特征数据极为接近,因此推荐系统里往往少不了Redis的身影。

在上述系统的方案中,数据库选型为GaussDB(for Redis),而不是开源Redis。原因是开源Redis在大数据场景下还是存在显而易见的痛点:

1. 数据无法可靠存储

推荐系统其实希望既能使用KV数据库,又能放心将数据长久保存。但开源Redis的能力更侧重于数据的缓存加速,而不是数据存储。而且开源Redis毕竟是纯内存设计,即使有AOF持久化,但通常也只能秒级落盘,数据的保存并不可靠。

2. 数据量上不去,成本下不来

涉及推荐的业务往往用户体量也不会小,随着业务发展,也会有更多的特征数据需要保存。实际上,相同容量的内存与极速SSD相比,价格贵10倍以上都很正常。于是,当数据量达到几十GB、几百GB,开源Redis会变得越来越“烧钱”,因此一般只当做“小”缓存使用。除此之外,开源Redis自身fork问题导致容量利用率低,硬件资源有很大的浪费。

3. 灌库表现不佳

特征数据需要定期更新,往往以小时或天为周期进行大规模数据灌入任务。如果存储组件不够“皮实”,大量写入造成数据库故障,将导致整个推荐系统发生异常。这就可能造成开篇提到的尴尬用户体验。

开源Redis抗写能力并不强,这是由于集群中有一半节点是备节点,它们只能处理读请求。当大批量写入到来时,主节点容易出问题,引发连锁反应。

理论上,架构设计并不是越复杂越好,如果可以,谁不想使用一种既能兼顾特征数据KV类型、成本友好、性能又有保障的可靠数据存储引擎?

四、相见恨晚,遇见GaussDB(for Redis)

与开源Redis不同,GaussDB (for Redis)基于存算分离架构,为推荐系统这一类大数据场景带来关键的技术价值:

1. 可靠存储

数据命令级落盘,在底层存储池中三副本冗余存储,真正做到了0丢失。

2. 降本增效

高性能持久化技术+细粒度存储池,帮助企业将数据库使用成本降低75%以上。

3. 抗写能力强

多线程设计+全部节点可写,抗写能力足够强大,从容应对Spark灌库压力和实时更新。华为云企业级数据库GaussDB (for Redis)提供稳定、可靠的KV存储能力,正是推荐系统核心数据的极佳选型。

五、完美衔接,实现想存就存的自由

其实,在Spark后端接入Redis已经成为一种主流方案,而使用Flink从Redis中提取维度表也是很常见的用法。它们也都提供了用于接入Redis的连接器。GaussDB(for Redis)完全兼容Redis协议,即开即用,用户随时都可以快速创建实例并接入业务。

1. Spark-Redis-Connector

Spark-Redis-Connector完美实现了Spark RDD、DataFrame到GaussDB(for Redis)实例中String、Hash、List、Set等结构的映射。用户可使用熟悉的Spark SQL语法轻松访问GaussDB(for Redis),完成特征数据灌库、更新、提取等关键任务。

使用方法非常简单:

1)当需要读取Hash、List、Set结构到Spark RDD时,分别只用一行即可搞定:

2)而当推荐系统进行灌库或特征数据更新时,可以按如下方式轻松完成写入:

2. Flink-Redis-Connector

Flink这款计算引擎流行程度不亚于Spark,它同样有成熟的Redis连接方案。使用Flink提供的Connector或结合Jedis客户端,都可轻松完成Flink到Redis的读写操作。

以使用Flink统计单词频次的简单场景为例,数据源经过Flink加工后,便可轻松存入GaussDB(for Redis)中。

六、结语

大数据应用对核心数据的存储有着很高的要求,云数据库GaussDB(for Redis)拥有存算分离的云原生架构,在完全兼容Redis协议的基础上,同时做到了稳定性、可靠性的全面领先。面对海量核心数据存储,它还能为企业带来相当可观的成本节约。面向未来,GaussDB(for Redis)极有潜力成为下一个大数据浪潮的新星。

七、附录

本文作者:华为云数据库GuassDB(for Redis)团队

杭州/西安/深圳简历投递:yuwenlong4@huawei.com

GuassDB(for Redis)产品主页:https://www.huaweicloud.com/product/gaussdbforredis.html

更多技术文章,关注高斯Redis官方博客:https://bbs.huaweicloud.com/community/usersnew/id_1614151726110813

点击关注,第一时间了解华为云新鲜技术~

华为云PB级数据库GaussDB(for Redis)揭秘第13期:如何搞定推荐系统存储难题的更多相关文章

  1. 华为云PB级数据库GaussDB(for Redis)揭秘第八期:用高斯 Redis 进行计数

    摘要:高斯Redis,计数的最佳选择! 一.背景 当我们打开手机刷微博时,就要开始和各种各样的计数器打交道了.我们注册一个帐号后,微博就会给我们记录一组数据:关注数.粉丝数.动态数-:我们刷帖时,关注 ...

  2. 华为云PB级数据库GaussDB(for Redis)揭秘第七期:高斯Redis与强一致

    摘要:在KV数据库领域,"强一致性"不仅是一个技术名词,它更是业务与运维的重要需求. 清明刚过,五一假期就要来了.大好春光,不如去婺源看油菜花吧!小云迅速打开APP刷出余票2张,赶 ...

  3. 华为云数据库GaussDB(for Cassandra)揭秘第二期:内存异常增长的排查经历

    摘要:华为云数据库GaussDB(for Cassandra) 是一款基于计算存储分离架构,兼容Cassandra生态的云原生NoSQL数据库:它依靠共享存储池实现了强一致,保证数据的安全可靠. 本文 ...

  4. 华为云企业级Redis揭秘第16期:超越开源Redis的ACID"真"事务

    摘要: 开源Redis只支持伪事务,应用场景受限.高斯Redis发布企业级事务特性,支持完备ACID,为交易.库存等上层业务带来全新可能. 本文分享自华为云社区<华为云企业级Redis揭秘第16 ...

  5. 华为云企业级Redis评测第一期:稳定性与扩容表现

    摘要:采用Redis Labs推出的多线程压测工具memtier_benchmark对比测试下GaussDB(for Redis) 和原生Redis的特性差异. 本文分享自华为云社区<华为云企业 ...

  6. 即时通讯系统为什么选择GaussDB(for Redis)?

    摘要:如果你需要一款稳定可靠的高性能企业级KV数据库,不妨试试GaussDB(for Redis). 每当网络上爆出热点新闻,混迹于各个社交媒体的小伙伴们全都开启了讨论模式.一条消息的产生是如何在群聊 ...

  7. 揭秘GaussDB(for Redis):全面对比Codis

    摘要:Codis集群在国内Redis生态圈很流行,社区已停止维护.本文从架构和特性两方面对比,带你感受华为云GaussDB(for Redis)的全新价值. 本文分享自华为云社区<华为云Gaus ...

  8. 升级的华为云“GaussDB”还能战否?

    摘要:芯片.操作系统.数据库是现代信息技术领域的三大核心基础,做数据库,不仅需要技术和投入,对华为这种做通讯起家的企业,更需要的是一种并非玩票性质的态度. GaussDB,不仅蕴含着华为对数学和科学的 ...

  9. 揭秘华为云GaussDB(for Influx)最佳实践:hint查询

    摘要:GaussDB(for Influx)通过提供hint功能,在单时间线的查询场景下,性能有大幅度的提升,能有效满足客户某些特定场景的查询需求. 本文分享自华为云社区<华为云GaussDB( ...

  10. 一文带你读懂!华为云在ACMUG技术沙龙上都透露了些啥?

    摘要:近日,华为云数据库业务总裁苏光牛在ACMUG中国MySQL用户组主办的 "华为云专场" 技术沙龙中分享了华为云数据库重磅新品GaussDB的核心能力与竞争优势.那么, Gau ...

随机推荐

  1. 虹科分享 | 一起聊聊Redis企业版数据库与【微服务误解】那些事儿!

    如今,关于微服务依然存在许多误解,企业盲目追求这种炫酷技术并不可取.同时,这种盲目行为对于希望用微服务来有效解决问题的公司很不利.不是说任何特定的技术都是缺乏实际价值的,如微服务.Kubernetes ...

  2. P5445 [APIO2019] 路灯 题解

    题目链接 题目描述 给你一个 01 串,有 \(q\) 个时刻,每个时刻要么把一位取反,要么问你在过去的所有时刻中有多少个时刻 \(a\) 和 \(b-1\) 之间都为 1. 题目分析 观察题目,我们 ...

  3. 八个SVN提交的好习惯(转)

    一.提交之前先更新 1.         SVN更新的原则是要随时更新,随时提交.当完成了一个小功能,能够通过编译并且自己测试之后,谨慎地提交. 2.         如果在修改的期间别人也更改了sv ...

  4. 简述几个我们对Redis 7开源社区所做的贡献

    Redis 7 已经于2022年4月28号正式发布,其中包括了将近50个新的命令,增加了许多新的特性,并且在整个Redis 6到Redis 7的开发过程中,我也对Redis 的开源社区贡献了一些微薄的 ...

  5. 深入了解PBKDF2加密技术:原理与实践

    摘要:本文详细介绍了PBKDF2(Password-Based Key Derivation Function 2)加密技术,包括其原理.算法流程和实际应用,旨在帮助读者更好地理解这一重要的加密方法. ...

  6. iNeuOS工业互联网操作系统,高效采集数据配置与应用

    1. 概述 2. 通讯原理 3. 参数配置  1.   概述 某生产企业世界500强的集团能源管控平台项目建设,通过专线网络实现异地厂区数据集成,每个终端能源仪表都有IP地址,总共有1000多台能源表 ...

  7. 校园社团活动管理系统(适合小白)基础javaweb前端项目实战【包含增删改查,mysql】一

    校园社团活动管理系统(20分) 1.项目需求: 校园社团作为高校课外活动的重要组成部分,发展十分迅速,也受到越来越多学生的欢迎,社团规模.数量等都在日益增长,社团活动也更为多样和丰富.然而,大多数高校 ...

  8. 有什么巨好用Excel数据分析技巧?

    当涉及Excel数据分析时,以下是一些非常实用的技巧和功能,供您参考.这里将为您提供关于数据整理.数据清洗.统计分析.可视化和高级分析等方面的技巧. 一.数据整理与清洗: 导入数据:使用 Excel ...

  9. 记一次逆向分析解密还原Class文件

    前言 前阵子我的一位朋友发来一份代码让我帮忙看看.具体就是所有的jsp文件内容和大小都一样,漏洞挖掘无从下手.经过分析发现所有的Class都使用了自定义的加密工具加密,经过逆向分析,顺利解密,因而有了 ...

  10. Head First Java学习:第九章-构造器和垃圾收集器

    对象的前世今生 对象如何创建.存在何处以及如何让保存和抛弃更有效率. 会述及堆.栈.范围.构造器.超级构造器.空引用等. 1.内存的两个区域:堆和栈 堆(heap):对象的生存空间,又称为可垃圾回收的 ...