500行SQL快速实现UCF
写在前面话
UCF通常是User-base Collaborative Filter的简写;大体的算法思路是根据用户行为计算相似群体(邻居),为用户推荐其邻居喜好的内容;感觉是不是很简单、那废话不多说先撸个SQL。
SQL
select uid1,uid2,sim
from (
select uid1
,uid2
,cnt12 / sqrt(cnt1*cnt2) sim
,row_number() over(partition by uid1 order by cnt12 / sqrt(cnt1*cnt2) desc) sim_rn
from (
select a.uid uid1
,b.uid uid2
,count(a.iid) cnt12
from tb_behavior a
join tb_behavior b
on a.iid = b.iid
where a.uid <> b.uid
group by a.uid,b.uid
) a12
join (select uid,count(iid) cnt1 from tb_behavior group by uid) a1
on a12.uid1 = a1.uid
join (select uid,count(iid) cnt2 from tb_behavior group by uid) a2
on a12.uid1 = a2.uid
) tb_neighbour
where sim > 0.1 and sim_rn <= 30
读者实现的话只需要把上面的tb_behavior表替换成自己业务的用户行为即可;iid,uid分别对应物品id和用户id;
根据共现相似度,即共同喜好的物品个数比上各自喜好物品总数乘积取平方;最后截断用户最相似的前30个邻居作为推荐的依据。
上面构造了邻居表,下面就是根据邻居的喜好为用户推荐了,具体sql如下:
select uid1,iid
from (
select uid1
,iid
,max(sim) score
,row_number() over(partition by uid1 order by max(sim) desc) user_rn
from tb_neighbour a12
join (select uid,iid from tb_behavior) a2
on a12.uid2 = a2.uid
join (select uid,collect_set(iid) iids1 from tb_behavior group by uid) a1
on a12.uid1 = a1.uid
where not array_contaions(iids1,a2.iid)
group by uid1,iid
) tb_rec
where user_rn <= 500
这里说明下包括上面的top30邻居和用户top500的最大推荐列表都是工程优化,截断节约些存储;具体读者可以根据自己业务需要进行设置;
然后大概说下各个表的含义:a1表是用户已消费过的物品,a2表是用户每个邻居喜好的物品;那么也就是说从邻居喜好的物品中过滤掉已经消费的
物品整体根据共现相似度进行排序。
思考
但思路很简单、实际作者开发中总会遇到各种各样的问题,下面就捡几个主要的和大家一起讨论下:
- 1.join引起的数据倾斜问题:tb_neighbour表很大,往往热点物品会占据80%的曝光和消费记录,如何解决?
- 2.增量更新问题:上面的框架,tb_behavior表每次都是全量计算,是否能改造成增量更新邻居表和推荐结果,并减少计算时间呢?
join引起的数据倾斜问题
先思考问题1,既然我们目的是求相似邻居,物品join只是为了关联上一组用户对,那自然的想法是可以根据feed做近似采样、相似度精度也几乎无损失。
下面我试着实现下这种思路:
with tb_behavior_sample as (
select uid,iid
from (
select uid
,iid
,row_number() over(partition by iid order by rand()) feed_rn
from tb_behavior
) bh
where feed_rn <= 50000
)
select uid1,uid2,sim
from (
select uid1
,uid2
,cnt12 / sqrt(cnt1*cnt2) sim
,row_number() over(partition by uid1 order by cnt12 / sqrt(cnt1*cnt2) desc) sim_rn
from (
select a.uid uid1
,b.uid uid2
,count(a.iid) cnt12
from tb_behavior_sample a
join tb_behavior_sample b
on a.iid = b.iid
where a.uid <> b.uid
group by a.uid,b.uid
) a12
join (select uid,count(iid) cnt1 from tb_behavior group by uid) a1
on a12.uid1 = a1.uid
join (select uid,count(iid) cnt2 from tb_behavior group by uid) a2
on a12.uid1 = a2.uid
) tb_neighbour
where sim > 0.1 and sim_rn <= 30
这里用了hive的with as语法,读者可自行查阅,篇幅有限,就不展开了;feed_rn就是随机采样了50000条,实际操作时读者可以先统计下item的分布、大概找到一个阈值;
比如取top10的item的出现次数作为阈值;那计算相似度时分子最多减小10,分母不变。这对大多数情况精度应该足够了,而且因为避免了数据倾斜,大大降低了计算时间。
增量更新问题
问题2是一个工程问题,lambda架构能使初始结果效果不错,可直接上线灰度了;在此基础上再加小时或者天增量;kappa架构相对就比较繁琐、需要一开始就设计增量流程。
精度方面也需要一定的累积;不过如何选择,读者可以根据自己的数据量和熟悉程度自行选择;作者这里仅以kappa架构说明。
重新review上面sql,我们发现我们仅需要记录下cnt12,cnt1,cnt2,iids1这些计算关键即可,其中iids2是用户邻居喜好的物品数组;数值类型可累加更新、
数组类型合并起来比较麻烦,一种解决方案是注册UDF;这里采取另一种这种的方案:把iids1合并成字符串,过滤的时候再分割为字符串数组。
with tb_behavior_sample_incr as (
select uid,iid
from (
select uid
,iid
,row_number() over(partition by iid order by rand()) feed_rn
from tb_behavior_incr
) bh
where feed_rn <= 50000
)
insert overwrite table tb_neighbour
select uid1,uid2,sim
from (
select uid1
,uid2
,sum(cnt12) / sqrt(sum(cnt1)*sum(cnt2)) sim
,row_number() over(partition by uid1 order by sum(cnt12) / sqrt(sum(cnt1)*sum(cnt2)) desc) sim_rn
from (
select uid1,uid2,cnt12,cnt1,cnt2
from tb_neighbour
union all
select a.uid uid1
,b.uid uid2
,count(a.iid) cnt12
,cnt1
,cnt2
from tb_behavior_sample_incr a
join tb_behavior_sample_incr b
on a.iid = b.iid
where a.uid <> b.uid
group by a.uid,b.uid
) a12
join (select uid,count(iid) cnt1 from tb_behavior_incr group by uid) a1
on a12.uid1 = a1.uid
join (select uid,count(iid) cnt2 from tb_behavior_incr group by uid) a2
on a12.uid1 = a2.uid
group by uid1,uid2
) tb_neighbour
where sim > 0.1 and sim_rn <= 30
其中tb_behavior_sample_incr,tb_behavior_incr是相应tb_behavior_sample,tb_behavior的增量表;使用union all和group by聚合相同用户对的结果
kappa架构初次计算即是增量,不断累积每次增量的结果更新tb_neighbour;相当于lambda初始全量计算的一种回放,直至追到最新的时间分区。
insert overwrite table tb_user_consume
select uid,substring_index(concat_ws(",",collect_list(iids1)),",",10000) iids1
from (
select uid,concat_ws(",",collect_set(cast(iid as string))) iids1
from tb_behavior_incr
union all
select uid,iids1
from tb_user_consume
) a
group by uid
select uid1,iid
from (
select uid1
,iid
,max(sim) score
,row_number() over(partition by uid1 order by max(sim) desc) user_rn
from tb_neighbour a12
join (select uid,cast(iid as string) iid from tb_behavior_incr) a2
on a12.uid2 = a2.uid
join (select uid,split(iids1,",") iids1 from tb_user_consume) a1
on a12.uid1 = a1.uid
where not array_contaions(iids1,a2.iid)
group by uid1,iid
) tb_rec
where user_rn <= 500
使用tb_user_consume缓存用户最近消费的前10000条记录,将用户邻居最新喜好物品推荐给用户。
写在后面的话
呼!终于写完了;虽然说有了上面这一套操作,UCF推荐基本完成;但有没有更好的方式呢?我想应该就是embedding大法了吧;比如item2vec对用户聚类,根据聚类
推荐;再或者根据好友关系,推荐好友喜好的物品。前者表征更细致,值得一说的是其也有负采样策略和checkpoint增量更新;后者好友信任度更高,解释性更强。
500行SQL快速实现UCF的更多相关文章
- 使用C#+Linq+SQL快速开发业务
C#开发桌面程序的效率确实很高,今天就来总结下如何使用C#+Linq+SQL快速开发一个新的业务系统. Linq是微软官方的轻量级的ORM工具,使用它结合SQL可以快速的生成实体类,再通过Linq操作 ...
- 删除反复行SQL举例
删除反复行SQL实验简单举例 说明:实验按顺序进行.前后存在关联性.阅读时请注意.打开文件夹更便于查看. 构造实验环境: SQL> select count(*) from emp; COU ...
- 如何对于几百行SQL语句进行优化?
1.最近在开发中遇到的一些关于几百行SQL语句做查询的问题,需要如何的解决优化SQL这确实是个问题,对于当下的ORM 框架 EF 以及其他的一些的开源的框架例如Drapper ,以及Sqlite-Su ...
- 【转】Oracle中如何用一条SQL快速生成10万条测试数据
转自http://blog.csdn.net/welken/article/details/4971887 做数据库开发或管理的人经常要创建大量的测试数据,动不动就需要上万条,如果一条一条的录入, ...
- [500lines]500行代码写web server
项目地址:https://github.com/aosabook/500lines/tree/master/web-server.作者是来自Mozilla的Greg Wilson.项目是用py2写成. ...
- PreparedStatement執行sql語句
import java.sql.Connection; import java.sql.PreparedStatement; import java.sql.ResultSet; import org ...
- 使用批处理文件命令行方式快速启动和停止IIS、SqlServer
原文:使用批处理文件命令行方式快速启动和停止IIS.SqlServer 虽然现在内存便宜了,但是自己还是嫌自己的512M内存太小,没办法,后台运行的东西太多了,有很多都是有用的没法关闭的.IIS和SQ ...
- 用SQL快速删除U8账套
一.问题提出 通过"系统管理"来删除999账套,首先要求你备份然后才能删除.头痛的是: 1)备份需要发费很长的时间,特别是账套数据文件比较大时. 2)备份时,你的本本基本处于死机状 ...
- Spark2.x学习笔记:Spark SQL快速入门
Spark SQL快速入门 本地表 (1)准备数据 [root@node1 ~]# mkdir /tmp/data [root@node1 ~]# cat data/ml-1m/users.dat | ...
随机推荐
- 并发编程--锁--Lock和Synchronized
说说对于 synchronized 关键字的了解? synchronized关键字解决的是多个线程之间访问资源的同步性: synchronized 关键字可以保证被它修饰的方法或者代码块在任意时刻只能 ...
- Spring用了哪些设计模式?
设计模式是一套被反复使用的.多数人知晓的.经过分类编目的.代码设计经验的总结.总共有 23 种设计模式 使用设计模式是为了重用代码.让代码更容易被他人理解.保证代码可靠性. Spring用了哪些设计模 ...
- 入门Kubernetes -基础概念
一.Kubernetes概述 Kubernetes ,又称为 k8s(首字母为 k.首字母与尾字母之间有 8 个字符.尾字母为 s,所以简称 k8s)或者简称为 "kube" ,是 ...
- Flutter 基础组件:进度指示器
前言 Material 组件库中提供了两种进度指示器:LinearProgressIndicator和CircularProgressIndicator,它们都可以同时用于精确的进度指示和模糊的进度指 ...
- IPC 经典问题:Sleeping Barber Problem
完整代码实现: #include <stdio.h> #include <unistd.h> #include <time.h> #include <stdl ...
- Tengine 四层代理:
Tengine 四层代理: 1 ) 安装tengine ( nginx1.9 以上版本 编译以后要支持stream 模块) 1.1 ) tengine(nginx) 一定要是nginx-1.9.X 以 ...
- Java高并发与多线程(二)-----线程的实现方式
今天,我们开始Java高并发与多线程的第二篇,线程的实现方式. 通常来讲,线程有三种基础实现方式,一种是继承Thread类,一种是实现Runnable接口,还有一种是实现Callable接口,当然,如 ...
- XSS类型,防御及常见payload构造总结
什么是XSS? XSS全称是Cross Site Scripting即跨站脚本,当目标网站目标用户浏览器渲染HTML文档的过程中,出现了不被预期的脚本指令并执行时,XSS就发生了. 最直接的例子:&l ...
- Kubernetes CoreDNS 状态是 CrashLoopBackOff 报错
查看状态的时候,遇见coredns出现crashlookbackoff,首先我们来进行排错,不管是什么原因,查看coredns的详细信息,以及logs [root@k8s-master coredns ...
- Ice系列--强大如我IceGrid
前言 IceGrid是一个提供服务定位和服务激活的组件,但它的功能远不止于此.从它的命名可以看出它的设计理念-网格计算(grid computing).网格计算被定义为由一系列关联的廉价计算机组成的计 ...