文章目录

    4 UGC推荐
        4.1 基于用户UGC标签进行推荐
            4.1.1 最简单的算法(SimpleTagBased)
            4.1.2 利用TF-IDF进行改进(TagBasedTFIDF和TagBasedTFIDF++)
            4.1.3 标签扩充改进
            4.1.4 基于图的推荐
        4.2 给用户推荐标签
            4.2.1 基于统计的方法
            4.2.2 基于图的标签推荐

4 UGC推荐

用户的标签行为数据集一般由(u, i, b)三元组组成,表示用户u给物品i打上了标签b的行为。
4.1 基于用户UGC标签进行推荐

4.1.1 最简单的算法(SimpleTagBased)

在拿到用户标签行为数据之后,一个最容易想到的方法就是:

    统计每个用户最常用的标签
    对于每个标签,统计被打过这个标签次数最多的物品
    对于每个用户,首先找到他常用的标签,然后找到具有这些标签的最热门物品进行推荐

用公式表示用户u对物品i的兴趣为,其中,nu,b
nu,b​是用户u打过标签b的次数,nb,i

nb,i​是物品i被打过标签b的次数。

p(u,i)=∑bnu,bnb,i

p(u,i)=b∑​nu,b​nb,i​
4.1.2 利用TF-IDF进行改进(TagBasedTFIDF和TagBasedTFIDF++)

上面的公式倾向于给热门标签对应的热门物品很大的权重,从而不能反映用户个性化的兴趣,因此可以借鉴TF-IDF思想,对上述公式进行改进(TagBasedTFIDF):

p(u,i)=∑bnu,blog(1+n(u)b)nb,i

p(u,i)=b∑​log(1+nb(u)​)nu,b​​nb,i​

其中n(u)b

nb(u)​记录了标签b被多少个不同的用户使用过。

可见这个公式是对热门标签进行惩罚,当然对于热门物品也可以进行同样的惩罚(TagBasedTFIDF++):

p(u,i)=∑bnu,blog(1+n(u)b)nb,ilog(1+n(u)i)

p(u,i)=b∑​log(1+nb(u)​)nu,b​​log(1+ni(u)​)nb,i​​

其中n(u)i

ni(u)​记录了物品i被多少个不同的用户打过标签
4.1.3 标签扩充改进

前面的算法中,用户兴趣和物品的联系是通过B(u)⋂B(i)

B(u)⋂B(i)中的标签建立的。但对于新用户或新物品,这个集合中的标签数量会很少,因此可以考虑对标签集合进行扩展。

一种简单的扩充方法是基于邻域的做法,即通过计算标签之间的相似度进行扩充。对于标签的相似度计算可以从数据中统计,当两个标签同时出现在很多物品的标签集合中时,就可以认为它们具有较大的相似度。

对于标签b,令N(b)
N(b)为有标签b的物品的集合,nb,i

nb,i​为给物品i打上标签b的用户数,可以用如下的余弦相似度计算标签b和标签b’的相似度:

sim(b,b′)=∑i∈N(b)⋂N(b′)nb,inb′,i∑i∈N(b)n2b,i∑i∈N(b′)n2b′,i√
sim(b,b′)=∑i∈N(b)​nb,i2​∑i∈N(b′)​nb′,i2​

​∑i∈N(b)⋂N(b′)​nb,i​nb′,i​​

后续就可以根据这种标签的相似度进行聚合排序,而后作为用户新的标签集合。
4.1.4 基于图的推荐

相比较于协同过滤算法中提到的(User, Item)二元组,这里的数据是(User, Item, Tag)三元组,因此也可以构建成如下的图:

其中ABC表示用户,abc表示物品,123表示标签。在建立了这种图之后,就可以用协同过滤部分提到的PersonalRank算法进行随机游走计算了。

而对于前面的简单算法来说,用户对物品的兴趣公式为:

P(i∣u)=∑bP(i∣b)P(b∣u)

P(i∣u)=b∑​P(i∣b)P(b∣u)

其实这个可以用简化的图模型来建模,即SimpleTagGraph,如下图所示,它将前面的三条边(User,Item),(Item, Tag),(User, Tag)改成了两条边,去掉了(User, Item)边,并且改为了有向图。

这时用PersonalRank算法, 设K=1

K=1,就等价于前面提到的简单推荐算法SimpleTagBased。
4.2 给用户推荐标签

给用户推荐标签的好处在于:1)方便用户输入;2)提升标签质量
4.2.1 基于统计的方法

当用户u给物品i打标签时,有如下4种方法给用户推荐和物品i相关的标签:

    PopularTags:给用户u推荐整个系统里面最热门的标签
    ItemPopularTags:给用户u推荐物品i上面被打的最热门标签
    UserPopularTags:给用户u推荐他自己经常打的标签
    HybridPopularTags:线性加权融合方式2、3,对两个列表进行线性相加之前,需要对其按照各自的最大值进行归一化

4.2.2 基于图的标签推荐

在根据用户打标签的行为生成图之后(4.1.4),同样可以利用PersonalRank方法进行排名。这次的问题是,当用户u遇到物品i时,会给物品i打什么样的标签。因此,需要重新定义顶点的启动概率:

PR⎛⎝⎜v⎞⎠⎟=rv(k)=⎧⎩⎨⎪⎪α1−α0v(k)==v(u)v(k)==v(i)other

PR(v)=rv(k)​=⎩⎨⎧​α1−α0​v(k)==v(u)v(k)==v(i)other​

也就是说,只有用户u和物品i对应的顶点有非0的启动概率,而其他顶点的启动概率都为0。在上面的定义中,v(u)
v(u)和v(i)v(i)的启动概率并不相同,v(u)v(u)的启动概率是αα,而v(i)v(i)的启动概率是1−α1−α。参数αα可以通过离线实验选择。

UGC的更多相关文章

  1. 解读2015年互联网UGC内容发展态势,安全事件频发

    <2015内容安全年报> 阿里移动安全 第一章 2015年内容安全形势 随着互联网业务的迅速发展,互联网上的信息内容带来了爆炸式的增长.由于缺乏对网络活动进行有效监督和管理的措施,致使互联 ...

  2. 一文读懂UGC:互联网上的生态秘密

    转载自近乎: UGC(User- Generated Content)用户原创生产内容,它是相对于PGC(Professionally-produced Content)专业生产内容的一种内容来源,简 ...

  3. 门户级UGC系统的技术进化路线——新浪新闻评论系统的架构演进和经验总结(转)

    add by zhj:先收藏了 摘要:评论系统是所有门户网站的核心标准服务组件之一.本文作者曾负责新浪网评论系统多年,这套系统不仅服务于门户新闻业务,还包括调查.投票等产品,经历了从单机到多机再到集群 ...

  4. 关于ugc的一点思考

    ugc会使互联网繁荣,但依赖大众用户创造的内容质量上会存在参差不齐,这是ugc本身存在的问题. 就拿技术论坛或社区来说,好的内容不少,但质量不好的内容也很多.社区在引导用户发言的同时,也应 对用户创造 ...

  5. 门户级UGC系统的技术进化路线 [转]

    原文链接   :http://weibo.com/p/1001603789147444803230 新闻门户网站的评论系统,或者称为跟帖.留言板,是所有门户网站的核心标准服务组件之一.与论坛.博客等其 ...

  6. 【总结整理】UGC内容

    除了内容了产品,还有什么适合引入UGC? :引发讨论,诱导参与,然后促成销售. User Generated Content,也就是用户生成内容的意思. 购买类产品,内容催生购买 1.为用户购买提供思 ...

  7. 大中型 UGC 平台的反垃圾(anti-spam)工作

    本文来自网易云社区 随着互联网技术的日渐发展,相继诞生了垂直社区.社交平台.短视频应用.网络直播等越来越多样的产品.但在内容爆炸式增长的同时,海量UGC中也夹杂着各种违规垃圾信息,包括垃圾广告.诈骗信 ...

  8. 对话 CTO〡用声音在一起,听荔枝 CTO 丁宁聊 UGC 声音互动平台的技术世界 原创 王颖奇 极客公园 2018-12-01

    https://mp.weixin.qq.com/s/jfHFXZpzbAEbHKkCMSev6w 对话 CTO〡用声音在一起,听荔枝 CTO 丁宁聊 UGC 声音互动平台的技术世界 原创 王颖奇 极 ...

  9. ugc pgc ogc web2.0 mgc

    http://yjy.people.com.cn/n/2014/0120/c245079-24169402.html machine

随机推荐

  1. Linux系统编程—管道

    ▋****1. 管道的概念 管道,又名「无名管理」,或「匿名管道」,管道是一种非常基本,也是使用非常频繁的IPC方式. 1.1 管道本质 管道的本质也是一种文件,不过是伪文件,实际上是一块内核缓冲区, ...

  2. 执行新增和修改操作报错connection is read-only. Queries leading to data modification are not allowed

    出现这个问题的原因是默认事务只有只读权限,因此要添加下面的每一个add*,del*,update*等等. 分别给予访问数据库的权限. 方法名的前缀有该关键字设置了read-only=true,将其改为 ...

  3. API可视化管理平台YApi

    Yapi是什么 YApi 是高效.易用.功能强大的 api 管理平台,旨在为开发.产品.测试人员提供更优雅的接口管理服务.可以帮助开发者轻松创建.发布.维护 API,YApi 还为用户提供了优秀的交互 ...

  4. JMeter实战(一) 体系结构

    此为开篇,介绍JMeter的组成结构,阅读后对JMeter形成整体认知和初步印象. 为了便于后续讲解,先明确下2个术语. 元件:如HTTP请求.事务控制器.响应断言,就是一个元件. 组件:如逻辑控制器 ...

  5. 如何免费安装正版Adobe

    现在正版的Adobe都非常的贵,如果你想不花钱又想下载正版的Adobe,那么就请花几分钟时间学习以下本篇博客,告诉你如何免费下载正版Adobe! [一定要读完,不要看到一半就以为教您下载的是付费版] ...

  6. 【开源】Springboot API 一键生成器

    Springboot API 一键生成器 写这个项目,最大的想法就是:不做CRUD 程序猿 Springboot 在我们平时开发项目当中,是如此的常用.然而,比如平时我们写的一些: XX 管理系统 X ...

  7. Python+Appium自动化测试(4)-使用weditor进行元素定位

    一,weditor的安装与使用 首选需要在电脑上配置好Python环境 下载安装命令如下,加上镜像下载速度更快: pip install weditor -i https://pypi.tuna.ts ...

  8. linux块设备驱动---相关结构体(转)

    上回最后面介绍了相关数据结构,下面再详细介绍 块设备对象结构 block_device 内核用结构block_device实例代表一个块设备对象,如:整个硬盘或特定分区.如果该结构代表一个分区,则其成 ...

  9. MeteoInfoLab脚本示例:多坐标系

    绘图的时候首先要有坐标系(Axes),可以用axes命令创建,如果没有创建在绘图时会自动创建一个.参数里的position是用来置顶坐标系的图形(figure)中的位置的,通过位置置顶,可以将多个坐标 ...

  10. 自定义常用input表单元素三:纯css实现自定义Switch开关按钮

    自定义常用input表单元素的第三篇,自定义一个Switch开关,表面上看是和input没关系,其实这里采用的是checkbox的checked值的切换.同样,采用css伪类和"+" ...