UGC

文章目录

    4 UGC推荐
        4.1 基于用户UGC标签进行推荐
            4.1.1 最简单的算法（SimpleTagBased）
            4.1.2 利用TF-IDF进行改进（TagBasedTFIDF和TagBasedTFIDF++）
            4.1.3 标签扩充改进
            4.1.4 基于图的推荐
        4.2 给用户推荐标签
            4.2.1 基于统计的方法
            4.2.2 基于图的标签推荐

4 UGC推荐

用户的标签行为数据集一般由(u, i, b)三元组组成，表示用户u给物品i打上了标签b的行为。
4.1 基于用户UGC标签进行推荐

4.1.1 最简单的算法（SimpleTagBased）

在拿到用户标签行为数据之后，一个最容易想到的方法就是：

    统计每个用户最常用的标签
    对于每个标签，统计被打过这个标签次数最多的物品
    对于每个用户，首先找到他常用的标签，然后找到具有这些标签的最热门物品进行推荐

用公式表示用户u对物品i的兴趣为，其中，nu,b
nu,b是用户u打过标签b的次数，nb,i

nb,i是物品i被打过标签b的次数。

p(u,i)=∑bnu,bnb,i

p(u,i)=b∑nu,bnb,i
4.1.2 利用TF-IDF进行改进（TagBasedTFIDF和TagBasedTFIDF++）

上面的公式倾向于给热门标签对应的热门物品很大的权重，从而不能反映用户个性化的兴趣，因此可以借鉴TF-IDF思想，对上述公式进行改进（TagBasedTFIDF）：

p(u,i)=∑bnu,blog(1+n(u)b)nb,i

p(u,i)=b∑log(1+nb(u))nu,bnb,i

其中n(u)b

nb(u)记录了标签b被多少个不同的用户使用过。

可见这个公式是对热门标签进行惩罚，当然对于热门物品也可以进行同样的惩罚（TagBasedTFIDF++）：

p(u,i)=∑bnu,blog(1+n(u)b)nb,ilog(1+n(u)i)

p(u,i)=b∑log(1+nb(u))nu,blog(1+ni(u))nb,i

其中n(u)i

ni(u)记录了物品i被多少个不同的用户打过标签
4.1.3 标签扩充改进

前面的算法中，用户兴趣和物品的联系是通过B(u)⋂B(i)

B(u)⋂B(i)中的标签建立的。但对于新用户或新物品，这个集合中的标签数量会很少，因此可以考虑对标签集合进行扩展。

一种简单的扩充方法是基于邻域的做法，即通过计算标签之间的相似度进行扩充。对于标签的相似度计算可以从数据中统计，当两个标签同时出现在很多物品的标签集合中时，就可以认为它们具有较大的相似度。

对于标签b，令N(b)
N(b)为有标签b的物品的集合，nb,i

nb,i为给物品i打上标签b的用户数，可以用如下的余弦相似度计算标签b和标签b’的相似度：

sim(b,b′)=∑i∈N(b)⋂N(b′)nb,inb′,i∑i∈N(b)n2b,i∑i∈N(b′)n2b′,i√
sim(b,b′)=∑i∈N(b)nb,i2∑i∈N(b′)nb′,i2

∑i∈N(b)⋂N(b′)nb,inb′,i

后续就可以根据这种标签的相似度进行聚合排序，而后作为用户新的标签集合。
4.1.4 基于图的推荐

相比较于协同过滤算法中提到的(User, Item)二元组，这里的数据是(User, Item, Tag)三元组，因此也可以构建成如下的图：

其中ABC表示用户，abc表示物品，123表示标签。在建立了这种图之后，就可以用协同过滤部分提到的PersonalRank算法进行随机游走计算了。

而对于前面的简单算法来说，用户对物品的兴趣公式为：

P(i∣u)=∑bP(i∣b)P(b∣u)

P(i∣u)=b∑P(i∣b)P(b∣u)

其实这个可以用简化的图模型来建模，即SimpleTagGraph，如下图所示，它将前面的三条边(User,Item)，(Item, Tag)，(User, Tag)改成了两条边，去掉了(User, Item)边，并且改为了有向图。

这时用PersonalRank算法，设K=1

K=1，就等价于前面提到的简单推荐算法SimpleTagBased。
4.2 给用户推荐标签

给用户推荐标签的好处在于：1）方便用户输入；2）提升标签质量
4.2.1 基于统计的方法

当用户u给物品i打标签时，有如下4种方法给用户推荐和物品i相关的标签：

    PopularTags：给用户u推荐整个系统里面最热门的标签
    ItemPopularTags：给用户u推荐物品i上面被打的最热门标签
    UserPopularTags：给用户u推荐他自己经常打的标签
    HybridPopularTags：线性加权融合方式2、3，对两个列表进行线性相加之前，需要对其按照各自的最大值进行归一化

4.2.2 基于图的标签推荐

在根据用户打标签的行为生成图之后（4.1.4），同样可以利用PersonalRank方法进行排名。这次的问题是，当用户u遇到物品i时，会给物品i打什么样的标签。因此，需要重新定义顶点的启动概率：

PR⎛⎝⎜v⎞⎠⎟=rv(k)=⎧⎩⎨⎪⎪α1−α0v(k)==v(u)v(k)==v(i)other

PR(v)=rv(k)=⎩⎨⎧α1−α0v(k)==v(u)v(k)==v(i)other

也就是说，只有用户u和物品i对应的顶点有非0的启动概率，而其他顶点的启动概率都为0。在上面的定义中，v(u)
v(u)和v(i)v(i)的启动概率并不相同，v(u)v(u)的启动概率是αα，而v(i)v(i)的启动概率是1−α1−α。参数αα可以通过离线实验选择。

UGC的更多相关文章

解读2015年互联网UGC内容发展态势，安全事件频发
<2015内容安全年报> 阿里移动安全第一章 2015年内容安全形势随着互联网业务的迅速发展,互联网上的信息内容带来了爆炸式的增长.由于缺乏对网络活动进行有效监督和管理的措施,致使互联 ...
一文读懂UGC：互联网上的生态秘密
转载自近乎: UGC(User- Generated Content)用户原创生产内容,它是相对于PGC(Professionally-produced Content)专业生产内容的一种内容来源,简 ...
门户级UGC系统的技术进化路线——新浪新闻评论系统的架构演进和经验总结（转）
add by zhj:先收藏了摘要:评论系统是所有门户网站的核心标准服务组件之一.本文作者曾负责新浪网评论系统多年,这套系统不仅服务于门户新闻业务,还包括调查.投票等产品,经历了从单机到多机再到集群 ...
关于ugc的一点思考
ugc会使互联网繁荣,但依赖大众用户创造的内容质量上会存在参差不齐,这是ugc本身存在的问题. 就拿技术论坛或社区来说,好的内容不少,但质量不好的内容也很多.社区在引导用户发言的同时,也应对用户创造 ...
门户级UGC系统的技术进化路线 [转]
原文链接 :http://weibo.com/p/1001603789147444803230 新闻门户网站的评论系统,或者称为跟帖.留言板,是所有门户网站的核心标准服务组件之一.与论坛.博客等其 ...
【总结整理】UGC内容
除了内容了产品,还有什么适合引入UGC? :引发讨论,诱导参与,然后促成销售. User Generated Content,也就是用户生成内容的意思. 购买类产品,内容催生购买 1.为用户购买提供思 ...
大中型 UGC 平台的反垃圾（anti-spam）工作
本文来自网易云社区随着互联网技术的日渐发展,相继诞生了垂直社区.社交平台.短视频应用.网络直播等越来越多样的产品.但在内容爆炸式增长的同时,海量UGC中也夹杂着各种违规垃圾信息,包括垃圾广告.诈骗信 ...
对话 CTO〡用声音在一起，听荔枝 CTO 丁宁聊 UGC 声音互动平台的技术世界原创王颖奇极客公园 2018-12-01
https://mp.weixin.qq.com/s/jfHFXZpzbAEbHKkCMSev6w 对话 CTO〡用声音在一起,听荔枝 CTO 丁宁聊 UGC 声音互动平台的技术世界原创王颖奇极 ...
ugc pgc ogc web2.0 mgc
http://yjy.people.com.cn/n/2014/0120/c245079-24169402.html machine

随机推荐

Lane-Detection 近期车道线检测论文阅读总结
近期阅读的几篇关于车道线检测的论文总结. 1. 车道线检测任务需求分析 1.1 问题分析针对车道线检测任务,需要明确的问题包括: (1)如何对车道线建模,即用什么方式来表示车道线. 从应用的角度来说 ...
Sticks(UVA - 307)【DFS+剪枝】
Sticks(UVA - 307) 题目链接算法 DFS+剪枝 1.这道题题意就是说原本有一些等长的木棍,后来把它们切割,切割成一个个最长为50单位长度的小木棍,现在想让你把它们组合成一个个等长的大 ...
利用babel工具将es6语法转换成es5，Object.assign方法报错
一.新建工程初始化项目 1.新建工程文件夹这里起名叫做es6,然后在里面创建两个文件夹分别为src .dist如下图:(src为待转换es6 js存放目录,dist为编译完成后的es5 js存放目录) ...
实验四用PS制作横幅广告
实验四用PS制作横幅广告 [实验目的] ⑴.了解广告设计应用 ⑵.学会利用PS制作简单的横幅广告 [实验条件] ⑴.个人计算机一台 ⑵.个人计算机中预装Windows7操作系统和浏览器及Photo ...
16.深入k8s：Informer使用及其源码分析
转载请声明出处哦~,本篇文章发布于luozhiyun的博客:https://www.luozhiyun.com 由于这部分的代码是在client-go 中,所以使用的源码版本是client-go 1. ...
centos8环境判断当前操作系统是否虚拟机或容器
一,阿里云ECS的centos环境 1,执行systemd-detect-virt [root@yjweb ~]# systemd-detect-virt kvm 说明阿里云的ecs是在一个kvm环境 ...
doker基本使用
Docker与虚拟机的区别 docker和虚拟机最大的不同,docker共用宿主机的内核,虚拟机中每个虚拟机中有单独的内核虚拟出来,如上图所示: docker不能做后端兼容性测试,因为其没有独立的虚拟 ...
css选择器兄弟选择器相邻兄弟选择器子元素选择器
1.兄弟选择器: ~ 该选择器会选择当前元素之后的所有相邻指定元素(具有相同父元素的兄弟元素): .p ~ li{ color: blue; } <div> <p class=&qu ...
tamcat7.0(安装文件下载)
安装包:http://files.cnblogs.com/files/chenghu/apache-tomcat-7.0.27.rar http://files.cnblogs.com/files/c ...
如何在windows Server 2008虚拟机上安装SQLServer2008数据库
一.环境准备 1.cn_windows_server_2008_r2_standard_enterprise_datacenter_web_x64_dvd_x15-50360.iso 2.NDP452 ...

UGC

UGC的更多相关文章

随机推荐

热门专题