Understanding the Characteristics of Internet Short Video Sharing: YouTube as a Case Study

视频的种类

该研究从2007年2月22号开始抓取了五天的小视频。包括最新推荐、最多观看、排名最高、讨论最多的视频。对于一个视频会抓取与之相连接的其他相关视频(以及与相关视频相连接的视频等,一共抓了6层数据)

在12个大门类中间发现数量最多的是音乐类,占了22.9%,其次是娱乐类,17.8%,第三是喜剧类,是12.1%。

以下是各门类视频的数量

小视频的时长有三个峰

因为YouTube刚开始限制了非会员能上传视频的长度,所以97.8%的长度是小于600秒的。

但是可以看到存在如下图的一个趋势,视频存在三个长度类型

第一个高峰是1分钟左右的视频,量是20%;

第二多的是3~4分钟之内的视频,占了16.7%(这部分主要是音乐视频);

第三高峰是10分钟左右的,这是因为很多长视频被截成了几个短视频而被上传。

娱乐类节目的时长分布跟大盘是一致的;但是喜剧和体育类的都是长度在2分钟以内

三个峰值的分布

视频的排名

发现视频的排名和它的观众数并不遵守齐夫定律

齐夫定律是一个跟排序有关的经验法则,如果一个视频排名升高一个名次,所增加的观众数是成倍增加的。

比如他表示的是一篇长文章中,最频繁出现的单词的出现次数跟它在所有单词中排名的关系。比如英文中,the,of,and是排名前三的最常见的英文单词,the出现的频率为7%的时候,他就是排名第二位的of出现频率(3.5%左右)的2倍,排名第二位的of又是排名第四位的单词的2倍。总之,就类似二八定律,看得人越多的视频的观看数量是排名不如他的视频的2倍以上

Youtube的视频排名分布是会有一个断尾效应的,也就是说即便是排名很低的视频,它也可能具有一定的观众数(Weibull或Gamma分布的拟合更好)

单个视频的观看数的增长趋势可以用幂定律拟合出来

一个视频是有其生命周期的,只有很少一部分视频才会有很高的观看数。

假设一个视频的增长趋势是稳定的,那么他的增长趋势因子p=1,增长趋势越来越强的话p>1,越弱的话p<1

如下图就会发现,增长因子低(横轴上小于1)的视频是占了所有视频的70%的。

大量的视频的生命周期很短,他们会在一个很短的期间内被大量观看,然后就很少会有人去看了

可以设定一个值t(生命周期因子),如果某个视频在某个礼拜的收视数比前一个礼拜收视数的增长量要低于t这个值,那么就宣告该视频生命周期结束。

也就是说一个视频逐渐没人看了,新增的观众越来越少,如果这个新增观众数小到一定程度的时候,就可以把它下架了。

假设说我们把t设置为10%,即后一个礼拜的收视数量的增长仅仅是前一个礼拜的10%。可以用帕累托分布得到下面的拟合。纵轴表示每个视频(点)集中观看的次数?

youtube上视频之间的关系是符合小世界理论的

类似于六度分离(现在实际上平均只需要4点几个人)

如果一组视频之间的联系很紧密,那么看完一组视频中的一个视频之后有非常大的可能性去看另一个

所以可以由此改善观感,即看了某个视频的时候,就可以让浏览器缓存同类中的其他视频了,以供随后的观看

2007年对Youtube小视频的分析文章的更多相关文章

  1. 3.5星|《刷屏:视频时代的风传法则》:YouTube热门视频回顾与分析

    刷屏:视频时代的疯传法则 作者2010年加入YouTube.本书是作者对YouTube上的热门视频的回顾与分析.第2-9章各讲一个类别的热门视频:恶搞.混音.网络歌曲.广告.现场目击.知识与科技.小众 ...

  2. 如何下载火山小视频-附火山小视频下载youtube视频下载网站

    火山小视频下载方法: 1. 打开火山小视频APP 2. 点开某个视频,点击右下角分享按钮,在分享弹框中点击复制链接,或者通过分享到微信QQ等获取视频链接 3. 打开在线免费的火山小视频解析下载工具 h ...

  3. [iOS]手把手教你实现微信小视频

    本文个人原创,转载请注明出处,谢谢. 前段时间项目要求需要在聊天模块中加入类似微信的小视频功能,这边博客主要是为了总结遇到的问题和解决方法,希望能够对有同样需求的朋友有所帮助. 效果预览: 这里先罗列 ...

  4. 没有内涵段子可以刷了,利用Python爬取段友之家贴吧图片和小视频(含源码)

    由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...

  5. 2019js面试题前端必问点小视频

    其实市面上的面试题有很多,但是大部分都是总结的blog居多,有时候说明一个事物也许口述几分钟就可以搞定,但是看帖子可能要分析半天 所以我就出一部分前端js必考的小视频,不管我们什么时候面试基本都绕不过 ...

  6. iOS微信小视频优化心得

    小视频是微信6.0版本重大功能之一,在开发过程中遇到不少问题.本文先叙述小视频的产品需求,介绍了几个实现方案,分析每个方案的优缺点,最后总结出最优的解决方案. 小视频播放需求 可以同时播放多个视频 用 ...

  7. EasySwoole+ElasticSearch打造 高性能 小视频服务系统

    EasySwoole+ElasticSearch打造高性能小视频服务 第1章 课程概述 第2章 EasySwoole框架快速上手 第3章 性能测试 第4章 玩转高性能消息队列服务 第5章 小视频服务平 ...

  8. 头条小视频和西瓜视频signature签名算法

    点击上方↑↑↑蓝字[协议分析与还原]关注我们 "分析今日头条内小视频和西瓜视频分享后浏览器打开所用的signature签名算法." 上月写的一篇关于使用微信的wxid加好友的文章, ...

  9. 爬虫---爬取b站小视频

    前面通过python爬虫爬取过图片,文字,今天我们一起爬取下b站的小视频,其实呢,测试过程中需要用到视频文件,找了几个网站下载,都需要会员什么的,直接写一篇爬虫爬取视频~~~ 分析b站小视频 1.进入 ...

  10. Python爬取抖音高颜值小视频

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 有趣的python PS:如有需要Python学习资料的小伙伴可以加 ...

随机推荐

  1. DNS与CDN技术

    参考链接: CDN原理简单介绍 浅析:DNS解析和CDN加速 DNS报文格式解析

  2. React: husky > pre-push hook failed (add --no-verify to bypass)

    解决方案 提交commit和推送代码时都加上--no-verify参数,然他跳过检查 提交 推送

  3. CF1601 题解

    偶然看这一场的题目,忽然很有感觉,于是写了一下 A 题面 考虑每一位可以单独分开考虑 考虑单独的一位,每次要选 \(m\) 个位置,可能产生贡献的位置就是这位为 1 的数,设数量为 \(x\),则 \ ...

  4. 云原生可观测框架 OpenTelemetry 基础知识(架构/分布式追踪/指标/日志/采样/收集器)

    什么是 OpenTelemetry? OpenTelemetry 是一个开源的可观测性框架,由云原生基金会(CNCF)托管.它是 OpenCensus 和 OpenTracing 项目的合并.旨在为所 ...

  5. IDA的使用-1

    IDA的使用-1 主要收集我自己需要掌握的或者以前不知道的 开始界面 重载文件 在我们逆向过程中被文件修改过,这个时候需要我们重载一下,比如说开发过程中加点代码之类的 下面是加载额外文件,这个文件和我 ...

  6. 深入了解Elasticsearch搜索引擎篇:倒排索引、架构设计与优化策略

    什么是倒排索引?有什么好处? 倒排索引是一种用于快速检索的数据结构,常用于搜索引擎和数据库中.与传统的正排索引不同,倒排索引是根据关键词来建立索引,而不是根据文档ID. 倒排索引的建立过程如下:首先, ...

  7. ceph分布式存储软件pgs inconsistent

    Ceph是一个开源的分布式存储系统,它提供了高性能.高可靠性以及高扩展性.Ceph的设计理念是基于对象存储模型,通过将数据分割成多个对象并存储在不同的节点上,实现数据的分布式存储和访问. Ceph的核 ...

  8. Pandas 使用教程 CSV

    CSV(Comma-Separated Values,逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本). CSV 是一种通用的.相对简单的文 ...

  9. 聊聊HuggingFace如何处理大模型下海量数据集

    翻译自: Big data? Datasets to the rescue! 如今,使用大GB的数据集并不罕见,特别是从头开始预训练像BERT或GPT-2这样的Tranformer模型.在这样的情况下 ...

  10. crypto 加解密库简介与测试【GO 常用的库】

    〇.前言 GO 语言的标准库 crypto 提供了一组用于加密和解密的包,包括对称加密.哈希函数.数字签名.随机数生成等功能.在日常开发中,通过使用这些库,可以确保数据的安全性和完整性. 对于使用频率 ...