这是一篇人物专访,源自LiveVideoStack与阿里云视频云负责人席明贤(花名右贤)的对话。面对风云变幻的内外环境,阿里云在视频云赛道是坚定向前的,右贤没有回避多媒体当下行业面临的困难以及业务面临的挑战,作为多媒体圈的新人,他用了很多时间调研了解市场和客户,他坚定地选择ToB作为突破口,他认为AI将把视频云升级到2.0,他说(允许团队)拿出更多的研发资源去做产品创新研究,投资技术不怕失败。

策划 撰写 / IMMENSE

ABCDE,到Video

想用英国诗人托马斯·艾略特的作品,来照亮一个人的开场。

1934年的《The Rock》,是DIKW模型的源头,它揭示了从数据到智慧的内蕴,恰好和右贤的经历颇有牵系。

他开门见山,说自己是个IT老兵,20多年都在“计算”这个圈子内。大学时期学习计算机技术,研究生方向是高性能计算和普适计算,工作先后从事云计算、大数据、数据库、人工智能、边缘计算的产品规划和技术开发,也负责过钉钉教育业务。

仔细端详,他的阅历横跨AI + Bigdata + Cloud Computing + Database&DingDing + Edge Computing,而近一年又踏足了视频云,是一个从ABCDE到V的机缘巧合,有些奇妙。

右贤是一个ToB老人,又是个视频云新人。

谈到作为新人,对当下的视频云怎么看,他用“非常新奇、大有可为”来形容。

简单说,新奇是源于当下的社会视频化蔓延之势,给生活、工作、乃至万物的加持,这一切给大众带来了很大的便利性。在他看来,视频必然会成为万物交互的新方式,人与人、人与物、物与物,因为内容、沟通都在极速视频化,我们从早睁眼到晚睡觉都在跟泛视频打交道,“视频+万物”将会孕育出大量的新鲜事物及应用,这足够让他新奇万分。

关于他的时空履历,有叠加的化学效应,“之前做的那些产品技术相对来说,是偏底层的;而视频云是技术应用解决方案,它是全链路的、与业务强相关的;同时,这些视频业务的底层需要云计算、数据库、人工智能等融合支撑。正因如此,我过往的经历恰好在视频云这个赛道大有可为。”右贤说。

可以想象右贤领队下的阿里云视频云会发生怎样的变化,多媒体行业的周期与这名老兵的时间线交织在了一起,命运是最好的安排,他的经验正是阿里云视频云需要的。

视频云2.0

回到现实轨道,与“大有可为”强对比的,可能是音视频旧人眼里的瓶颈。

国内多媒体生态经过了6到8年的快速发展,目前进入到调整或平稳期,在这样的背景下进入这个赛道,对行业老人来说一定是难题,对赛道新人或许是另一番新境。

于是,右贤看出了需要迭代变化的新视频云

依他的视角,如果说云赋予了视频,带来了视频云的1.0,去迎面消费互联网的全面爆发,那如今是AI赋予了视频云,带来了视频云2.0,去解决行业数智化的全新升级。

的确,这揭示了视频云的本质,从1.0到2.0,不知不觉,视频云的本质发生了变化。

右贤解释到,“在视频云1.0时代,视频应用主要集中在消费互联网领域,主要解决成本和体验问题,即B端的音视频企业成本和C端的用户体验。随着AI算力和大模型兴起,在视频云2.0时代,视频应用转向产业互联网领域,去解决各行各业场景化视频智能应用的问题,即视频如何支持行业数智化升级。视频云正在从1.0向2.0过渡。

视频云2.0,这大概是一个赛道的新生命、新契机。

在对话中,能够感受到右贤对视频云的信心,“视频云2.0的价值在于通过基础大模型和场景小模型,来助力行业的数智化。就此,阿里云视频云拥有三大关键能力:第一是规模能力,经过视频云1.0的蓬勃发展,阿里云成为全球和国内规模最大的视频云基础设施服务商之一,能提供高质量、高性价比的视频服务;第二是智能能力,基于阿里云通义大模型,可以向客户提供横贯媒资生产、处理、传输、消费全链路的产品智能化升级;第三是场景化服务能力,基于多年的丰富行业实践,可以向客户提供高易用、高性能的视频终端服务套件,全面降低客户使用门槛。同时,更能利用场景化小模型来实现行业应用的百花齐放。”

当然,不仅行业赛道正面临变革,技术突破也为视频云的服务升级创造机会。“我们从video for human正向video for machine过渡,如何在满足人的需求情况下,同时也满足机器?这让视频云2.0可能成为一种混合的职能。比如,编码就是既要满足人的主观体验,也要满足机器对视频的高速处理需求”,右贤说。

于此同时,AI、GPT等技术迭代正在为视频服务注入新的价值。从云养猫到云监考,从牧业养猪到农业育苗,从IPTV到工业质检,右贤列举了许多细分行业场景,透出他对新视频云的信心满怀。

ToB的耐心,100米深

进入2023年,音视频行业市场空间见顶,除少量场景和个别公司外,大部分市场处于严重的内卷状态。许多企业不得不通过各种方式压缩成本,裁员自然是不可避免的方式之一。当然也有许多企业选择出海,在竞争不是那么激烈的海外市场拼杀。这是看到的不争事实。

每个管理者都一定在绞尽思虑,破行业的局、破自己的局。压缩成本不是可持续性的良策,海外拼杀也不过是平面维度的拖延,右贤在寻找别的维度的解法,在内卷度愈发难以呼吸的市场,给我们舒展开空间,上演宽度与深度的画面感。

显然,我们都了解消费互联网的ToC场景和产业互联网的ToB业务,于是,右贤打了个形象的比喻,给出他的理解,“ ToC的赛道是100m宽,我们往往只需要做1m深,就能够满足70%到90%的客户需求,面对ToC就是快速满足这些需求。但是,做ToB ,做行业、做场景化,选择赛道往往只有1m宽,但你必须挖下100m深,才能创造更多的产品价值,深度服务好客户。

相对于短平快的ToC场景, ToB的投资回报周期要长得多。这是事实,右贤心如明镜。

决定做好这条新维度的赛道,面对“100m深”的坚持,如何能让自己和团队保持耐心?面对这个尖刻又必然的问题,右贤很干脆的回应,“是这样,当我们挖到2米的时候会碰到石头,挖到50米会碰到岩石,所以怎么办?分两步。”

右贤展开讲,“首先,我们一定会继续深耕ToC消费互联网市场,做好基本盘。但也会把大家所聚焦的那1m深的赛道,持续深挖下去。也就是说,我们要把视频云的基础能力做到极致化,做到稳定性与体验性的极致、做到成本与性能的极致。”行业里的人都理解,稳定和成本就是消费互联网的最大痛点,但要把基础能力做到极致也并非易事。

侧面可感,阿里云视频云已在排兵布阵,显性突破。作为云厂商,做到超大规模化下的极致,需要站在顶层的抽象思维和重构设计,所以其内部强调“Uni”的技术设计理念,即“统一”:从多元融合的统一网络,到媒体服务的统一引擎,再到一体化的终端利器,直达市场所需要的低门槛、低成本、高时效、高性能、泛应用。这是技术深度上的极致。

就在刚刚结束的LiveVideoStackCon上海2023,阿里云在原来的GRTN网络基础上升级推出MediaUni多元融合流媒体传输网络,正如其名,目的就是极大满足音视频多元业务的传输需求,并以低成本、低延迟的极致姿态达成,更为面向未来的业务形态实现媒体与元数据的融合传输,这是强大的底座。往上走,在关键的中间层,破局重组,设计全新的媒体服务顶层架构,打造规模化、智能化、多业务、灵活、开放的媒体服务中台,突破媒体服务的高时效与高质量,这是强力的发动机

窥一斑而知全貌,能想象右贤所推进的基础设施极致化,需要怎样的坚定投入。如此,在深一步支撑ToC的同时,也在为ToB的加速做更扎实的储备。当然,远不止此,ToB场景更复杂多样,需要更深的洞察力、创造力和持久的耐心。

这也是右贤提到的第二步,用“全智能”内化之力,来满足更多ToB的数字化升级,换句话说,面向行业孵化场景应用,做一个标杆,照亮一片。

他提到支持中国美院的“云上艺考”,“以前的艺术类考试,学生都要在短期抵达多个院校现场考试,艺考潮甚至像春运一样,网上也热传过‘艺考生10天辗转多地赶考,卖掉一套房’的新闻,虽然略显夸张,但可见其赴考难度极大,考试公平性也很难保障。对此,我们通过AI与视频云技术,让美院的4万多名考生同时在线、居家考试,并以高可靠、高可控实现100%的全程顺利稳定,这说来轻易,但真实情况是踩过很多坑才能实践出来。项目结束,学校发来了感谢信,让我们倍受鼓舞,后来将这种场景方案复用创新在更多艺术院校。”

“我们还有一个有趣的场景——云养猫。我大概调研了一下,中国目前有宠物 2.93亿只,如果你经常出差很难把猫带在身边。现在可以把猫托管社区或自己家里,通过视频我们可以跟宠物进行互动,包括投放猫粮、加水等等。此外,我们还做了很多工业质检的场景,其他行业新场景也都在探索落地中。”右贤很有期待地说。

或许,不同时空踏在音视频圈内外的他,从另个维度看到了更多景致和可能。

即使一切看起来繁花似锦,玩味无穷,也听到右贤反复提及,“ToB是一条艰难而正确的路”。

这条路,不仅需要“100m深”的耐心,也要多些好奇心创造力

既要又要,普惠+生态

“数字化转型升级过程中,65%的行业数字化信息来源于视频,49%的智能应用又是以视频为基础。这就是未来我们要对视频进行更多行业外应用的基础,由此,视频应用场景就会百花齐放了。”右贤说。

某种意义上,这就是千行百业的普惠。所以自始至终,右贤也深谙“普惠”

2023年4月,阿里巴巴集团CEO张勇提出阿里云的战略核心是“让算力更普惠、让AI更普及”,反映在客户的认知或许就是众多云产品的价格下调,但本质是通过释放技术红利来实现普惠,让更多企业以更高性价比获得阿里云或视频云的服务,从而拥有更大的市场竞争力。

但更近一步,右贤强调,“我们能够做的普惠,不仅仅是商业的普惠,还会做到对一些产业的普惠,即加速产业数字化进程。比如,视频云更多定位为PaaS,产品还是以API的交付方式,就客户的技术能力和平台现状来讲,这对很多行业的客户要求非常高,实现是有一定难度的。集成周期通常都是在三天到一周,才能把视频语音的一些能力应用到客户自身的APP,过程中还存在海量设备兼容困难的问题,让整个时效比较低。”

这确实是当前普遍的交付模式和交付效率问题,解决它就能深化普惠

“所以我们很早就提出了低代码甚至零代码,当然视频云零代码还不太现实,所以我们把很多的组件能力套件化,让企业降低集成的难度;同时,依托大模型,打造小模型,组合能力、适配场景,大幅提升交付效率,实现几小时即可上线。这是一种普惠。

这里提到的,即是在持续升级的音视频开发工具MediaBox,据说是个百宝箱,具备丰富、极致、智能的能力,在高易用、高性能之下,极大满足客户真实需求的场景化。

“还拿考试为例,在居家条件下的云上艺考,一定需要比现场更有力的防作弊监考能力。于是,基于对线上艺考差异化情景的全面分析,我们的技术团队极速研发了基于AI 的自动检测能力,叠加在MediaBox的远程监考方案中,满足艺考监测的全维度。这极大减轻学校监考压力,更能保障教育的公平与公正。在这之上,还能灵活应对各类新需求,比如,针对有的学生违规戴了蓝牙耳机,我们可以再叠加一个模型进去,以天为单位,就可实现新功能上线。目前,我们这套智能远程监考方案已经成功复用在各类艺术考试、青少年编程考试、企业招聘考试中,这也是一种普惠。”右贤说。

透过一个小小考试场景360度的精细打造,能够看到一个音视频开发工具的真诚,这大概也是右贤所提到的“100m深”的坚持。有了这样的耐心和诚心,视频云的视野似乎也真正打开了。

“我们也很关注农业企业,交流了许多,比如,通过视频如何去监控牲畜的状态,以及如何去选苗、育苗,其实大部分企业不具备这样的能力,所以需要把这个智能技术使用门槛降低,这是一种更实在的普惠,而不是简单地把价格降低,因为把价格降再低,企业也用不起来”, 右贤继续分享到。

能看得出,阿里云视频云很真诚在拓延行业的普惠,但视频云是偏方案型的服务,尤其面向视频云2.0的产业互联网,它更是一个典型的ToB赛道服务,与做一个应用或软件不同,会面对行业各种复杂的场景,这等同于数量级的个性化需求,一家厂商必然乏力。

于是,右贤给出他的直言,“我经常讲,我们是技术有限公司,也是能力有限团队。实际情况就是这样的,面向千百行业的需求,仅靠一家公司、一个团队是很难解决的,只有通过与业界广大的合作伙伴一起肩并肩、背靠背,才能快速解决客户的问题。因此,我们要与生态伙伴合作,彼此双向赋能。生态伙伴会涉及到几类:一个,是面向大行业和行业领先的生态伙伴,我们会携手一起解决行业重难点问题,针对一些典型场景会以联合共创的方式展开合作;另一个,是面向广大的开发者或中小型ISV,我们会把能力标准化、原子化让他们易集成、易使用,实现低代码乃至零代码的集成,让我们的能力被真正用好。”

总言之,阿里云视频云要做生态伙伴做不了的或不容易实现的能力,比如底层的通用算力,比如一些较为复杂的算法模型,比如算法跟底层芯片的调优。而面向应用场景的优化微调,交给更擅长的ISV去做。“这样,把边界也切分清楚,我们会调动各行各业的生态伙伴,共同促进视频在行业智能化的价值,成就彼此。” 右贤这样说。

如果“既要又要”的话,普惠是包罗万象的期许,生态是明晰边界的觉知,一切都是为了更大的商业与社会价值。

有机未来,不止AI

不管舒展还是内卷,我们都更喜欢看未来。

“在未来,我会拿出更多的研发资源,不以商业为目的去做一些技术研究,做一些相对超前的技术储备”,右贤表示,“其实产品技术投资上不要怕失败,就怕没有想法、没有动力往前走,所以,如果很多事情是站在昨天规划今天,是在解决历史问题,你只能赢得当下。如果你不站在后天想明天做什么,你是永远都不可能走到后天去的,也很难赢得明天。

谈及视频云的明天和后天,就回扣右贤最初对视频的认知,他认为,如果这是改变万物交互的方式,当下,人与人的音视频沟通已经做得很多、体验也不错,人与机器的沟通也可以通过NLP(自然语言处理)等技术来实现。未来,音视频技术还可以有更大的应用范畴,与AI融合,与AIGC、ChatGPT都要做有机的融合。

说到这一点,右贤提到一个概念,“有机融合”。

我觉得新技术目前可能很难再井喷,视频云需要做的是把众多技术进行有机的融合,这是更重要的。技术不断的融合创新,融合后会衍生出很多意想不到的新场景,这个过程中,视频云会生长成为智能社会的新基建,带来的收益空间也是可预见的,会非常大。”

AI的融合是首要,且要看清其生长纹理。

“AI的发展经历三起三落,我们经常讲摩尔定律18个月,但由于AI算力的突破,后摩尔定律让AI基本每3到4个月,整个数据的算力需求就翻一倍,这意味着AI的进化会非常迅猛,包括衍生到今天的GPT、人工神经网络、脑科学等等。我认为,人工智能是人工与智能两个词,今后一段时期,人工智能的重点会在智能上,技术和应用会聚焦在“数能生智”方面,DIKW模型会快速迭代。以前是“人工+智能”,现在是“智能+人工”,右贤笑着说。

换个角度,未来或许是AI理解世界,我们理解AI。

无论如何,谈及鲜为人知的DIKW金字塔,足见右贤对AI智慧的更深理解,这必然成为阿里云视频云在研发动能上的无形牵引。

于是,他的团队一直在探索实践,比如,AIGC方向,文本生成图片、图片生成视频,还包括2D到3D的融合直播等等。接下来,针对智能媒资管理,从标签标准到媒资自动化管理,也会加大投入。而面向video for machine的未来,阿里云视频云针对机器编码也在与相关标准组织合作,加速推进MPEG-VCM标准的制定。这是右贤列举的几个技术演进点。

不仅如此,右贤还将“视频”有机关联到“数据密集型科研”,认为其会成为未来科研的新范式。什么是数据密集型?“其实就是大视频,它数据量很大,但数据价值密度相对较低,所以需要快速的分析。科研第四范式就是利用大数据进行科学研究,通过数学重构这个真实世界,而以前都是模拟、仿真,再往前就是实验观察、理论总结等等。在可预见的未来科研里,视频大数据显得尤为重要。”

视频、数据、智能、智慧、世界,这里看得出他有更深更远的视野。

倘若把视线再抬高一点,看视频云的未来,右贤还是那句话,“如果100%以商业价值,或许只能赢今天,不一定能赢明天。”

这也引出他对商业、技术、产品的看法,也能以“有机融合”来点睛。在他看来,这三者不可割裂,是一个完整的有机体。

“产品技术是为商业服务的,也是为社会服务的。作为管理者,必须要跟团队要讲明确,我们作为一个大家庭必须要有认知,无论是产品、技术、商业,我们都要敬畏市场、尊重客户。这是我从最初就特别强调的一个问题。我们过往的发展模式过于敏捷迭代,很多技术也是ToC业务中沉淀起来的,但是,做ToB要非常讲究严谨、讲究价值,要围绕着商业价值、社会价值。在这样的一个前提下,产品的商业价值要牵引技术的研发,从出发点到终点,都要做到真正的敬畏与尊重,最后就能实现很好的商业。”

辞海里,“有机”是代表有生命的,事物构成各部分互相关联而具不可分的统一性,与生物相同。这或许触类旁通了他对技术、商管的有机之见,也发现了视频云的新生命。

最后,如果寻几个词来素描右贤,大概是开阔、坚定、务实,一个赛道新人对瓶颈感行业生出很多新的觉知,这让他“ABCDE”的经验游历于Video之上的更高视野。如果这份觉知和经验发酵,投射在2.0背景下的阿里云视频云身上,大抵如今年LiveVideoStackCon所述,是“云智新生”的视频云。未来的未来,我们拭目以待。

LVS专访阿里云席明贤,从视频云2.0到“数能生智”的超长畅谈的更多相关文章

  1. 2019阿里云开年Hi购季基础云产品分会场全攻略!

    2019阿里云云上Hi购季活动已经于2月25日正式开启,从已开放的活动页面来看,活动分为三个阶段: 2月25日-3月04日的活动报名阶段.3月04日-3月16日的新购满返+5折抢购阶段.3月16日-3 ...

  2. 本地 vs. 云:大数据厮杀的最终幸存者会是谁?— InfoQ专访阿里云智能通用计算平台负责人关涛

    摘要: 本地大数据服务是否进入消失倒计时?云平台大数据服务最终到底会趋向多云.混合云还是单一公有云?集群规模增大,上云成本将难以承受是误区还是事实?InfoQ 将就上述问题对阿里云智能通用计算平台负责 ...

  3. 阿里云AIoT云端一体:迎接云原生+低代码时代的到来

    距上次2019年参加上海阿里云开发者大会已经近2年的时间了,也许因为疫情的原因,这一两年线下大型活动基本很少了,这次在北京国家会议中心举办的阿里云开发者大会,无论是参会人员的规模,还有演讲嘉宾的级别和 ...

  4. LiveVideoStackCon2021 北京站专访:从上云到创新,视频云的新技术、新场景

    伴随着视频技术的进步和标准的迭代,视频产业从模拟进入到数字时代,完成了从电影电视到互联网的媒介转换,并且衍生出了超高清.3D.AR/VR 等多种创新形态.特别是在后疫情的当下,我们可以看到音视频技术领 ...

  5. 第一章 基础设施,1.3 阿里视频云ApsaraVideo是怎样让4000万人同时狂欢的(作者:蔡华)

    1.3 阿里视频云ApsaraVideo是怎样让4000万人同时狂欢的 前言 在今年的双11中,双11天猫狂欢夜的直播成为一大亮点. 根据官方披露数据,直播总观看人数超4257万,同时观看人数峰值达5 ...

  6. 阿里云产品介绍(三):云数据库RDS

    写完云服务器ECS,本来想先写负载均衡的. 因为发现很多客户,都是直接将单台云服务器应用对外提供访问,如果云服务器宕机,应用就会停止服务.云服务器标称有99.95%的可用率,一年下来宕机四个多小时也是 ...

  7. 阿里云产品介绍(二):云服务器ECS的孪生兄弟们

    上一篇介绍的云服务器ECS,是阿里云最基础的产品,也是每一个云计算厂商最基础的产品,俗称爆款.除了标准的云服务器,阿里云也不停的在推出面向特殊业务场地的云服务器,可以说是ECS的孪生兄弟们. 这一篇就 ...

  8. 短视频服务大PK,阿里云、腾讯云、又拍云、七牛云、金山云5强横向对比

    继直播后,短视频又再次爆发,在这个风口,国内的各大云厂商也都相继推出了自己的一站式短视频解决方案.上周由于公司短视频功能开发的需要,对比了阿里云.腾讯云.又拍云.七牛云.金山云5家的短视频服务. 先介 ...

  9. 阿里云全民云计算活动:云服务器ECS二折起(云主机)采购指南

    首先要注册并登录阿里云,完成实名认证 可以用手机号新注册账号, 也可以使用淘宝账号直接登录,其他的登录方式还支持微博账号和支付宝账号等. 登录后如下图,先点"控制台", 然后鼠标移 ...

  10. 阿里云弹性容器实例产品 ECI ——云原生时代的基础设施

    阿里云弹性容器实例产品 ECI ——云原生时代的基础设施 1. 什么是 ECI 弹性容器实例 ECI (Elastic Container Instance) 是阿里云在云原生时代为用户提供的基础计算 ...

随机推荐

  1. for循环原理补充、生成器对象、yield冷门用法、生成器表达式的面试题、常见内置函数

    目录 一.for循环原理补充 二.生成器对象 (1).自定义生成器对标range功能(一个参数 两个参数 三个参数 迭代器对象) 三.yield冷门用法 (1).yield与return的对比 四.生 ...

  2. 深入理解 python 虚拟机:魔术方法之数学计算

    深入理解 python 虚拟机:魔术方法之数学计算 在本篇文章当中主要给大家介绍在 python 当中一些常见的魔术方法,本篇文章主要是关于与数学计算相关的一些魔术方法,在很多科学计算的包当中都使用到 ...

  3. (亲测有效-专门解决Mac环境)Pycharm 解决无法打开的问题

    前提是Mac 安装了PyCharm.app 1.第一步:先输入: cd /Applications/PyCharm.app/Contents/MacOS 2.第二步:查看无法打开pycharm的原因, ...

  4. Python生成随机验证

    Python生成随机验证码   Python生成随机验证码,需要使用PIL模块. 安装: 1 pip3 install pillow 基本使用 1. 创建图片 1 2 3 4 5 6 7 8 9 fr ...

  5. Java动态数组及数组排序的三种常用方法

    一.动态数组 1.数组的定义: ​ 用于存储相同数据类型的一组连续的存储空间 2.数组的特点: ​ 数组的长度一旦定义,则不可改变 ​ 访问数组的元素需要通过下标(索引)访问,下标从0开始 ​ 数组是 ...

  6. SqlServer 设置用户只能访问特定表、特定数据库

    设置用户只能访问特定表.特定数据库 一.只能访问特定数据库 1.[安全性]-[登录名]右击用户.打开属性,选择用户映射,勾选特定数据库 2. 如果 服务器角色 勾选了 [查看任意数据库],那么登录后会 ...

  7. 【C#/.NET】xUnit和Moq实现TDD

    ​  目录 前置条件 Moq xUnit TDD 实践 创建项目 红灯 绿灯 重构 单元测试一些最佳实践 总结 前置条件 Moq 安装Moq包 Install-Package Moq Moq是一个Mo ...

  8. JUC同步锁原理源码解析六----Exchanger

    JUC同步锁原理源码解析六----Exchanger Exchanger Exchanger的来源 A synchronization point at which threads can pair ...

  9. 【Netty】Netty部分源码分析(启动流程,EventLoop,accept流程,read流程)

    源码分析 Netty源码中调用链特别长,且涉及到线程切换等步骤,令人头大:) 1 启动剖析 我们就来看看 netty 中对下面的代码是怎样进行处理的 //1 netty 中使用 NioEventLoo ...

  10. 使用 InstructPix2Pix 对 Stable Diffusion 进行指令微调

    本文主要探讨如何使用指令微调的方法教会 Stable Diffusion 按照指令 PS 图像.这样,我们 Stable Diffusion 就能听得懂人话,并根据要求对输入图像进行相应操作,如: 将 ...