更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
 
在人们的日常生活中,网购已经成为人们生活中不可或缺的购物形式。
 
根据《中国社交电商行业发展白皮书(2022)》的数据显示,2022年社交电商市场交易规模达到28542.8亿元,预计2023年中国社交电商行业交易规模将达34165.8亿元。
 
这么庞大的市场规模背后,如何解决电商场景下的各项生态治理问题显得尤为重要,某电商平台的治理团队就提供了一个优秀实践范本。
 
在该电商平台的社交电商场景下,以短视频优质项目为例,平台治理团队会对当天发布的挂购物车类短视频进行标签识别,判断其优质程度及具体原因。经过算法模型识别后,视频将被提交至奖惩中心,根据优质程度进行流量扶持或限制。而在治理过程中,数据处理流程也存在很多的挑战和痛点。
 
  • 首先是数量挑战:大数据量的训练集,难以快速进行数据预处理。业务算法模型的训练集通常很大,达到百万甚至千万级。如果将这些海量数据放在本地或其他开发机上处理,速度会很慢,无法满足业务需求,即使使用多线程处理,并发度也难以达到业务需求。
 
  • 其次是准确度挑战:难以验证算法模型准确度。算法模型的准确性通常通过有偏和无偏两个维度进行验证。模拟算法模型上线后的召回情况和准确率,以及对业务的影响,无论是有偏还是无偏测试集,都需要确保测试集标签的准确性。如果测试集标签的准确性不高,会影响模型评估的准确性。
 
  • 最后是监控挑战。要想做好后续的指标监控,首先需要建立自己平台的统计指标,如召回率、漏放率、审出率、驳回率等。这些指标需要做成数据集,再建立自己的监控看板。同时,如果平台出现反面案例,需要团队进行深入的分析,并优化算法模型。如果没有高效的工具或平台进行辅助,会耗费大量的人力和资源。
 
为了解决这些痛难点,该电商平台治理团队接入了火山引擎DataLeap的大数据研发平台能力,三步搭建起了高效的算法模型数据处理流程。
 
第一步:在算法开发阶段,进行数据预处理,产出训练数据集。
在使用 DataLeap 之前,由于算法模型的测试集量级较大,数据处理效率低;而现在,该电商平台治理团队利用火山引擎 DataLeap 的 Notebook 任务进行数据预处理,处理后的数据会被存储在 Hive 表或 HDFS 上,这些数据可以在 HDFS 上长久保存,满足了实际应用场景中收集长时间数据的需求,不必受存储有效期为 7 天的限制。
 
团队可以离线处理这些数据,生成训练集,进行模型训练。由于火山引擎 DataLeap 的 Notebook 能力可以支持任务的自动运行,无需人工搭建 Notebook 环境进行数据训练,大大节省了人力成本,提高了数据处理和统计效率。
 
(图:DataLeap数据开发平台示例)
 
第二步:算法上线,验证模型效果
训练好的模型需要进行评估,以便了解其效果如何。团队可利用DataLeap将线上的 Kafka 数据写入 Hive 中,然后离线分析 Hive 表中的数据,用来了解模型的效果。不同模型平台治理团队关注的指标可能有所不同,借助DataLeap可以使用不同的指标来评估模型的效果,例如准确率、召回率、AUC 或 ACC 等。
 
第三步:利用火山引擎DataWind搭建监控看板
而在监控板块,DataLeap可与火山引擎智能数据洞察DataWind流畅配合,搭建监控看板,监控人员每日可以及时地获取到数据结果,同时也会对反面案例进行深入的分析,进而优化算法模型。
 
在火山引擎DataLeap的助力下,该平台治理团队去年全年累计挖掘识别优质短视频超147万条,助力超26万名电商作者平均流量增长56%;累计处罚违规低质短视频超3280万条、违规低质直播超1500万场。整体内容质量有明显改观,消费者好感度上升7.2%。
 
除数据处理能力之外,火山引擎DataLeap还可以提供数据集成、开发、运维、资产等能力,帮助用户提升数据研发效率、降低管理成本,加速推动企业的数字化转型,目前已经应用于泛互联网、制造、新零售、汽车等领域,帮助数据团队有效的降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。
 
点击跳转大数据研发治理套件 DataLeap了解更多
 

挖掘优质短视频超百万条,火山引擎DataLeap助力电商平台生态治理的更多相关文章

  1. 火山引擎 DataLeap:3 个关键步骤,复制字节跳动一站式数据治理经验

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理. ...

  2. 如何又快又好实现 Catalog 系统搜索能力?火山引擎 DataLeap 这样做

      摘要 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理.资产.安全等全套数据中台建设,降低工作成本和数据维护成本.挖掘数据价 ...

  3. 火山引擎 DataLeap:揭秘字节跳动数据血缘架构演进之路

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维 ...

  4. 火山引擎 DataLeap:一家企业,数据体系要怎么搭建?

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 导读:经过十多年的发展,数据治理在传统行业以及新兴互联网公司都已经产生落地实践.字节跳动也在探索一种分布式的数据治 ...

  5. 火山引擎DataLeap数据调度实例的 DAG 优化方案

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 实例 DAG 介绍 DataLeap 是火山引擎自研的一站式大数据中台解决方案,集数据集成.开发.运维.治理.资产管理能力 ...

  6. 火山引擎 DataLeap 的 Data Catalog 系统公有云实践

      Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景.本篇内容源自于火山引擎大数据研发治理套件 DataLeap 中的 Data Ca ...

  7. HMS Core 视频编辑服务开放模板能力,助力用户一键Get同款酷炫视频

    前言 短视频模板,是快捷创作短视频的一种方式,一般由专业设计师或模板创作人制作,用户只需替换视频模板中的部分素材,便可生成一支与模板一样的创意视频.这种省时省力.无需"烧脑"构思创 ...

  8. Python 带你一键生成朋友圈超火的九宫格短视频

    1. 场景 如果你经常刷抖音和微信朋友圈,一定发现了最近九宫格短视频很火! ​从朋友圈九宫格图片,到九宫格视频,相比传统的图片视频,前者似乎更有个性和逼格 除了传统的剪辑软件可以实现,是否有其他更加快 ...

  9. 短视频APP+不同类型社交应用发展分析+化妆品电商

    短视频APP——昙花一现还是发展趋势? 在这个互联网与科技并行且飞速发展的时代,各种app不断涌入市场,其中短视频app便是一个典型,美拍,就成功入围2014年十大最火app.而短视频app也势必要成 ...

  10. 短视频APP是如何开启你的美好生活的?

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由腾讯视频云终端团队发表于云+社区专栏 常青, 2008 年毕业加入腾讯,一直从事客户端研发相关工作,先后参与过 PC QQ.手机QQ. ...

随机推荐

  1. clickHouse-golang

    目录 clickHouse优势与劣势 golang操作clickHouse clickHouse优势与劣势 ClickHouse和传统的MySQL在设计和使用场景上有一些显著的区别,因此它们各自具有不 ...

  2. 手撕Vue-Router-知识储备

    前言 本文是手写Vue-Router的第一篇,主要是对Vue-Router的知识储备,为后面的手写做准备. 那么 VueRouter 怎么实现呢?要想实现 VueRouter,首先要知道 VueRou ...

  3. 6k Star!B站、滴滴、小红书都在用的网站防火墙

    你有网站么?你担心网站被黑客攻击么?你知道如何抵御来自黑客的攻击吗? 据称互联网上有 30% 的流量都来自于恶意攻击.做过 Web 开发或者有过建站经验的朋友对 SQL 注入.CC 攻击.XSS.We ...

  4. LabVIEW基于机器视觉的实验室设备管理系统(4)

    目录 行动计划 后面板连线 初始化 ​返回 ​ 注册 账号限制 查重账号或者姓名 确认密码 注册 效果演示 我们上一期制作完了给账户修改密码,那么我们这一期就来完成账户注册这一功能.老规矩哦,先来计划 ...

  5. LabVIEW基于机器视觉的实验室设备管理系统(1)

    目录 MySQL数据库 建表 表格转换格式 导入数据库 效果演示 今天,我们就来把慢蜗牛在大二时期做的大创来复现一遍.后续会逐渐更新,带着大家一步一步做出属于自己的管理系统. MySQL数据库 在开始 ...

  6. Android学习day01【搭建Android Studio】

    是Google开发的操作系统 Android开发是移动应用开发的表现形式之一 还有很多的开发形式,就不一一列举了 完整项目精简的开发流程 开发工具 Android studio(强烈建议) Andro ...

  7. Apache Paimon流式湖仓学习交流群成立

    Apache Paimon是一个流式数据湖平台.致力于构建一个实时.高效的流式数据湖平台.这个项目采用了先进的流式计算技术,使企业能够实时处理和分析大量数据.Apache Paimon 的核心优势在于 ...

  8. mysql可视化工具有哪些?优点是什么?

    MySQL 是一种广泛使用的关系型数据库管理系统(RDBMS),由于其开放源代码和高度可定制化的优势,广受开发者欢迎.为了更加高效地管理 MySQL 数据库,我们通常需要使用 MySQL 可视化工具. ...

  9. 基于DotNetty实现自动发布 - 项目的配置与发现

    前言 上一篇,我们实现了基于 DotNetty 的通信基础模块的搭建,本篇,主要实现待发布 Web 项目的集成. 创建待发布项目 为了测试, 我创建了一个基于 .NET 4.8 的 Web 项目 Op ...

  10. 【matlab混沌理论】1.1.混沌理论简介

    混沌理论 1.简介          混沌理论是一个跨学科的科学研究领域和数学分支,专注于对初始条件高度敏感的动力系统的基本模式和确定性定律,曾被认为具有完全随机的无序和不规则状态.混沌理论指出,在混 ...