大数据DMP画像系统(转载 简介-龙果学院)
一、目标
1、掌握画像标签开发技巧
2、掌握数据挖掘技巧
3、了解业内画像和DMP系统的架构和开发
4、大数据结合业务场景落地
系统开发要求
涉及的技术要点:spark 、elasticsearch、hadoop 、hive 、LR GBDT等机器学习算法 开发工具:idea、eclipse 开发环境:spark2.2、hadoop2.7、hive1.2、hbase、redis 开发语言:scala、java、python、shell、sql
三、课程目录
课程一览
1、用户画像概述 什么是用户画像,为什么要用户画像,画像的场景应用 业内,facebook,阿里巴巴(达摩盘),腾讯(广点通)分析 打造自己的内部达摩盘,基本功能跟达摩盘一致
2、画像指标整理
2-1.基础属性。人的基础属性标签,包括地域、年龄、性别等。
2-2.兴趣偏好。这部分是投放端已有的定向能力,后期可规划更细的基于宝贝、店铺或行业的搜索选择,特定兴趣的定向功 能。
2-3.行为轨迹。基于兴趣偏好更细的行为(包括浏览、点击、成交、收藏、复购等),及不同时间段的行为交叉(包括1天、7天、30天的行为)。
2-4.消费能力。基于平台的支付交易,购物行为、交易额计算高中低,及类目上的高消费偏好。
2-5.好友关系。基于平台的关系链数据,推荐偏好该宝贝、店铺、行业的好友用户。
2-6.自定义人群。支持上传自定义人群包,lookalike扩展包的大小。
3、 画像标签体系建设和开发
3-1)基本属性 地域、年龄、性别、学历、职业
3- 2)兴趣偏好 品牌、 店铺、一级类目、场景、行业
3-3)消费能力 能力等级开发
3-4)特征人群 划分一些特定的人群,高活跃,低活跃,有车一族,奶爸一家
3-5)LBS属性 长居住地
3-6)用户轨迹 交易、浏览,收藏等
四、画像系统架构
功能:画像多维度分析、画像指标下钻分析、投放效果追踪分析 技术:基于es 、spark、hadoop 建设画像计算,以及数据存储和计算 模块:用户人群包(交集并集)、追踪分析、人群画像、人群对比模块开发
五、画像系统应用案例
用户精准营销
用户商品推荐
大数据DMP画像系统(转载 简介-龙果学院)的更多相关文章
- AI,大数据,复杂系统 最精 40本大书单
AI,大数据,复杂系统 最精 40本大书单 原创 2017-10-30 Peter 混沌巡洋舰 如果这篇文的题目变成最全书单,那么这篇文会变得又臭又长,这个年代,关于人工智能和大数据的书,没有一万本也 ...
- 大数据高并发系统架构实战方案(LVS负载均衡、Nginx、共享存储、海量数据、队列缓存)
课程简介: 随着互联网的发展,高并发.大数据量的网站要求越来越高.而这些高要求都是基础的技术和细节组合而成的.本课程就从实际案例出发给大家原景重现高并发架构常用技术点及详细演练. 通过该课程的学习,普 ...
- 新闻网大数据实时分析可视化系统项目——2、linux环境准备与设置
1.Linux系统常规设置 1)设置ip地址 使用界面修改ip比较方便,如果Linux没有安装操作界面,需要使用命令:vi /etc/sysconfig/network-scripts/ifcfg-e ...
- 新闻网大数据实时分析可视化系统项目——18、Spark SQL快速离线数据分析
1.Spark SQL概述 1)Spark SQL是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的. 2)Spark SQL可以直接运行SQL或者HiveQL语句 3)B ...
- Day1 - 认识大数据& 企业需求分析 & 北风网简介
上午: 介绍: 海量的乱七八糟的数据中快速的计算出某些有用的信息 刑侦视频追踪 云栖大会 大数据分析/挖掘 ==> python <== 重点关注 大数据运维 ==> 运服务 ...
- 新闻网大数据实时分析可视化系统项目——19、Spark Streaming实时数据分析
1.Spark Streaming功能介绍 1)定义 Spark Streaming is an extension of the core Spark API that enables scalab ...
- 基于 HTML5 WebGL 与 GIS 的智慧机场大数据可视化分析【转载】
前言:大数据,人工智能,工业物联网,5G 已经或者正在潜移默化地改变着我们的生活.在信息技术快速发展的时代,谁能抓住数据的核心,利用有效的方法对数据做数据挖掘和数据分析,从数据中发现趋势,谁就能做到精 ...
- 大数据测试之hadoop系统生态
poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标,也是国内最早探索大数据测试培训的机构,开发了独有的课程体系.如果对课程感兴趣,请大 ...
- POI 海量数据/大数据文件生成SXSSFWorkbook使用简介
在之前我们知道处理xls的excel用的workbook是HSSFWorkbook,处理xlsx的excel用的是XSSFWorkbook. 上面两个类导出excel的时候数据会驻留在内存中,所以当数 ...
随机推荐
- [IOI2000][POJ1160]Post office
题面在这里 题意 一条路上有\(n\)个村庄,坐标分别为\(x[i]\),你需要在村庄上建设\(m\)个邮局,使得 每个村庄和最近的邮局之间的所有距离总和最小,求这个最小值. 数据范围 \(1\le ...
- [ZJOI2006]物流运输 DP 最短路
---题面--- 题解: 设f[i]表示到第i天的代价,cost[i][j]表示第i天到第j天采取同一种方案的最小代价.那么转移就很明显了,直接$n^2$枚举即可. 所以问题就变成了怎么获取cost数 ...
- visio中相关设置-菜单视图
1.获取或设置窗口中页面的当前显示大小(缩放系数) Window.Zoom Dim dZoom As Double dZoom = m_Visio.Window.Zoom'获取显示比例 m_Visio ...
- oracle的rownum使用
对于rownum来说它是Oracle系统顺序分配为从查询返回的行的编号,返回的第一行分配的是1,第二行是2,依此类推,这个伪字段可以用于限制查询返回的总行数,且rownum不能以任何表的名称作为前缀. ...
- struts2学习笔记(二)
一. 国际化的目标 1). 如何配置国际化资源文件 I. Action 范围资源文件: 在Action类文件所在的路径建立名为 ActionName_language_country.properti ...
- Mybatis如何查询部分字段
解决问题:数据库表里面很多字段不太需要,有时只想取到里面的部分字段的值,如果重新定义 DTO 会比较麻烦. BookMapper.xml 文件中定义如下: ` <!-- Book全部字段 --& ...
- 51Nod 1081前缀和
#include <iostream> #include <stdio.h> using namespace std; ]; ]; int main() { int n; ci ...
- 解决mysql报错:- Expression #1 of ORDER BY clause is not in GROUP BY clause and contains nonaggregated column 'information_schema.PROFILING.SEQ'
mysql执行报错: - Expression #1 of ORDER BY clause is not in GROUP BY clause and contains nonaggregated c ...
- 【20160811】noip模拟-未完
T1 T2 T3 小奇回地球 [问题描述] 简单来说,它要从标号为1的星球到标号为n的星球,某一些星球之间有航线.由于超时空隧道的存在,从一个星球到另一个星球时间可能会倒流,而且,从星球a到b耗费的时 ...
- noip2013 提高组
T1 转圈游戏 题目传送门 果不其然 第一题还是模拟题 一波快速幂解决问题 #include<cstdio> #include<cstring> #include<alg ...