一、目标

1、掌握画像标签开发技巧

2、掌握数据挖掘技巧

3、了解业内画像和DMP系统的架构和开发

4、大数据结合业务场景落地

系统开发要求

涉及的技术要点:spark 、elasticsearch、hadoop 、hive 、LR GBDT等机器学习算法 开发工具:idea、eclipse 开发环境:spark2.2、hadoop2.7、hive1.2、hbase、redis 开发语言:scala、java、python、shell、sql

三、课程目录

课程一览

1、用户画像概述 什么是用户画像,为什么要用户画像,画像的场景应用 业内,facebook,阿里巴巴(达摩盘),腾讯(广点通)分析 打造自己的内部达摩盘,基本功能跟达摩盘一致

2、画像指标整理

2-1.基础属性。人的基础属性标签,包括地域、年龄、性别等。

2-2.兴趣偏好。这部分是投放端已有的定向能力,后期可规划更细的基于宝贝、店铺或行业的搜索选择,特定兴趣的定向功  能。

2-3.行为轨迹。基于兴趣偏好更细的行为(包括浏览、点击、成交、收藏、复购等),及不同时间段的行为交叉(包括1天、7天、30天的行为)。

2-4.消费能力。基于平台的支付交易,购物行为、交易额计算高中低,及类目上的高消费偏好。

2-5.好友关系。基于平台的关系链数据,推荐偏好该宝贝、店铺、行业的好友用户。

2-6.自定义人群。支持上传自定义人群包,lookalike扩展包的大小。

3、 画像标签体系建设和开发

3-1)基本属性 地域、年龄、性别、学历、职业

3- 2)兴趣偏好 品牌、 店铺、一级类目、场景、行业

3-3)消费能力 能力等级开发

3-4)特征人群 划分一些特定的人群,高活跃,低活跃,有车一族,奶爸一家

3-5)LBS属性 长居住地

3-6)用户轨迹 交易、浏览,收藏等

四、画像系统架构

功能:画像多维度分析、画像指标下钻分析、投放效果追踪分析 技术:基于es 、spark、hadoop 建设画像计算,以及数据存储和计算 模块:用户人群包(交集并集)、追踪分析、人群画像、人群对比模块开发

五、画像系统应用案例

用户精准营销

用户商品推荐

大数据DMP画像系统(转载 简介-龙果学院)的更多相关文章

  1. AI,大数据,复杂系统 最精 40本大书单

    AI,大数据,复杂系统 最精 40本大书单 原创 2017-10-30 Peter 混沌巡洋舰 如果这篇文的题目变成最全书单,那么这篇文会变得又臭又长,这个年代,关于人工智能和大数据的书,没有一万本也 ...

  2. 大数据高并发系统架构实战方案(LVS负载均衡、Nginx、共享存储、海量数据、队列缓存)

    课程简介: 随着互联网的发展,高并发.大数据量的网站要求越来越高.而这些高要求都是基础的技术和细节组合而成的.本课程就从实际案例出发给大家原景重现高并发架构常用技术点及详细演练. 通过该课程的学习,普 ...

  3. 新闻网大数据实时分析可视化系统项目——2、linux环境准备与设置

    1.Linux系统常规设置 1)设置ip地址 使用界面修改ip比较方便,如果Linux没有安装操作界面,需要使用命令:vi /etc/sysconfig/network-scripts/ifcfg-e ...

  4. 新闻网大数据实时分析可视化系统项目——18、Spark SQL快速离线数据分析

    1.Spark SQL概述 1)Spark SQL是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的. 2)Spark SQL可以直接运行SQL或者HiveQL语句 3)B ...

  5. Day1 - 认识大数据& 企业需求分析 & 北风网简介

    上午: 介绍: 海量的乱七八糟的数据中快速的计算出某些有用的信息 刑侦视频追踪 云栖大会 大数据分析/挖掘 ==>  python  <== 重点关注 大数据运维   ==> 运服务 ...

  6. 新闻网大数据实时分析可视化系统项目——19、Spark Streaming实时数据分析

    1.Spark Streaming功能介绍 1)定义 Spark Streaming is an extension of the core Spark API that enables scalab ...

  7. 基于 HTML5 WebGL 与 GIS 的智慧机场大数据可视化分析【转载】

    前言:大数据,人工智能,工业物联网,5G 已经或者正在潜移默化地改变着我们的生活.在信息技术快速发展的时代,谁能抓住数据的核心,利用有效的方法对数据做数据挖掘和数据分析,从数据中发现趋势,谁就能做到精 ...

  8. 大数据测试之hadoop系统生态

    poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标,也是国内最早探索大数据测试培训的机构,开发了独有的课程体系.如果对课程感兴趣,请大 ...

  9. POI 海量数据/大数据文件生成SXSSFWorkbook使用简介

    在之前我们知道处理xls的excel用的workbook是HSSFWorkbook,处理xlsx的excel用的是XSSFWorkbook. 上面两个类导出excel的时候数据会驻留在内存中,所以当数 ...

随机推荐

  1. P1118 [USACO06FEB]数字三角形`Backward Digit Su`…

    题目描述 FJ and his cows enjoy playing a mental game. They write down the numbers from 11 to N(1 \le N \ ...

  2. [洛谷P3254]圆桌问题

    题目大意:有$m$个单位,每个单位有$r_i$个代表,有$n$张餐桌,每张餐桌可容纳$c_i$个代表.要求同一个单位的代表不在同一个餐桌就餐.若可以,输出$1$以及其中一种方案,否则输出$0$ 题解: ...

  3. BZOJ 2502: 清理雪道 | 有上下界最小流

    #include<cstdio> #include<algorithm> #include<cstring> #include<queue> #defi ...

  4. 几个JQuery解析XML的程序例子

    用JavaScript解析XML数据是常见的编程任务,JavaScript能做的,JQuery当然也能做.下面我们来总结几个使用JQuery解析XML的例子. 第一种方案: <script ty ...

  5. There is an overlap in the region chain修复

    ERROR: (region day_hotstatic,860010-2355010000_20140417_12_entry_00000000321,1400060700465.fda3b0aca ...

  6. PHP正则匹配与替换的简单例子

    PHP正则匹配与替换的简单例子,含一个匹配获取加租字体例子和一个匹配替换超链接的例子. 1.查找匹配 <b> 与 </b> 标签的内容: <?php $str = &qu ...

  7. notepad++中快速插入当前时间方法

    转载自:http://blog.csdn.net/donghustone/article/details/7436483 在notepad++中快速插入当前时间方法: 插件是notepad++的一大优 ...

  8. threadlocal作用

    理解:通过thread创建局部变量,每个线程可以获得该变量的副本,再每个线程中操作该副本相互之间不产生影响. 解决:数据库连接 常规一个线程连接一个数据库是没有问题的,但是在高并发的情况下,可能线程一 ...

  9. 校内训练0609 problem c

    [题目大意] 给一棵树,求有多少条路径满足总和-最大值 是P的倍数 n<=10^5, P<=10^7 [题解] 一看就是点分治嘛 不考虑子树合并,考虑poj1741的做法,每次考虑经过重心 ...

  10. spoj p104 Matrix-Tree定理

    这个问题就是经典的生成树记数问题,题目为spoj p104 highway. 首先我们引入Matrix-Tree定理,由kirchhoff证明,定理的概述为,对于图G,我们定义若干个矩阵, D[G], ...