一.目标 1.掌握画像标签开发技巧 2.掌握数据挖掘技巧 3.了解业内画像和DMP系统的架构和开发 4.大数据结合业务场景落地 系统开发要求 涉及的技术要点:spark .elasticsearch.hadoop .hive .LR GBDT等机器学习算法 开发工具:idea.eclipse 开发环境:spark2.2.hadoop2.7.hive1.2.hbase.redis 开发语言:scala.java.python.shell.sql 三.课程目录 课程一览 1.用户画像概述 什么是用户…
AI,大数据,复杂系统 最精 40本大书单 原创 2017-10-30 Peter 混沌巡洋舰 如果这篇文的题目变成最全书单,那么这篇文会变得又臭又长,这个年代,关于人工智能和大数据的书,没有一万本也有一千本,而这里列出的40本,则是精选过的,不敢说每一本都字字珠玑,但这个书单保证没有一本水书.废话不说,赶快上车,先放思维导图,再一本本的简单说说. 书单分成8部分,其中的数字代表我对这一系列的书的推荐程度. 先说经典书的部分 终极算法:机器学习和人工智能如何重塑世界  这本书的名字,显示着作者试…
课程简介: 随着互联网的发展,高并发.大数据量的网站要求越来越高.而这些高要求都是基础的技术和细节组合而成的.本课程就从实际案例出发给大家原景重现高并发架构常用技术点及详细演练. 通过该课程的学习,普通的技术人员就可以快速搭建起千万级的高并发大数据网站平台. 亮点一:真实环境还原,课程采用了VM环境重现大网站集群服务器环境,真实环境还原再现. 亮点二:基础实用,细节决定成败,课程内容在演练过程中重点介绍各种细节,保证初级人员快速入门及高级进阶. 亮点三:讲师丰富的海量平台运作经验 讲师tom5多…
1.Linux系统常规设置 1)设置ip地址 使用界面修改ip比较方便,如果Linux没有安装操作界面,需要使用命令:vi /etc/sysconfig/network-scripts/ifcfg-eth0 来修改ip地址,然后重启网络服务service network restart即可. 2)创建用户 大数据项目开发中,一般不直接使用root用户,需要我们创建新的用户来操作,比如kfk. a)创建用户命令:adduser kfk b)设置用户密码命令:passwd kfk 3)文件中设置主机…
1.Spark SQL概述 1)Spark SQL是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的. 2)Spark SQL可以直接运行SQL或者HiveQL语句 3)BI工具通过JDBC连接SparkSQL查询数据 4)Spark SQL支持Python.Scala.Java和R语言 5)Spark SQL不仅仅是SQL 6)Spark SQL远远比SQL要强大 7)Spark SQL处理数据架构 8)Spark SQL简介 Spark SQL is a Spar…
上午: 介绍: 海量的乱七八糟的数据中快速的计算出某些有用的信息 刑侦视频追踪 云栖大会 大数据分析/挖掘 ==>  python  <== 重点关注 大数据运维   ==> 运服务的基础    ==>   还是python 数据分析师 ==>  Hadoop 编程语言的企业需求:JAVA   Python(易学  应用广)…
1.Spark Streaming功能介绍 1)定义 Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams 2.NC服务安装并运行Spark Streaming 1)在线安装nc命令 yum install -y nc 2)运行Spark Streaming…
前言:大数据,人工智能,工业物联网,5G 已经或者正在潜移默化地改变着我们的生活.在信息技术快速发展的时代,谁能抓住数据的核心,利用有效的方法对数据做数据挖掘和数据分析,从数据中发现趋势,谁就能做到精准控制,实时分析,有的放矢,从而获取更快速.更平稳.更长远地发展.在航空领域,机场.航班和航线信息是至关重要的数据,本文将介绍以 HT 为平台,应用 JavaScript.HTML5.GIS 等技术开发的全球航线实例. 界面预览 - 主界面 - 飞机及飞机阴影动画 代码实现 - 场景搭建 本实例的场…
poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标,也是国内最早探索大数据测试培训的机构,开发了独有的课程体系.如果对课程感兴趣,请大家咨询qq:908821478,咨询电话010-84505200. MapReduce:分布式数据处理模型和执行环境.运行于大型商用机集群. ZooKeeper:一个分布式.高可用的协调服务.ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用. HDFS:   分布式文件系统,运行于大型…
在之前我们知道处理xls的excel用的workbook是HSSFWorkbook,处理xlsx的excel用的是XSSFWorkbook. 上面两个类导出excel的时候数据会驻留在内存中,所以当数据量大的时候容易造成内存溢出.SXSSFWorkbook是用来生成海量excel数据文件,主要原理是借助临时存储空间生成excel.POI要求3.8以上,生成的文件格式要求是07及以上版本,因为excel07级以上版本的行数1048576,量很大,而03版本的只有6万多. 读取07及以上版本的exc…