前言

此文节选自TMF Big Data Analytics Guidebook。

TMF文档版权信息 

Copyright © TeleManagement Forum 2013. All Rights Reserved.

This document and translations of it may be copied and furnished to others, and derivative works that comment on or otherwise explain it or assist in its implementation may be prepared, copied, published, and distributed, in whole or in part, without restriction of any kind, provided that the above copyright notice and this section are included on all such copies and derivative works. However, this document itself may not be modified in any way, including by removing the copyright notice or references to TM FORUM, except as needed for the purpose of developing any document or deliverable produced by a TM FORUM Collaboration Project Team (in which case the rules applicable to copyrights, as set forth in the TM FORUM IPR Policy, must be followed) or as required to translate it into languages other than English.

数据存储

这层提供了大数据平台所有数据的存储,包括装载后的原始数据、中间数据以及参考模型中其它层处理后的数据。

数据存储层具备处理海量数据所需的可扩展性和灵活性,数据存储层可以位于:

  • 本地,例如CSP的内部数据中心;
  • 私有云或公有云。

数据存储层与其它层之间存在交互,可以视为“数据总线”。

数据存储层存储的数据有:

  • 非结构化数据
  • 结构化数据
  • 半结构化数据

在大数据分析平台的部署场景中,数据存储很少只采用一种技术,大多数情况下会组合使用不同的存储和处理技术,从而完成业务实现和系统优化。例如,一些特定的技术用来缓存、汇总和优化数据,从而这些数据易于被其它层的功能模块有效地处理。

大数据存储的一个典型用法是采用NoSQL数据库和大规模并行处理技术(如MapReduce)实现大数据的快速存储,然后可以查询部分数据,或者将其导出至传统的关系型数据库(RDBMS),便于BI或者报表工具处理和呈现。

数据治理

大数据对于企业和政府部门的挑战不仅在于如何管理客户和公民数据,还在于如何应对安全领域的问题,因此,需要新的技术和方法解决这些新生的威胁。TMF研究报告表明,建立客户的信任是当前CSP通过大数据盈利时最关心的问题。为了建立客户的信任,CSP应该采取以下措施:

  • 采取和遵守行业最佳实践和生产准则;
  • 遵守法律法规

以上问题促使整个行业将隐私和安全作为大数据分析参考模型和最佳实践的组成部分。

为了使CSP、公共数据、CSP数据消费者和其它行业数据源形成的数据生态系统落实到位,数据交换非常重要,特别是负责客户数据的数据拥有者,在数据价值链中发挥着关键角色。

在CSP组织内部,数据治理是一个全局的业务流程。有些CSP的数据治理通过数据治理委员会管理。数据治理涵盖了安全、隐私和法律法规领域,定义了每类客户和网络数据的管理策略和实施。

数据治理是一个涵盖性术语,它包括多项参考模型的功能。

参考模型功能

数据治理层纳入了所有其它大数据分析平台的分层,并提供如下功能:

  • 隐私:管理、保护和保存;
  • 安全:加密、认证和访问控制;
  • 法律法规:法律、法规的遵从。

情景维度

  • 收集:用户个人数据的收集;
  • 使用:用户个人数据的存储、操作和使用;
  • 披露:用户个人数据的披露,包括任何可回溯至单个用户的汇总数据。

隐私管理

隐私管理是为了解决用户对数据透明、数据可选择性以及可视化设置隐私信息的需求。

隐私管理应用于个人身份信息PII(Personal Identification Information)。匿名化技术可以将带有个人身份信息PII的数据转换为不带个人身份信息PII的数据。

CSP管理的隐私策略

  • 默认的隐私策略
  • 收集、使用和披露用户个人信息的上下文

用户管理的隐私设置

  • 选择加入和选择退出的隐私设置
  • 收集、使用和披露用户个人信息的可视化
  • 用户个人信息保存期限

隐私保护

隐私保护为每个用户数据提供了隐私保护策略:

  • CSP管理的隐私策略
  • 单个用户管理的隐私设置

隐私保护提供基于以上策略的用户数据收集、存储、使用和披露的控制功能。

隐私保存

隐私保存提供用户细节数据和汇总数据的披露功能。

匿名化技术

隐私保存涉及用户数据披露的匿名化技术,例如:

  • K匿名模型(K-anonymity)
  • 伪匿名
  • 个人身份信息的修订(Redaction of Personally Identifiable Information)

微分隐私保护技术

近期在微分隐私保护技术领域的研究提供了已被数据证明的隐私保护技术。微分隐私保护技术旨在保护隐私的同时兼顾数据可用性。

安全

加密

加密能力提供数据的存储和传输安全。数据可能存储在大数据平台,或者数据装载和交换时的临时存储。

认证

基于上下文感知的认证服务用于从外部访问大数据平台的各层功能。上下文信息包括被访问的分层、被认证实体的角色和访问目的。

访问控制

访问控制提供基于角色和上下文感知的访问控制功能。

法律法规

法律法规的遵从包括根据区域、日期和时间收集、使用和披露数据的法律和法规,遵从可以是强制的,也可以是可选的(最佳实践、生产准则),包括下面3种类型:

  • 法律遵从
  • 法规遵从
  • 最佳实践和生产准则

TMF大数据分析指南 Unleashing Business Value in Big Data(二)的更多相关文章

  1. TMF大数据分析指南 Unleashing Business Value in Big Data(一)

    大数据分析指南 TMF Frameworx最佳实践 Unleashing Business Value in Big Data 前言 此文节选自TMF Big Data Analytics Guide ...

  2. A survey of best practices for RNA-seq data analysis RNA-seq数据分析指南

    A survey of best practices for RNA-seq data analysis RNA-seq数据分析指南 内容 前言 各位同学/老师,大家好,现在由我给大家讲讲我的文献阅读 ...

  3. 大数据分析常用去重算法分析『Bitmap 篇』

    大数据分析常用去重算法分析『Bitmap 篇』  mp.weixin.qq.com 去重分析在企业日常分析中的使用频率非常高,如何在大数据场景下快速地进行去重分析一直是一大难点.在近期的 Apache ...

  4. 使用Kylin构建企业大数据分析平台的4种部署方式

    本篇博客重点介绍如何使用Kylin来构建大数据分析平台.根据官网介绍,其实部署Kylin非常简单,称为非侵入式安装,也就是不需要去修改已有的 Hadoop大数据平台.你只需要根据的环境下载适合的Kyl ...

  5. 《基于Apache Kylin构建大数据分析平台》

    Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿 武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者 ...

  6. 《开源大数据分析引擎Impala实战》目录

    当当网图书信息: http://product.dangdang.com/23648533.html <开源大数据分析引擎Impala实战>目录 第1章  Impala概述.安装与配置.. ...

  7. 【转】使用Apache Kylin搭建企业级开源大数据分析平台

    http://www.thebigdata.cn/JieJueFangAn/30143.html 本篇文章整理自史少锋4月23日在『1024大数据技术峰会』上的分享实录:使用Apache Kylin搭 ...

  8. 用Storm轻松实时大数据分析【翻译】

    原文地址 简单易用,Storm让大数据分析变得轻而易举. 如今,公司在日常运作中经常会产生TB(terabytes)级的数据.数据来源包括从网络传感器捕获的,到Web,社交媒体,交易型业务数据,以及其 ...

  9. 【转帖】自助式BI的崛起:三张图看清商业智能和大数据分析市场趋势

    自助式BI的崛起:三张图看清商业智能和大数据分析市场趋势 大数据时代,商业智能和数据分析软件市场正在经历一场巨变,那些强调易用性的,人人都能使用的分析软件正在取代传统复杂的商业智能和分析软件成为市场的 ...

随机推荐

  1. Runtime Error(ACCESS_VIOLATION)

    1.     while(scanf("%d",&n) )// 错误,会出现  Runtime Error(ACCESS_VIOLATION) while(scanf(&q ...

  2. ES索引瘦身 压缩——_source _all 均disable filed store为no,引入第三方DB存储原始数据,去掉pos倒排和doc_values,强制定期merge segments,将所有fileds合并为一个field big string

    原始数据:835MB ES 设置了_source _all disabled 且设置了仅仅存docs倒排Wed Feb 22 11:58:27 CST 2017Before size:1 /home/ ...

  3. UI层自动化测试介绍

    UI指的是用户可以用肉眼可以看到的页面. UI层自动化测试的原理.不论是web端还是移动端,原理都是一样的,就是基于页面元素的识别和定位来进行模拟用户行为. 首先识别到某个元素,比如一个按钮,然后定义 ...

  4. python基础-条件语句if

    if语句: if 判断条件: 执行语句 else: 执行语句 flag = Falsename = 'huipaodexiong'if name == 'python':    flag = True ...

  5. Mybatis学习--动态SQL

    学习笔记,选自Mybatis官方中文文档:http://www.mybatis.org/mybatis-3/zh/dynamic-sql.html MyBatis 的强大特性之一便是它的动态 SQL. ...

  6. OSS阿里云文件上传 demo。

    所需jar包: aliyun-openservices-1.2.3.jar jdom-1.1.jar commons-codec-1.4.jar commons-logging-1.1.1.jar g ...

  7. [Luogu3960][NOIP2017]列队

    luogu sol 震惊!\(NOIP\)居然也出数据结构! 话说回来,其实只需要对每一行的前\(m-1\)个人维护一个数据结构,然后对最后一列的\(m\)个人也维护一个数据结构就好了.具体的话写平衡 ...

  8. 2017.10.1北京清北综合强化班DAY1

    a[问题描述]你是能看到第一题的 friends 呢.——hja何大爷对字符串十分有研究,于是天天出字符串题虐杀 zhx. 何大爷今天为字符串定义了新的权值计算方法.一个字符串 由小写字母组成,字符串 ...

  9. Django学习(1)——python manage.py startapp app-name新建app报错问题

    作为一个刚接触python的小白,开始学习Django注定前路漫漫,记录一下学习过程中的问题和解决方案. 感谢“自强学堂”的无私奉献,根据教程安装了Django 1.9.12后,尝试新建项目,此时使用 ...

  10. 【JSON解析】JSON解析

    前三篇博客分别介绍了xml的三种解析方法,分别是SAX,DOM,PULL解析XML,兴趣的朋友可以去看一下这[XML解析(一)]SAX解析XML,[XML解析(二)]DOM解析XML,[XML解析(三 ...