以HADOOP为代表的云计算提供的仅仅是一个算法执行环境,为大数据的并行计算提供了在现有软硬件水平下最好的(近似)方法。并不能解决大数据应用中的全部问题。从详细应用而言,通过物联网方式接入IT圈的数据供应商(Data Provider)所面临的首要问题是数据分析的算法。其次才是算法的并行计算。

以汽车厂商(OEM,Tire1,Vendor,TSP)为例,所面临的大数据问题在 4V(Volume,Velocity,Variety,Veracity/Value)中,最突出的差异是Velocity,即实时性(Real Time)。有些信号的更新周期达到10ms。当然从应用採样和算法处理角度而言,可能并不须要这么密的数据,这就涉及到系统架构的差别,哪些功能放在终 端上执行。哪些功能在后台server上执行。以发动机转速信号为例。总线上这个信号的周期通常是10ms±5%,假设整个车联网系统要做的仅仅是驾驶员行为分析
(反映车辆执行状态),根本就用不上这么高频度的採样周期,全然能够10s往后台打包发一次数据。可是假设整个车联网的应用是发动机故障诊断或防盗报警, 须要的精度就不一样了,正常启动转速低于500rpm差点儿能够肯定发动机异常。假设等到30s后驾驶员才得到提示,发动机就该冒烟了。

而对于一些事件触发 信号,如锁车状态下发动机异常启动,后台server推断车辆被盗的时间要求则更高。

IT行业在评估系统採用NoSQL还是SQL的时候,汽车上数据处理首先面临的是怎样搜索。不同于传统互联网行业的文本数据,物联网或车辆网面对的都是时间序列数据(Time Series Data),在这一点上,看股市走势图上各种眼花缭乱的曲线就知道了。当某个信号样本被定义为故障模式后,历史数据里面是否还存在类似的曲线。这在时间序列里被成为相似度搜索(Similarity Search)的问题。

假设某个信号曲线总是周期反复,并呈现一定上升或下降趋势,未来是否能能对这个信号做出预測。这就是数据预測(Data Prediction)的问题。其他数据相关分析、数据聚类等被统称为数据挖掘(Data
Mining)的技术则建立在结构化数据的基础上。目的在于减少数据维度(Variety)。眼下在汽车控制和分析领域的应用实在有限。

遗 憾的是时间序列的分析和处理在车联网领域差点儿没有成熟的工具和方法,即使Matlab、R、Python这类专业的数学工具,提供的算法库也非常少。这一方 面是由于物联网行业积累的数据还不够丰富,应用前景不清晰;另有一些如股市数据、视频流数据、语音数据等。与传感网络数据性质类似。尽管受到重视。但涉及 安全与机密,难以开放成果。更重要的是,时间序列数据的处理涉及各专业应用领域的技术和方法。处理难度非常大。以汽车速度这一数据为例,机械工业时代大家关心的单位是小时,电子和信息工业时代单位是秒,在物联网行业中全过程、大样本的场景下讨论的则是毫秒,数据量和处理速度的要求超出现有普通计算机能力。

移动终端上速度来源于GPS或
MEMS(Velocity和Veracity较低。但获取easy),车载终端上可能来自轮速和发动机转速(Velocity和Veracity相对较高。 但获取困难)。在进数据库之前,不同数据源的解析要求也不一样。

但不管怎样,对数据的模式匹配或相似度搜索的要求都是共同的,因此在这一研究方向亟待可project化的计算方法。

Similarity Search最早提出似乎是在1993年(Agrawal),那时的数据还称不上海量,对“相似度”的定义更理论化一些。数学上对同样的定义是非常easy的,比方欧式距离(Euclidean Disatance)和动态时间弯曲(Dynamic Time Warping),但“相似”就会牵涉到程度的问题,不是简单设定一个容差或排序就能解决的。从算法project化的角度来说。牺牲精确性来提升算法的时间和空间效率是非常有必要的。

数据比較理想情况下也能够用模型相似(线性、多项式、指数),假设周期性比較明显也能够转换成频域方式用压缩相似来度量,但最直观的还是形态相似(上升、下降),普遍的做法是将时间曲线分段,这方面已经有一些可用的算法,但效果非常难达到大规模应用的要求。

* PAA(Piecewise Aggregate Approximation),分段累积近似

* PLA(Piecewise Linear Representation)。分段线性表示

* SAX(Symbolic Aggregate Approximation)。符号集合近似

* LM(Landmark Model),界标模型

相似度的定义本质上是描写叙述数据的基本特征,通过特征空间的定义来减少数据维度。

维度建立起来后就能对进入数据库的数据建立索引。压缩搜索的空间,为搜索算法的开发提供基础。

vehicle time series data analysis的更多相关文章

  1. 《利用Python进行数据分析: Python for Data Analysis 》学习随笔

    NoteBook of <Data Analysis with Python> 3.IPython基础 Tab自动补齐 变量名 变量方法 路径 解释 ?解释, ??显示函数源码 ?搜索命名 ...

  2. An Introduction to Stock Market Data Analysis with R (Part 1)

    Around September of 2016 I wrote two articles on using Python for accessing, visualizing, and evalua ...

  3. 数据分析---《Python for Data Analysis》学习笔记【04】

    <Python for Data Analysis>一书由Wes Mckinney所著,中文译名是<利用Python进行数据分析>.这里记录一下学习过程,其中有些方法和书中不同 ...

  4. 数据分析---《Python for Data Analysis》学习笔记【01】

    <Python for Data Analysis>一书由Wes Mckinney所著,中文译名是<利用Python进行数据分析>.这里记录一下学习过程,其中有些方法和书中不同 ...

  5. 《python for data analysis》第十章,时间序列

    < python for data analysis >一书的第十章例程, 主要介绍时间序列(time series)数据的处理.label:1. datetime object.time ...

  6. 《python for data analysis》第九章,数据聚合与分组运算

    # -*- coding:utf-8 -*-# <python for data analysis>第九章# 数据聚合与分组运算import pandas as pdimport nump ...

  7. 《python for data analysis》第七章,数据规整化

    <利用Python进行数据分析>第七章的代码. # -*- coding:utf-8 -*-# <python for data analysis>第七章, 数据规整化 imp ...

  8. 《python for data analysis》第五章,pandas的基本使用

    <利用python进行数据分析>一书的第五章源码与读书笔记 直接上代码 # -*- coding:utf-8 -*-# <python for data analysis>第五 ...

  9. Autocorrelation in Time Series Data

    Why Time Series Data Is Unique A time series is a series of data points indexed in time. The fact th ...

随机推荐

  1. C#编译器优化

    C#编译器优化 https://www.cnblogs.com/podolski/p/8987595.html 使用C#编写程序,给最终用户的程序,是需要使用release配置的,而release配置 ...

  2. BZOJ 1485 卡特兰数 数学

    思路: 通过打表观察 这是个卡特兰数 但是它mod的数不是质数 怎么办呢 把所有数分解质因数好了 线性筛出mindiv  顺着mindiv分解质因数 复杂度$O(nlogn)$ //By Sirius ...

  3. [XJOI]noip45 T2 图

    ***图*** 解题思路:这题的原题似乎好像是NOI某年的题目,然后数据改水了 于是就可以用一些简单的最短路算法水掉. 因为他是要求max(a)+max(b)的值,所以单纯的最短路是不行的 我们可以枚 ...

  4. web前端处理订单待支付倒计时计算显示问题

    在商城类项目的时候,有很多待支付的订单,有时候在订单列表页面会分别显示倒计时,就是页面会有很多倒计时的订单. 处理方法: 1.调用后端接口拿到所有的订单,获取所有的倒计时订单,获取到期时间(尽量时间戳 ...

  5. Hadoop MapReduce编程 API入门系列之挖掘气象数据版本3(九)

    不多说,直接上干货! 下面,是版本1. Hadoop MapReduce编程 API入门系列之挖掘气象数据版本1(一) 下面是版本2. Hadoop MapReduce编程 API入门系列之挖掘气象数 ...

  6. Solr.NET快速入门(八)【多核多实例,映射验证】

    多核/多实例 本页介绍如何配置SolrNet访问(读/写)多个Solr内核或实例. 它假定您知道Solr内核是什么,如何在SolrNet外部配置和使用它们. 此页面不涵盖CoreAdminHandle ...

  7. 原型模式(Prototype)C++实现

    意图:用原型实例指定创建对象的种类,并且通过拷贝这些原型创建新的对象. 实用性:1.当要实例化的类是在运行时刻指定时. 2.为了避免创建一个与产品类层次平行的工厂类层次时. 3.当一个类的实例只能有几 ...

  8. WindowsNT设备驱动程序开发基础

    一.背景介绍 1.1WindowsNT操作系统的组成1.1.1用户模式(UserMode)与内核模式(KernelMode) 从Intel80386开始,出于安全性和稳定性的考虑,该系列的CPU可以运 ...

  9. 二分图的最大独立集 最大匹配解题 Hopcroft-Karp算法

    二分图模型中的最大独立集问题:在二分图G=(X,Y;E)中求取最小的顶点集V* ⊂ {X,Y},使得边 V*任意两点之间没有边相连. 公式: 最大独立集顶点个数 = 总的顶点数(|X|+|Y|)- 最 ...

  10. 统计之都 http://cos.name/

    http://cos.name/ IMS:一个洲际人际交流网络(为学生免费提供会员资格) 原文链接:http://cos.name/2014/07/ims-a-cross-continent-huma ...