一:简介:原文链接:jubat.us/en/  xuwenq.iteye.com/blog/1702746

Jubatus http://jubat.us/en/overview.html 是一个面向大数据数据流的分布式在线机器学习的开源框架,和storm有些类似,但是从介绍上来看,它提供了更多的功能。 
 Jubatus认为未来的数据分析平台应该同时向三个方向展开:处理更大的数据,深层次的分析和实时处理;而当前还没有一种能够处理不断生成的流式大数据的水平可扩展的分布式架构。Hadoop的mapreduce能够处理大数据,但不能做复杂的机器学习算法;Apache Mahout是基于Hadoop的机器学习平台,但不适用于在线处理数据流。 
Jubatus将在线机器学习,分布式计算和随机算法等的优势结合在一起用于机器学习,并支持分类,回归,推荐等基本元素。根据其设计目的,Jubatus有如下的特点:

  • 可扩展:支持可扩展的机器学习处理。在普通硬件集群上处理数据速度高达100000条/秒
  • 实时计算:实时分析数据和更新模型
  • 深层次的数据分析:支持各种分析计算:分类,回归,统计,推荐等

Jubatus还是一个很年轻的项目,当前最新的发布版本是0.3.2(c++), 但暂时还没有看到有商业使用的例子;如果有基于流数据的机器学习方面的需求,还是关注一下的。

二:又一链接blog.csdn.net/jixuan1989/article/details/7880978

Abstract:In
the coming era of extremely large databases, computer science will face new challenges in real Big Data applications such as nation-wide M2M sensor network analysis, online advertising optimization for millions of consumers, and real-time security monitoring
on the raw Internet traffic. In such applications, it is impractical or useless to apply ordinary approaches for data analysis on small datasets by storing all data into databases, analyzing the data on the databases as a batch-processing, and only visualizing
the summarized output. In fact, the future of data analytics platform should expand to three directions at the same time, handling even bigger data, applying deep analytics, and processing in real-time. However, there has been no such analytics platform for
massive data streams of continuously generated Big Data with a distributed scale-out architecture. For example, Hadoop is not equipped with sophisticated machine learning algorithms since most of the algorithms do not fit its MapReduce paradigm. Though Apache
Mahout is also a Hadoop-based machine learning platform, online processing of data streams is still out of the scope.
在即将到来的超大规模数据库的时代,计算机科学将在实时大数据应用上面临新的挑战,比如全国M2M传感器网络分析,面向百万级别用户的在线广告优化,和互联网流量的实时安全监控。在这些应用中,使用传统的用来处理小数据集的方式进行数据分析是不切合实际的,这种传统方式往往把所有数据存在数据库中、使用一个批处理在数据库中分析数据、并且仅仅可视化输出概要数据。事实上,未来的数据分析平台应该同时向三个方向展开:处理更大的数据、深层的分析、实时处理。然而,在分布式水平扩展架构上还没有这样的分析平台来处理不断生成大数据的数据流。比如说,由于大多数算法无法适应Hadoop
的Map/Reduce框架,因此 Hadoop 不能做复杂的机器学习算法。尽管Apache Mahout 也是一个基于Hadoop的机器学习平台,但在线处理数据流仍然超出了他的能力范围。
Jubatus
is the first open source platform for online distributed machine learning on the data streams of Big Data. We use a loose model sharing architecture for efficient training and sharing of machine learning models, by defining
three fundamental operations; Update, Mix, and Analyze, in a similar way with the Map and Reduce operations in Hadoop. The point is how to reduce the size of model and the number of the Mix operations while keeping high accuracy, since Mix-ing large models
for many times causes high networking cost and high latency in the distributed environment. Then our development team includes competent researchers who combine the latest advances in online machine learning, distributed computing, and randomized algorithms
to provide efficient machine learning features for Jubatus. Currently, Jubatus supports basic tasks including classification, regression, and recommendation. A demo system for tweet categorization on fast Twitter data streams is available.

Jubatus是第一个面向大数据数据流的分布式在线机器学习的开源平台。我们使用一个松散的模型通过定义了三种基本操作来共享有效训练的架构
并且共享机器学习模型,这三种方式做事:更新、混合、分析,这是一种和Hadoop中的Map 、Reduce操作类似的方式。关键点是如何在保持高精准度的同时来减小模型的大小和混合操作的数量,因为多次混合大模型将导致在分布式环境下的高网络消耗和高潜伏期。我们的开发团队中有这样的研究者:他们结合了在在线机器学习、分布式计算和随机算法中的最新的优点以提供Jubatus高效的机器学习特点。目前,Jubatus支持基本的任务,包括分类、回归和推荐。一个在Twitter的数据上的信息分类演示系统已经可用了。

三:项目主页:jubat.us/en/

Jubatus is a distributed processing framework and streaming machine learning library. Jubatus includes these functionalities:

  • Online Machine Learning Library: Classification, Regression, Recommendation (Nearest Neighbor Search), Graph Mining, Anomaly Detection, Clustering
  • Feature Vector Converter (fv_converter): Data Preprocess and Feature Extraction
  • Framework for Distributed Online Machine Learning with Fault Tolerance

Table of Contents

待翻译........................

OnLineML一:关于Jubatus 的简介...的更多相关文章

  1. ASP.NET Core 1.1 简介

    ASP.NET Core 1.1 于2016年11月16日发布.这个版本包括许多伟大的新功能以及许多错误修复和一般的增强.这个版本包含了多个新的中间件组件.针对Windows的WebListener服 ...

  2. MVVM模式和在WPF中的实现(一)MVVM模式简介

    MVVM模式解析和在WPF中的实现(一) MVVM模式简介 系列目录: MVVM模式解析和在WPF中的实现(一)MVVM模式简介 MVVM模式解析和在WPF中的实现(二)数据绑定 MVVM模式解析和在 ...

  3. Cassandra简介

    在前面的一篇文章<图形数据库Neo4J简介>中,我们介绍了一种非常流行的图形数据库Neo4J的使用方法.而在本文中,我们将对另外一种类型的NoSQL数据库——Cassandra进行简单地介 ...

  4. REST简介

    一说到REST,我想大家的第一反应就是“啊,就是那种前后台通信方式.”但是在要求详细讲述它所提出的各个约束,以及如何开始搭建REST服务时,却很少有人能够清晰地说出它到底是什么,需要遵守什么样的准则. ...

  5. Microservice架构模式简介

    在2014年,Sam Newman,Martin Fowler在ThoughtWorks的一位同事,出版了一本新书<Building Microservices>.该书描述了如何按照Mic ...

  6. const,static,extern 简介

    const,static,extern 简介 一.const与宏的区别: const简介:之前常用的字符串常量,一般是抽成宏,但是苹果不推荐我们抽成宏,推荐我们使用const常量. 执行时刻:宏是预编 ...

  7. HTTPS简介

    一.简单总结 1.HTTPS概念总结 HTTPS 就是对HTTP进行了TLS或SSL加密. 应用层的HTTP协议通过传输层的TCP协议来传输,HTTPS 在 HTTP和 TCP中间加了一层TLS/SS ...

  8. 【Machine Learning】机器学习及其基础概念简介

    机器学习及其基础概念简介 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...

  9. Cesium简介以及离线部署运行

    Cesium简介 cesium是国外一个基于JavaScript编写的使用WebGL的地图引擎,一款开源3DGIS的js库.cesium支持3D,2D,2.5D形式的地图展示,可以自行绘制图形,高亮区 ...

随机推荐

  1. JVM 性能调优监控工具 jps、jstack、jmap、jhat、jstat、hprof 使用详解

    转自:  https://my.oschina.net/feichexia/blog/196575 摘要: JDK本身提供了很多方便的JVM性能调优监控工具,除了集成式的VisualVM和jConso ...

  2. 06.系统编程-3.进程VS线程比较

    1.定义的不同 ==进程是系统进行资源分配和调度的一个独立单位.== ==线程是进程的一个实体,是CPU调度和分派的基本单位==,它是比进程更小的能独立运行的基本单位.线程自己基本上不拥有系统资源,只 ...

  3. vue.js 中 data, prop, computed, method,watch 介绍

    vue.js 中 data, prop, computed, method,watch 介绍 data, prop, computed, method 的区别 类型 加载顺序 加载时间 写法 作用 备 ...

  4. Tp5 一次修改多个数据update

    //商城矿机设置 public function shop(){ if(!request()->isPost()){ return $this->fetch(); }else { $myd ...

  5. 【微软2017年预科生计划在线编程笔试 B】Tree Restoration

    [题目链接]:https://hihocoder.com/problemset/problem/1490 [题意] 给你一棵树的以下信息: 1.节点个数 2.给出树的每一层从左到右的顺序每个节点的编号 ...

  6. (35)Spring Boot集成Redis实现缓存机制【从零开始学Spring Boot】

    [本文章是否对你有用以及是否有好的建议,请留言] 本文章牵涉到的技术点比较多:Spring Data JPA.Redis.Spring MVC,Spirng Cache,所以在看这篇文章的时候,需要对 ...

  7. 洛谷 P2764 LibreOJ 6002 最小路径覆盖问题

    题目描述 «问题描述: 给定有向图G=(V,E).设P 是G 的一个简单路(顶点不相交)的集合.如果V 中每个顶点恰好在P 的一条路上,则称P是G 的一个路径覆盖.P 中路径可以从V 的任何一个顶点开 ...

  8. 0726xtrbackup实例详解

    转自http://www.cnblogs.com/olinux/p/5207887.html MySQL中的xtrabackup的原理解析 xtrabackup的官方下载地址为 http://www. ...

  9. [bzoj2131]免费的馅饼_树状数组

    免费的馅饼 bzoj-2131 题目大意: 注释:$1\le n \le 10^5$,$1\le w \le 10^8$. 想法:首先,想到dp 状态:dp[i][j]表示i分钟在位置j的最大收益 优 ...

  10. Kafka中文文档学习笔记

    文档位置: /Users/baidu/Documents/Data/Interview/机器学习-数据挖掘/Kafka 据说是目前见到的最好的 Kafka 中文文章 . Kafka 是一个消息系统,原 ...