基于ELK的简单数据分析

原文链接： http://www.open-open.com/lib/view/open1455673846058.html

环境

CentOS 6.5 64位
JDK 1.8.0_20
Elasticsearch 1.7.3
LogStash 1.5.6
Kibana 4.1.4

介绍

ElasticSearch是有名的开源搜索引擎，现在很多公司使用ELK技术栈做日志分析，比如新浪使用ELK处理每天32亿条记录，详细的介绍可以查看这里
我们的数据量没有新浪那么大，一天正常水平在6千万条左右，多的时候有一个亿条记录，受到新浪案例的启发我们基于ELK搭建自己的简单数据分析系统，刚开始选择这个的原因：(1)就我一个人折腾东西， (2)我不会前端，但是ELK中的kibana可以直接利用，(3)Hadoop/Hbase、Storm等大数据栈需要学习成本，短期内上手难度太大。(4)可用的机器数也是相当屌丝。

环境搭建

需要安装好Java，配置JAVA_HOME,bin目录添加到PATH环境变量

ElasticSearch

下载ElasticSearch，然后解压到/opt
执行/opt/elasticsearch-1.7.3/bin/elasticsearch -d 就可以在后台启动，但是为了同时管理ELK三个进程，我选择了supervisor做统一管理

启动ElasticSearch之后，我们需要关闭字符串的分词，对于数据分析的需求是不需要的，同时会存在问题，但是当作为搜索引擎的时候，这又是必须的。

关闭字符串的分词

curl -XPUT http://localhost:9200/_template/template_1 -d '{

    "template": "*",

    "settings": {

        "index.refresh_interval": "5s"

    },

    "mappings": {

        "_default_": {

            "_all": {

                "enabled": true

            },

            "dynamic_templates": [

            {

                "string_fields": {

                    "match": "*",

                    "match_mapping_type": "string",

                    "mapping": {

                        "index": "not_analyzed",

                        "omit_norms": true,

                        "type": "string"

                        }

                    }

                }

            ],

            "properties": {

                "@version": {

                    "type": "string",

                    "index": "not_analyzed"

                }

            }

        }

    }

}'

Kibana

下载Kibana,然后解压到/opt
运行/opt/kibana-4.1.4-linux-x64/bin/kibana，同样适用supervisor管理
访问http://YourIP:5601即可

Logstash

到目前为止我们还没有数据源
下载LogStash，解压到/opt
编写如下配置文件

我们的数据来源于kafka中的一个topic，格式是json，输出到elasticsearch的索引，按天变化

简单的数据分析

跑了四个多小时，差不多有890w数据
我们先来看看设备的操作系统版本号(android 4.4.4的设备最多，差不多有300万)
设备型号分布

基于ELK的简单数据分析的更多相关文章

基于ELK的传感器数据分析练习
目录 Sensor Data Analytics Application 数据构成数据模型设计 Logstash配置 Kibana可视化 Sensor Data Analytics Applicat ...
（数据科学学习手札74）基于geopandas的空间数据分析——数据结构篇
本文对应代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 geopandas是建立在GEOS.GDAL.P ...
（数据科学学习手札77）基于geopandas的空间数据分析——文件IO
本文对应代码和数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介在上一篇文章中我们对geopandas中的 ...
（数据科学学习手札78）基于geopandas的空间数据分析——基础可视化
本文对应代码和数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介通过前面的文章,我们已经对geopanda ...
（数据科学学习手札79）基于geopandas的空间数据分析——深入浅出分层设色
本文对应代码和数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介通过前面的文章,我们已经对geopanda ...
（数据科学学习手札82）基于geopandas的空间数据分析——geoplot篇(上)
本文示例代码和数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介在前面的基于geopandas的空间数据分 ...
（数据科学学习手札83）基于geopandas的空间数据分析——geoplot篇(下)
本文示例代码.数据及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介在上一篇文章中我们详细学习了geop ...
（数据科学学习手札84）基于geopandas的空间数据分析——空间计算篇（上）
本文示例代码.数据及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介在本系列之前的文章中我们主要讨论了g ...
从0搭建一个基于 ELK 的日志、指标收集与监控系统
为了使得私有化部署的系统能更健壮,同时不增加额外的部署运维工作量,本文提出了一种基于 ELK 的开箱即用的日志和指标收集方案. 在当前的项目中,我们已经使用了 Elasticsearch 作为业务的数 ...

随机推荐

Backlight当前行背景高亮显示
下载地址:https://github.com/limejelly/Backlight-for-XCode PS:Xcode 8.0 默认支持了跟VVDocumenter规范注释生成器的安装方式一样 ...
webpack学习简单总结
webpack使用总结: 入门使用: 这个报错说明需要安装相应的Loader,并在引用时指定相应的loader 执行成功如图: chunk指相应的区块. 要是css引入正确:必须引入css-loade ...
@PropertySource加载文件的两种用法以及配置文件加载顺序
第一种: 现在我把资源文件的路径放在application.properties里 config.path=/home/myservice/config.properties @PropertySou ...
[CNN] What is Convolutional Neural Network
Ref: 从LeNet-5看卷积神经网络CNNs 关于这篇论文的一些博文的QAC: 1. 基本原理 MLP(Multilayer Perceptron,多层感知器)是一种前向神经网络(如下图所示),相 ...
8 -- 深入使用Spring -- 3...1 Resource实现类UrlResource
8.3.1 Resource 实现类------UrlResource : 访问网络资源的实现类 1.访问网络资源访问网络资源通过UrlResource 类实现,UrlResource是java.n ...
【Cesium】物体显示
viewer.zoomTo(entity1); viewer.zoomTo(viewer.entities); viewer.camera.flyTo({ destination: Cesium.Ca ...
【Cesium】模型转换和使用（转）
http://52.4.31.236/convertmodel.html https://blog.csdn.net/UmGsoil/article/details/74572877 var view ...
【Android】amr播放
http://download.csdn.net/download/r8hzgemq/4877495 http://www.cnblogs.com/fengzhblog/archive/2013/08 ...
EhCache初体验
一.简介 EhCache 是一个纯Java的进程内缓存框架,具有快速.精干等特点.Ehcache是一种广泛使用的开源Java分布式缓存.主要面向通用缓存,Java EE和轻量级容器.它具有内存和磁盘存 ...
使用 urllib 解析 URL 链接
urllib 库还提供了 parse 模块,它定义了处理 URL 的标准接口,例如实现 URL 各部分的抽取.合并以及链接转换,常用的方法如下: In []: from urllib.parse im ...

基于ELK的简单数据分析

环境

介绍

环境搭建

ElasticSearch

Kibana

Logstash

简单的数据分析

基于ELK的简单数据分析的更多相关文章

随机推荐

热门专题