注意：由于是重复数据，词法不具有通用性！文章价值不大！

摘自：https://segmentfault.com/a/1190000002695169

Doc Values 会压缩存储重复的内容。给定这样一个简单的 mapping

mappings = {

    'testdata': {

        '_source': {'enabled': False},

        '_all': {'enabled': False},

        'properties': {

            'name': {

                'type': 'string',

                'index': 'no',

                'store': False,

                'dynamic': 'strict',

                'fielddata': {'format': 'doc_values'}

            }

        }

    }

}

插入100万行随机的重复值

words = ['hello', 'world', 'there', 'here']

def read_test_data_in_batches():

    batch = []

    for i in range(10000 * 100):

        if i % 50000 == 0:

            print(i)

        if len(batch) > 10000:

            yield batch

            batch = []

        batch.append({

            '_index': 'wentao-test-doc-values',

            '_type': 'testdata',

            '_source': {'name': random.choice(words)}

        })

    print(i)

    yield batch

磁盘占用是

size: 28.5Mi (28.5Mi)

docs: 1,000,000 (1,000,000)

把每个word搞长一些，同样是插入100万行

words = ['hello' * 100, 'world' * 100, 'there' * 100, 'here' * 100]

def read_test_data_in_batches():

    batch = []

    for i in range(10000 * 100):

        if i % 50000 == 0:

            print(i)

        if len(batch) > 10000:

            yield batch

            batch = []

        batch.append({

            '_index': 'wentao-test-doc-values',

            '_type': 'testdata',

            '_source': {'name': random.choice(words)}

        })

    print(i)

    yield batch

磁盘占用不升反降

size: 14.4Mi (14.4Mi)

docs: 1,000,000 (1,000,000)

这说明了lucene在底层用列式存储这些字符串的时候是做了压缩的。这个要是在某个商业列式数据库里，就这么点优化都是要大书特书的dictionary encoding优化云云。

Nested Document

实验表明把一堆小文档打包成一个大文档的nested document可以压缩存储空间。把前面的mapping改成这样：

mappings = {

    'testdata': {

        '_source': {'enabled': False},

        '_all': {'enabled': False},

        'properties': {

            'children': {

                'type': 'nested',

                'properties': {

                    'name': {

                        'type': 'string',

                        'index': 'no',

                        'store': False,

                        'dynamic': 'strict',

                        'fielddata': {'format': 'doc_values'}

                    }

                }

            }

        }

    }

}

还是插入100万行，但是每一千行打包成一个大文档

words = ['hello', 'world', 'there', 'here']

def read_test_data_in_batches():

    batch = []

    for i in range(10000 * 100):

        if i % 50000 == 0:

            print(i)

        if len(batch) > 1000:

            yield [{

                '_index': 'wentao-test-doc-values2',

                '_type': 'testdata',

                '_source': {'children': batch}

            }]

            batch = []

        batch.append({'name': random.choice(words)})

    print(i)

    yield [{

        '_index': 'wentao-test-doc-values2',

        '_type': 'testdata',

        '_source': {'children': batch}

    }]

磁盘占用是

size: 2.47Mi (2.47Mi)

docs: 1,001,000 (1,001,000)

文档数没有变小，但是磁盘空间仅仅占用了2.47M。这个应该受益于lucene内部对于嵌套文档的存储优化。

Elasticsearch压缩索引——lucene倒排索引本质是列存储+使用嵌套文档可以大幅度提高压缩率的更多相关文章

ElasticSearch入门第四篇：使用C#添加和更新文档
这是ElasticSearch 2.4 版本系列的第四篇: ElasticSearch入门第一篇:Windows下安装ElasticSearch ElasticSearch入门第二篇:集群配置 E ...
读《深入理解Elasticsearch》点滴-对象类型、嵌套文档、父子关系
一.对象类型 1.mapping定义文件 "title":{ "type":"text" }, "edition":{ ...
amazon redshift 分析型数据库特点——本质还是列存储
Amazon Redshift 是一种快速且完全托管的 PB 级数据仓库,使您可以使用现有的商业智能工具经济高效地轻松分析您的所有数据.从最低 0.25 USD 每小时 (不承担任何义务) 直到每年每 ...
时间序列数据库选型——本质是列存储，B-tree索引，抑或是搜索引擎中的倒排索引
时间序列数据库最多,使用也最广泛.一般人们谈论时间序列数据库的时候指代的就是这一类存储.按照底层技术不同可以划分为三类. 直接基于文件的简单存储:RRD Tool,Graphite Whisper.这 ...
Druid.io索引过程分析——时间窗，列存储，LSM树，充分利用内存，concise压缩
Druid底层不保存原始数据,而是借鉴了Apache Lucene.Apache Solr以及ElasticSearch等检索引擎的基本做法,对数据按列建立索引,最终转化为Segment,用于存储.查 ...
OpenTSDB介绍——基于Hbase的分布式的，可伸缩的时间序列数据库，而Hbase本质是列存储
原文链接:http://www.jianshu.com/p/0bafd0168647 OpenTSDB介绍 1.1.OpenTSDB是什么?主要用途是什么? 官方文档这样描述:OpenTSDB is ...
ELK学习笔记之ElasticSearch的索引详解
0x00 ElasticSearch的索引和MySQL的索引方式对比 Elasticsearch是通过Lucene的倒排索引技术实现比关系型数据库更快的过滤.特别是它对多条件的过滤支持非常好,比如年龄 ...
elasticsearch——海量文档高性能索引系统
elasticsearch elasticsearch是一个高性能高扩展性的索引系统,底层基于apache lucene. 可结合kibana工具进行可视化. 概念: index 索引: 类似SQL中 ...
〈二〉ElasticSearch的认识：索引、类型、文档
目录上节回顾本节前言索引index 创建索引查看索引查看单个索引查看所有索引删除索引修改索引修改副本分片数量关闭索引索引别名增加索引别名: 查看索引别名: 删除索引别名: 补充 ...

随机推荐

git 添加远程仓库后无法push
push的时候提示fatal: refusing to merge unrelated histories 假如我们的源是origin,分支是master,那么我们需要这样写git pull o ...
HTTP Keep-Alive是什么？如何工作？(转)
add by zhj: 本篇只是Keep-Alive的第一篇,其它文章参见下面的列表. 原文: HTTP Keep-Alive是什么?如何工作? 1. HTTP Keep-Alive是什么?如何工作? ...
这些Python骚操作，你知道吗？
0x00 世界,你好程序员第一次接触语言或者框架,基本上都有个 Hello World 的例子,这里 Python 直接将它做成了一个包. 0x01 Python 哲学 Python 执行 i ...
【我的Android进阶之旅】解决 Error:CreateProcess error=216, 该版本的 %1 与您运行的 Windows 版本不兼容。请查看计算机的系统信息，了解是否需要 x86
一.错误描述刚刚打开Android Studio新建一个项目,然后就编译不了,报了如下所示的错误: 错误描述为: Error:CreateProcess error=216, 该版本的 %1 与您运 ...
C#设置当前程序通过IE代理服务器上网
注意:以下设置只在当前程序中有效,对IE浏览器无效,且关闭程序后,自动释放代码. using System; using System.Collections.Generic; using Syste ...
php 获取数组中的key值
<?php $arr = array( 'book' => 1, 'data' => 'data', 'music' => 'music', 'img' => 'img' ...
django生成json
好方便啊……list什么的一下都变成json了呢! import json from django.core.serializers.json import DjangoJSONEncoder def ...
flex graphiclar symbol的不同比例尺切换
private var cityGraL:GraphicsLayer;//标记城市 maxScale=50000 private var siteGraL:GraphicsLayer;//标记站点 m ...
CF960G(第一类斯特林数)
题目 CF960G 做法设$f(i,j)$为$i$个数的序列,有$j$个前缀最大值的方案数我们考虑每次添一个最小数,则有:\(f(i,j)=f(i-1,j)+(i-1)*f(i-1,j ...
java:java静态代理与动态代理简单分析
java静态代理与动态代理简单分析转载自:http://www.cnblogs.com/V1haoge/p/5860749.html 1.动态代理(Dynamic Proxy) 代理分为静态代理和动 ...

Elasticsearch压缩索引——lucene倒排索引本质是列存储+使用嵌套文档可以大幅度提高压缩率