更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号回复【1】进入官方交流群。
 随着数字时代的发展,数据的来源和生成方式越来越广泛,数据形态也愈加丰富。
 
以某电商平台的数据情况举例。该电商平台每日产生大量数据,有些为电商平台的订单数据,包括订单号、商品数量、金额、购买时间等,由于这类数据具有明确的格式和固定的字段,并遵循一定的格式,属于结构化数据;有些如客服与客户的聊天记录、客户对具体商品的反馈等,这类数据没有固定格式和明确结构,包括文本、视频、图片、音频等,则属于非机构化数据。
 
为了能更好支撑该电商平台对数据的使用,底层数据引擎的选型要适应不同数据格式的要求,但采用多套数据引擎也会存在架构复杂、灵活性差、运维压力大等问题。那么,是否能用统一数据架构解决以上问题?
 
火山引擎ByteHouse全文检索引擎为这一问题提出了解决方案。
 
作为一款定位为OLAP的分析型数据库,ByteHouse在支持结构化数据检索方面具备先天优势,而此次发布的全文检索引擎则补齐了对非结构化、半结构化等数据的快速检索能力,让用户可以构建一体化的数据管理、查询服务,降低运维成本和资源成本。据介绍,ByteHouse全文检索引擎,能够支持商品搜索、知识库搜索、日志分析等场景下对文本数据进行关键字检索。
 
不仅仅能帮助用户精简数据架构,ByteHouse相比于行业常见的非结构化数据处理引擎,如ElasticSearch也具备明显优势。
 
在性能层面,相关测试数据显示,当单服务器日志写入量在50MB-200MB/s,每秒写入超过30w记录数的情况下,ByteHouse是ElasticSearch性能的5倍以上。在成本层面,ByteHouse具备更高数据压缩比、消耗更少的CPU资源,在保障高效查询的基础上,还能进一步压缩服务器成本。在稳定性层面,ByteHouse冷热分离机制、负载均衡策略,让数据稳定性更高。
 
除此之外,对于研发人员来说,ElasticSearch上手较难,不支持SQL,数据管理和维护较为麻烦,而ByteHouse采用SQL语法,极大降低学习成本。
 
截至目前,ByteHouse全文检索能力已经在诸多场景落地。比如,仟传网络之前通过自建ElasticSearch来提供舆情相似度检索能力,但从性能、成本角度来看,无法满足需求。从ElasticSearch迁移到ByteHouse之后,ByteHouse在几十亿数据下查询和写入都非常稳定,还让总资源成本整体节省了60%。
ByteHouse全场景分析引擎
 
“一元化数据、多元化引擎”是ByteHouse的产品理念,旨在通过构建统一的平台为用户提供更丰富的数据分析能力,实现数据效能最大化。除了全文检索引擎,ByteHouse还推出了GIS引擎、Vector引擎,让用户在享受OLAP极致性能的同时,无需引入其他架构,就能使用地理空间分析、向量检索能力,进一步提升使用体验。
 

火山引擎ByteHouse发布高性能全文检索引擎的更多相关文章

  1. Python3和高性能全文检索引擎Redisearch进行交互

    安装 pip install redisearch 使用 from redisearch import Client, TextField # 创建一个客户端与给定索引名称 client = Clie ...

  2. 全文检索引擎 Lucene.net

    全文搜索引擎是目前广泛应用的主流搜索引擎.它的工作原理是计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行 ...

  3. Lucene 全文检索引擎

    Apache Lucene PS: 苦学一周全文检索,由原来的搜索小白,到初次涉猎,感觉每门技术都博大精深,其中精髓亦是不可一日而语.那小博猪就简单介绍一下这一周的学习历程, 仅供各位程序猿们参考,这 ...

  4. Apache Lucene(全文检索引擎)—创建索引

    目录 返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://gith ...

  5. sphinx全文检索引擎

    今天刚刚学习了一下,就直接分享上去,有些还没有接触,如果有问题请指正,谢谢 sphinx是什么? Sphinx是一个全文检索引擎.主要为其他应用提供高速.低空间占用.高结果 相关度的全文搜索功能. S ...

  6. Lucene:基于Java的全文检索引擎简介

    Lucene:基于Java的全文检索引擎简介 Lucene是一个基于Java的全文索引工具包. 基于Java的全文索引/检索引擎--Lucene Lucene不是一个完整的全文索引应用,而是是一个用J ...

  7. 全文检索引擎及工具 Lucene Solr

    全文检索引擎及工具 lucence lucence是一个全文检索引擎. lucence代码级别的使用步骤大致如下: 创建文档(org.apache.lucene.document.Document), ...

  8. 各种JS模板引擎对比数据(高性能JavaScript模板引擎)

    最近做了JS模板引擎测试,拿各个JS模板引擎在不同浏览器上去运行同一程序,下面是模板引擎测试数据:通过测试artTemplate.juicer与doT引擎模板整体性能要有绝对优势: js模板引擎 Ja ...

  9. 全文检索引擎 Solr 部署与基本原理

    全文检索引擎 Solr 部署与基本原理 搜索引擎Solr环境搭建实例 关于 solr , schema.xml 的配置说明 全文检索引擎Solr系列-–全文检索基本原理 一.搜索引擎Solr环境搭建实 ...

  10. jetbrick,新一代 Java 模板引擎,具有高性能和高扩展性

    新一代 Java 模板引擎,具有高性能和高扩展性. <!-- Jetbrick Template Engineer --> <dependency> <groupId&g ...

随机推荐

  1. flask blinker信号

    Flask框架中的信号基于blinker,其主要就是让开发者可是在flask请求过程中定制一些用户行为. pip3 install blinker 1.内置信号 request_started = _ ...

  2. 如何查看Linux的系统信息?

    在Linux服务器上,可以通过几个简单的命令来查看操作系统的详细信息. 1.使用uname命令获取操作系统基本信息,包括内核名称.网络节点名称.内核版本.架构等. uname -a 2.查看`/etc ...

  3. .Net 中间件 - 新开源代码生成器 -ReZero

    ReZero AP ReZero是一款.NET中间件 : 全网唯一界面操作就能生成API ,  可以集成到任何.NET6+ API项目,无破坏性,也可让非.NET用户使用exe文件 ReZero生成器 ...

  4. autojs拉人进群

    /* 微信 version:8.0.1 语言:AutoJs [https://hyb1996.github.io/AutoJs-Docs/#/] @author:奔跑的前端猿 */ auto.wait ...

  5. python-将多个表格的信息合并到一个表格中

    1.环境 代码运行环境:python3.7 相关的库:xlrd.xlwt 2.目的 通过xlrd库读取各个表格的数据,通过xlwt库将读取到的数据写入到一个表格中. 3.实现 在工程目录下,有一个te ...

  6. 解决 Https 站点请求 Http 接口服务后报 the content must be served over HTTPS 错误的问题

    问题分析 之前将自己所有的 Http 站点全部更新为 Https 站点,但是在请求后台接口服务的时候还是 Http 请求,导致部署之后,直接在控制台报 This request has been bl ...

  7. git创建分支 解决git网速太慢

                所谓的分支,就是每个人负责的不同的模块             整个项目有一个主干 master             所有的分支都是 从主干 maser 上 分支而来的   ...

  8. 自动化搭建专属 AI 绘图服务

    通义万相AIGC技术已经比较成熟,结合阿里云的计算和存储产品可以方便的搭建自己专属的 AI 绘图服务.例如<创意加速器:AI 绘画创作>这个解决方案,利用阿里自研的通义万相AIGC技术在  ...

  9. 实例讲解多处理器下的计算机启动(xv6的启动过程)

    启动 启动方面的文章之前也写过,那是我的第一篇文章,本文在前文的基础之上完善,然后增加了多处理器启动的情况,废话不多说直接来看. 启动可以分为两种,一种为冷启动,是指计算机在关机状态下按 POWER ...

  10. C#.NET HTTP Request 跳过自签名证书校验。

    public static bool CheckValidationResult(object sender, X509Certificate certificate, X509Chain chain ...