更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号回复【1】进入官方交流群。
 随着数字时代的发展,数据的来源和生成方式越来越广泛,数据形态也愈加丰富。
 
以某电商平台的数据情况举例。该电商平台每日产生大量数据,有些为电商平台的订单数据,包括订单号、商品数量、金额、购买时间等,由于这类数据具有明确的格式和固定的字段,并遵循一定的格式,属于结构化数据;有些如客服与客户的聊天记录、客户对具体商品的反馈等,这类数据没有固定格式和明确结构,包括文本、视频、图片、音频等,则属于非机构化数据。
 
为了能更好支撑该电商平台对数据的使用,底层数据引擎的选型要适应不同数据格式的要求,但采用多套数据引擎也会存在架构复杂、灵活性差、运维压力大等问题。那么,是否能用统一数据架构解决以上问题?
 
火山引擎ByteHouse全文检索引擎为这一问题提出了解决方案。
 
作为一款定位为OLAP的分析型数据库,ByteHouse在支持结构化数据检索方面具备先天优势,而此次发布的全文检索引擎则补齐了对非结构化、半结构化等数据的快速检索能力,让用户可以构建一体化的数据管理、查询服务,降低运维成本和资源成本。据介绍,ByteHouse全文检索引擎,能够支持商品搜索、知识库搜索、日志分析等场景下对文本数据进行关键字检索。
 
不仅仅能帮助用户精简数据架构,ByteHouse相比于行业常见的非结构化数据处理引擎,如ElasticSearch也具备明显优势。
 
在性能层面,相关测试数据显示,当单服务器日志写入量在50MB-200MB/s,每秒写入超过30w记录数的情况下,ByteHouse是ElasticSearch性能的5倍以上。在成本层面,ByteHouse具备更高数据压缩比、消耗更少的CPU资源,在保障高效查询的基础上,还能进一步压缩服务器成本。在稳定性层面,ByteHouse冷热分离机制、负载均衡策略,让数据稳定性更高。
 
除此之外,对于研发人员来说,ElasticSearch上手较难,不支持SQL,数据管理和维护较为麻烦,而ByteHouse采用SQL语法,极大降低学习成本。
 
截至目前,ByteHouse全文检索能力已经在诸多场景落地。比如,仟传网络之前通过自建ElasticSearch来提供舆情相似度检索能力,但从性能、成本角度来看,无法满足需求。从ElasticSearch迁移到ByteHouse之后,ByteHouse在几十亿数据下查询和写入都非常稳定,还让总资源成本整体节省了60%。
ByteHouse全场景分析引擎
 
“一元化数据、多元化引擎”是ByteHouse的产品理念,旨在通过构建统一的平台为用户提供更丰富的数据分析能力,实现数据效能最大化。除了全文检索引擎,ByteHouse还推出了GIS引擎、Vector引擎,让用户在享受OLAP极致性能的同时,无需引入其他架构,就能使用地理空间分析、向量检索能力,进一步提升使用体验。
 

火山引擎ByteHouse发布高性能全文检索引擎的更多相关文章

  1. Python3和高性能全文检索引擎Redisearch进行交互

    安装 pip install redisearch 使用 from redisearch import Client, TextField # 创建一个客户端与给定索引名称 client = Clie ...

  2. 全文检索引擎 Lucene.net

    全文搜索引擎是目前广泛应用的主流搜索引擎.它的工作原理是计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行 ...

  3. Lucene 全文检索引擎

    Apache Lucene PS: 苦学一周全文检索,由原来的搜索小白,到初次涉猎,感觉每门技术都博大精深,其中精髓亦是不可一日而语.那小博猪就简单介绍一下这一周的学习历程, 仅供各位程序猿们参考,这 ...

  4. Apache Lucene(全文检索引擎)—创建索引

    目录 返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://gith ...

  5. sphinx全文检索引擎

    今天刚刚学习了一下,就直接分享上去,有些还没有接触,如果有问题请指正,谢谢 sphinx是什么? Sphinx是一个全文检索引擎.主要为其他应用提供高速.低空间占用.高结果 相关度的全文搜索功能. S ...

  6. Lucene:基于Java的全文检索引擎简介

    Lucene:基于Java的全文检索引擎简介 Lucene是一个基于Java的全文索引工具包. 基于Java的全文索引/检索引擎--Lucene Lucene不是一个完整的全文索引应用,而是是一个用J ...

  7. 全文检索引擎及工具 Lucene Solr

    全文检索引擎及工具 lucence lucence是一个全文检索引擎. lucence代码级别的使用步骤大致如下: 创建文档(org.apache.lucene.document.Document), ...

  8. 各种JS模板引擎对比数据(高性能JavaScript模板引擎)

    最近做了JS模板引擎测试,拿各个JS模板引擎在不同浏览器上去运行同一程序,下面是模板引擎测试数据:通过测试artTemplate.juicer与doT引擎模板整体性能要有绝对优势: js模板引擎 Ja ...

  9. 全文检索引擎 Solr 部署与基本原理

    全文检索引擎 Solr 部署与基本原理 搜索引擎Solr环境搭建实例 关于 solr , schema.xml 的配置说明 全文检索引擎Solr系列-–全文检索基本原理 一.搜索引擎Solr环境搭建实 ...

  10. jetbrick,新一代 Java 模板引擎,具有高性能和高扩展性

    新一代 Java 模板引擎,具有高性能和高扩展性. <!-- Jetbrick Template Engineer --> <dependency> <groupId&g ...

随机推荐

  1. 聊聊 JSON Web Token (JWT) 和 jwcrypto 的使用

    哈喽大家好,我是咸鱼. 最近写的一个 Python 项目用到了 jwcrypto 这个库,这个库是专门用来处理 JWT 的,JWT 全称是 JSON Web Token ,JSON 格式的 Token ...

  2. QtCreator 跨平台开发添加动态库教程(以OpenCV库举例)- Windows篇

      Qt具有跨平台的特性,即Qt数据结构与算法库本身跨平台和编译脚本(.pro)跨平台.在同时具有Windows下和Linux开发的需求时,最好的建议是使用QtCreator来开发,虽然也可以使用其他 ...

  3. RunnerGo V4.6.0 新增功能介绍

    RunnerGo 最新V4.6.0版本不仅对原有功能进行了深度优化和改进,还新增了一些新功能. UI 插件:浮窗升级,优化浏览体验 此次更新UI插件全新升级至V2.1版本.新版取消了页面内右下角按钮的 ...

  4. 计算巢AppFlow-如何在钉钉群实现智能答疑

    随着大模型能力越来越强大,利用大语言模型进行智能答疑已经成为了一个非常普遍和常见的场景.然而,各个产品或业务方要能够准确有效地进行答疑,仅依靠大模型的通用能力是远远不够的,这时候利用私有领域FAQ文档 ...

  5. powerpoint 无法打开文件

    PowerPoint 无法打开文件 出现的问题 今天下载老师放在学习通的ppt,居然不能打开,记录一下 点击修复后出现: 这并不是文件损坏了,而是powerpoint出于安全的考虑,为了保护我们的计算 ...

  6. Windows程序读取不了中文路径问题

    问题描述 今天调试发现win32接口GetFileAttributesW居然不支持中文路径,于是寻找解决方案,找了半天,尝试用boost的fileystem库发现能用,而且boost能跨平台! 不支持 ...

  7. map数据类型

      MAP数据类型是一个类似于对象的数据类型             大型项目中会经常使用                      通过 构造函数来定义MAP数据类型             con ...

  8. 三大显卡厂商(Intel NVIDIA AMD)产品对硬件解码编码支持程度列表

    三大显卡厂商(Intel NVIDIA AMD)产品对硬件解码编码支持程度列表 以下全部为重庆Debug原创博客园独发,资料收集不易,贵请珍惜,更新日期2023年6月8日 Intel GPU解码编码的 ...

  9. kettle从入门到精通 第五十三课 ETL之kettle MQTT/RabbitMQ consumer实战

    1.上一节课我们学习了MQTT producer 生产者步骤,MQTT consumer消费者步骤.该步骤可以从支持MRQTT协议的中间件获取数据,该步骤和kafka consumer 一样可以处理实 ...

  10. java 日期 时间

    方法一(线程不安全, 不建议使用)private SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss" ...