܄

从存算分离到湖仓一体,StarRocks的创新永不止步!

【数据猿导读】 近期,由 StarRocks 社区发起、镜舟科技主办的 StarRocks 年度大型技术交流峰会 StarRocks Summit 2023 在上海成功举行,向我们展示了业界最新的发展动向。面对海量、异构的数据处理需求,以及日益增长的实时数据分析挑战,StarRocks不仅提供了解决方案,更开创了新的技术路径。...

从存算分离到湖仓一体,StarRocks的创新永不止步!

近期,由 StarRocks 社区发起、镜舟科技主办的 StarRocks 年度大型技术交流峰会 StarRocks Summit 2023 在上海成功举行,向我们展示了业界最新的发展动向。面对海量、异构的数据处理需求,以及日益增长的实时数据分析挑战,StarRocks不仅提供了解决方案,更开创了新的技术路径。从最初瞄准OLAP领域,到今天引领湖仓一体化的浪潮,StarRocks的每一步发展都引领着大数据技术的演进方向。

为了探查潮水的涌动方向,数据猿采访了镜舟科技CEO孙文现、CTO张友东,在此基础上,本文将深入探索StarRocks的创新之旅,分析其核心技术,探讨镜舟科技的商业策略,以及未来StarRocks的发展前景,旨在为读者提供一个全面、深入的视角。

大数据时代的挑战,与StarRocks的崛起

在大数据时代,企业和机构面临着空前的数据挑战。

随着数据量的急剧增长,传统的数据处理系统在面对大规模、异构数据时常常显得力不从心。这些系统往往需要长时间来处理和分析数据,导致企业无法快速做出基于数据的决策。例如,金融机构在处理复杂的交易数据时,如不能迅速分析和响应市场变动,可能会错失关键的投资机会或无法及时识别风险。

另一个关键挑战,是数据湖与数据仓库的分离。这种分离在实际操作中往往导致数据孤岛,影响数据的整合和分析效率。例如,在零售行业中,由于数据分散在不同的存储系统中,企业在进行市场分析和客户洞察时,往往难以实现数据的即时访问和全面分析。

随着互联网和移动设备的普及,企业需要实时处理和分析数据,以支持快速的业务决策和客户反馈。在这种背景下,对于那些无法提供实时数据处理能力的传统数据分析工具来说,这是一个重大的短板。

为了克服这些挑战,急需一种能够高效处理大规模异构数据、整合数据湖与数据仓库、并提供实时数据分析能力的新型数据处理解决方案。正是这些需求,催生了StarRocks这样的创新解决方案。

StarRocks的崛起标志着一个新纪元的开始,StarRocks最初的创立背景在于填补大数据领域OLAP的空白,其目标是提供一个能够高效处理大量数据、支持复杂查询的分析平台。在这个基础上,StarRocks逐步发展,成为了数据分析领域的一颗璀璨明星。

随着时间的推移,StarRocks不断进化,适应日益增长的市场需求和技术挑战。它从最初聚焦OLAP,转变为更加全面的湖仓一体解决方案。这一转变是对市场需求的直接响应,特别是在处理海量数据、实现数据湖与数据仓库的无缝整合方面。

从存算分离到湖仓一体,StarRocks的进化之路

在大数据生态中,StarRocks凭借其先进的技术和强大的性能,占据了独特的地位。那么,StarRocks有哪些独特的能力呢?接下来,我们将具体分析。

存算分离

在传统的数据处理系统中,计算和存储通常是紧密耦合的,这种架构在处理大规模数据时会遇到瓶颈。例如,当数据量增加时,系统不得不同时扩展存储和计算资源,即使实际上可能只需要扩展其中之一。这不仅增加了成本,还降低了灵活性。

StarRocks通过存算分离架构解决了这一问题。在这种架构中,计算节点负责执行SQL查询和数据分析,而存储节点专注于数据存储和管理。这种分离带来的主要好处包括:

弹性扩展:允许企业独立地扩展计算和存储资源,提供更大的灵活性来应对不同的工作负载和业务需求;

成本优化:企业可以根据需要单独扩展存储或计算资源,避免不必要的开支;

性能提升:计算节点可以专注于查询优化和执行,而不受限于数据的物理存储方式。

然而,存算分离架构虽然有诸多好处,但因为访问远端存储比访问本地存储的延时要高很多,这通常会带来一些性能损失。比如,在TPC-DS 1TB对比测试中,相对于存算一体架构,存算分离在导入延时会增加30%,查询总耗时增加3倍。

为了解决存算分离可能带来的性能影响,StarRocks引入了统一的数据缓存层StarCache。StarCache通过缓存热点数据,减少了对存储系统的直接访问,从而提高了查询性能。这一设计使得StarRocks在保持高弹性和低成本的同时,也能保证高效的数据处理能力。

存算分离_湖仓一体_StarRocks-1

需要指出的是,存算分离不仅是一种技术上的创新,更代表了对数据处理理念的根本性转变。StarRocks的存算分离架构在提升系统灵活性和降低成本方面起到了关键作用,而StarCache的引入则确保了性能不会因此受损。这些创新使得StarRocks能够有效处理大规模、复杂的数据集,满足现代企业对于数据处理的高效率和高性能需求。

湖仓一体

在存算分离基础上,StarRocks 3.0的另一大创新是湖仓一体化。这一概念的引入,标志着StarRocks从单纯的OLAP数据库向更加综合的数据处理平台转变,意味着StarRocks能够无缝集成数据湖和数据仓库的功能,实现数据的统一管理和分析。在这一架构下,无论数据存储在传统的数据仓库中,还是存储在如Apache Hadoop等数据湖技术中,StarRocks都能提供高效的查询和分析能力。

存算分离_湖仓一体_StarRocks-2

StarRocks湖仓一体架构

为了实现湖仓一体,StarRocks进行了一系列技术创新。比如,StarRocks采用了开放的lakehouse架构,它结合了数据湖的规模经济和数据仓库的性能优势,将数据写入StarRocks可以提供比在数据湖上更出色的查询性能;通过物化视图简化数据的ETL,简化湖仓分层建模,并通过物化视图实现查询加速。

StarRocks通过湖仓一体化提供了统一的数据视图,使得用户可以无缝地访问存储在数据湖和数据仓中的数据,这种统一性极大地简化了数据的访问和分析过程。

此外,随着业务需求对数据分析的实时性要求越来越高,StarRocks通过其高效的架构设计,能够支持对大规模数据的即时查询和分析,这对于需要实时业务洞察的应用场景(如电子商务、金融服务等)尤为重要。

将技术封装成产品,镜舟科技的StarRocks商业化之路

StarRocks实现了诸多技术突破,但要将这些技术能力应用在实际的业务场景中,还需要在此基础上开发出商业落地产品。为此,镜舟科技将StarRocks的核心技术融入到其企业级商用数据库中,形成了可落地的产品。正是基于StarRocks的能力,镜舟科技的企业级商用数据库具备多方面的优势,具体表现在:

● 极致数据处理性能

镜舟数据库采用了MPP架构,允许多个处理单元并行执行复杂的数据查询和分析任务,极大地提高了数据处理的速度和效率。

Star Schema Benchmark(以下简称 SSB)是学术界和工业界广泛使用的一个星型模型测试集,通过这个测试集合可以方便的对比各种 OLAP 产品的基础性能指标。在标准测试数据集的 13 个查询上,StarRocks 整体查询性能是 ClickHouse 的 2.1 倍,Apache Druid 的 8.7 倍。更进一步,StarRocks 启用 Bitmap Index 后整体查询性能是未启用的 1.3 倍,此时整体查询性能是 ClickHouse 的 2.8 倍,Apache Druid 的 11.4 倍

存算分离_湖仓一体_StarRocks-3

通过性能测试数据可以看出,基于StarRocks研发的镜舟数据库在处理大规模数据集时,相比传统数据库系统展现出显著的性能优势,尤其在执行复杂的数据聚合、分析和报表生成等操作时,速度快且资源利用率高。

● 极速数据分析能力,可提供实时业务洞察

镜舟数据库的另一大优势是其极速的数据分析能力,这得益于StarRocks的高效查询引擎和优化的数据存储格式。在实时业务环境中,这意味着镜舟能够快速地提供数据洞察和分析结果,帮助企业即时做出基于数据的决策。无论是市场趋势分析、客户行为分析还是运营效率优化,镜舟都能提供实时且准确的数据支持。

● 统一架构与数据模型

镜舟数据库的统一架构和数据模型,意味着企业可以在同一平台上处理各类数据,无论是来自数据湖的非结构化数据还是数据仓库的结构化数据。这种统一性简化了数据管理和分析流程,降低了企业数据架构的复杂性。同时,统一的湖仓架构使得数据的存储和分析更加高效和灵活,满足了现代企业对数据多样性和大规模处理的需求。

● 流批一体,实时数据更新与处理

在当今的商业环境中,能够实时处理和分析数据变得越来越关键。镜舟的流批一体特性使得企业能够实时捕捉并响应市场和业务动态,无论是对即时的交易数据进行分析,还是对持续产生的日志数据进行监控,都能保证数据的时效性和准确性。

● 在线弹性扩容与高可用性

镜舟数据库能够根据业务需求动态调整资源配置,这在云计算环境中尤为重要。这一特性不仅提高了资源的使用效率,也降低了运维成本。高可用性则保证了系统的稳定性和可靠性,即使在面临硬件故障或网络问题时,也能保证数据的持续可访问性和业务的连续性。

综上所述,镜舟科技基于StarRocks的技术优化和特色功能,成功打造了一个具有多方面优势的企业级商用数据库。其在性能、实时分析能力、流批处理、扩展性和高可用性方面的优势,不仅提升了企业的数据处理能力,也为企业提供了强大的数据支持,以适应快速变化的商业环境和日益增长的数据需求。

据悉,目前已有超过300家市值10亿美金的企业使用 StarRocks。其中,不乏一些我们耳熟能详的名字,比如微信近实时的数据写入到 Iceberg;携程数据统一存储在 Hive,采用 StarRocks 直接查询加速报等;芒果 TV 采用 StarRocks 存算分离作为统一的 Lakehouse,所有数据导入到 StarRocks 进行统一管理。

目前,StarRocks 社群用户已突破1万,并依然保持着高速增长态势。而且,用户对 StarRocks 的部署规模也在快速增长。

据孙文现介绍,镜舟科技基于 StarRocks 打造的企业级产品全年经历了近百次POC,成功率达到90%以上。

接下来,我们就以典型的客户案例,来说明镜舟数据库产品的实际应用价值。

案例1:某智能汽车企业——更实时的用户数据分析,更深入的用户洞察

随着汽车行业向数字化和智能化的快速发展,智能汽车企业面临着将大数据应用于生产、营销、服务等多个环节的挑战。数据成为推动智能汽车企业发展的关键要素,特别是在车联网数据日益增多的背景下。这些数据覆盖了车辆、车主、充电桩、销售等众多复杂场景,对数据管理和分析提出了更高的要求。

为应对这些挑战,一家知名智能汽车企业采用了镜舟数据库技术。镜舟科技的解决方案通过整合和分析来自不同场景和平台的数据,提供了全方位的支持。这不仅包括了对生产数据、车辆硬件设备数据、充电设备数据等的分析,以确保制造环节的高效、稳定和安全,还包括了对市场营销和服务保障中的车主行为、消费数据、行驶数据等的深入分析,帮助企业更好地理解用户需求,并提供定制化的营销策略。

引入镜舟数据库后,该智能汽车企业在数据处理和分析能力上取得了显著提升。实时数据分析指导帮助企业在试驾等售前环节提供差异化体验,同时通过对车主行为的实时分析,为客户提供更加个性化的服务。此外,通过镜舟数据库的强大OLAP能力,企业能够高效地处理多源数据,实现了业务数据的统一和实时处理。这不仅提升了客户体验,也为企业带来了更多的业务机会和竞争优势。

案例2:中欧财富——数据平台分析效率与性能的双重提升

中欧财富,作为中欧基金旗下的控股子公司,一直在金融服务领域努力提供专属的理财解决方案。随着金融行业数据资产规模的快速增长和实时数据分析的高需求,中欧财富面临着数据平台分析效率与性能的双重挑战。在业务决策和客户服务方面,实时、精准的数据处理变得至关重要,这要求中欧财富能够有效管理和利用其庞大的数据资产。

为了解决这些挑战,中欧财富与镜舟科技合作,基于StarRocks打造了一个实时、统一的数据平台。镜舟科技专门针对中欧财富的业务数据问题提出优化方案,涵盖自营平台、恒生平台以及CRM平台等多个业务场景。通过实施多层次的数据平台建设,包括基础数据层、计算层、数据流层、数据仓库、数据管理和数据应用等,镜舟科技帮助中欧财富实现了极速、精准的数据分析和处理。

优化后的中欧财富数据平台,显著提升了用户服务和业务决策的效率。例如,理财师能够通过实时更新的报表快速获取关键客户信息,为客户提供更高效的服务。同时,数据分析人员得以利用聚合数据和统一服务进行更深入的市场分析,提升业务决策的准确性。技术团队也因平台的有效数据查询功能,能够更快发现并解决数据问题,确保业务运行的稳定性。这一创新应用的成功,不仅提升了中欧财富的数据运营能力,也为其数字化转型提供了坚实基础。

进化,永不止步

在当前的数字化时代,企业面临的数据量呈爆炸式增长,特别是在中国这样一个快速发展的市场中,这种现象尤为显著。企业不仅需要处理来自传统业务系统的数据,还需要整合来自社交媒体、物联网设备、在线交易等多个渠道的大数据。这些数据的有效处理和分析,对企业的运营效率、市场洞察和决策能力至关重要。

镜舟这样的厂商,基于StarRocks研发企业级商用数据库产品和解决方案,以其出色的性能,能够为企业提供更加灵活和高效的数据服务,特别是在处理大规模、复杂的数据集方面显示出强大的能力,这使得它非常适合中国市场上那些正在迅速扩展其业务并寻求高效数据解决方案的企业。

此外,中国市场的企业正面临着数字化转型的挑战和机遇。这不仅要求企业能够处理越来越大的数据量,还要求能够从这些数据中提取出有价值的洞察以指导业务决策。基于StarRocks的数据库产品、解决方案,能够支持这种高级的数据分析和大数据处理,符合中国市场企业在数字化转型中的核心需求。

当然,为了更好的承接这些市场需求,StarRocks本身的技术进阶之路永不止步,未来它将在云原生、实时数据分析、大模型能力等方面持续进化。

在云原生方面,随着企业越来越多地转向云计算环境,StarRocks将进一步优化其在云环境中的性能和可用性,这包括提高在多云和混合云环境中的适配性、增强弹性和自动化运维能力。云原生的发展也意味着StarRocks将在容器化、微服务化和DevOps实践中得到更深入的应用,从而提供更灵活、高效且可伸缩的数据服务。

在实时数据分析方面,StarRocks将进一步优化其流处理能力,减少数据延迟,提高数据吞吐量。这将使企业能够更快地做出基于数据的决策,及时响应市场变化。

大模型支持方面,StarRocks将通过优化数据存储结构、全面向量化引擎和加强机器学习算法等方法,来提升其大模型处理能力。这不仅有助于提高数据查询和分析的速度,也有助于提升数据挖掘和预测的准确性。

此外,镜舟这样的企业,通过与云服务提供商、软件开发商和行业解决方案提供商等伙伴的深入合作,StarRocks可以进一步扩大其在企业级市场的影响力,构建更加强大和丰富的数据解决方案生态。总之,无论从技术发展还是商业落地层面,基于StarRocks的产业生态都将更趋繁荣,这是一个值得期待的数据未来。

文:月满西楼 / 数据猿


来源:数据猿

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

我要评论

数据猿微信公众号
2023第七届上海AI大会暨医药和医疗创新峰会
2023深圳物联网展
人工智能博览会
FMW2023全球闪存峰值
2023世界农业科技创新大会暨世界农业科技博览会
返回顶部