数据智能

数字化转型浪潮下,湖仓一体如何支撑企业走向数据智能

“湖仓一体”有哪些应用价值?如何落地?

2021年05月14日
调研 | 黄勇 莫业林 撰写 | 莫业林
  • 数据智能
  • 巨杉数据库

数字化转型的核心要义是挖掘数据的价值,随着企业数字化转型的深化,跨多业务、多数据类型的新型应用场景不断涌现,海量大数据场景下的联机交易、非结构化数据治理等需求,给企业数据基础设施带来了新的挑战。新一代“湖仓一体”数据库厂商,在面向全新海量联机业务的场景中快速崛起。

当前,各行各业的数字化转型进入了快车道。数字化转型的核心要义是挖掘数据的价值,随着企业数字化转型的深化,跨多业务、多数据类型的新型应用场景不断涌现,海量大数据场景下的联机交易、非结构化数据治理等需求,给企业数据基础设施带来了新的挑战。

面对这些新需求,传统的关系型数据库难以满足。10年前,在全球数据库业界普遍还在思考如何利用MySQL、PostgreSQL替代Oracle、DB2的同时,以Snowflake、Databricks及巨杉数据库为代表,聚焦于新一代“湖仓一体”架构的数据库厂商,开始在面向全新海量联机业务的场景中快速崛起。

在数字化转型的全新技术趋势中,数据平台需要同时承载联机业务与分析能力,因此湖仓一体架构并非单纯为了OLAP分析而设计。湖仓一体架构可以支持联机交易、流处理和分析,并且同时支持结构化、半结构化和非结构化数据的存储。因此,湖仓一体真正的价值在于打通不同业务类型、不同数据类型之间的技术壁垒,实现交易分析一体化、流批一体化、多模数据一体化,最终降低数据流动带来的开发成本及计算存储开销,提升企业的运作的“人效”和“能效”。

“湖仓一体”作为企业未来数据平台的重要基础架构,需要一种强有力的分布式数据库支撑其海量、多模、多态的数据。自2011年投入产品化研发时,巨杉数据库就以此为目标,并于2013年发布了第一个商用版本。基于原生分布式数据库内核的“联机数据湖”能力,发展成为面向结构化SQL、半结构化JSON以及非结构化数据的统一数据平台。另外,巨杉数据库率先在2015年加入数据分析引擎,为客户提供具备海量联机数据处理能力的湖仓一体数据服务平台。

目前,巨杉数据库已在超过100家金融银行业客户规模化生产上线应用。在金融银行业生产环境中,运行时间最长的巨杉数据库集群已经超过7年,最大单客户集群规模达300台物理服务器,所管理的单集群最大数据量达到1万2000亿条。

总体来看,巨杉数据库被众多客户广泛应用于数据中台、影像平台以及联机交易数据库替换等多类业务场景。同时,无论在物理服务器部署、私有云、甚至公有云环境下,巨杉数据库均能够通过同一套软件架构,实现跨平台、跨底座的快速部署与应用。

数据平台架构进入“湖仓一体”新阶段,海量数据联机处理是关键

当前,企业数据管理架构的发展已迈过数据湖和数据仓库分而治之的阶段,进入“湖仓一体”的新阶段。“湖仓一体”由数据湖和数据仓库概念延伸而来,融合了两者的架构特性。在传统独立构建数据湖及数据仓库模式的基础上,“湖仓一体”演进出对不同数据类型(结构化、半结构化与非结构化)的存储和联机处理能力,为企业提供裸数据存储、数据加工、数据分析展现等能力的统一平台。

相比数据湖,“湖仓一体”能够支撑联机交易和联机分析的场景,弥补了Hadoop技术对于数据实时处理能力的重大不足。随着企业数字化转型的深化,特别是在数据中台和智能化应用进行微服务改造的过程中,企业内部出现了大量需要同时访问多个不同业务系统(几个到几百个)数据的联机交易场景,因此,底层数据库具备大规模实时联机处理能力显得尤其重要。

相比数据仓库,“湖仓一体”作为支持联机处理的统一数据底座,具备实时处理多引擎、多数据类型能力,避免不同平台间的数据移动,大大降低数据处理的时间成本。企业可以对不同岗位的研发及业务人员开放自由查询分析能力,无需通过IT部门人员进行复杂建模,提升了应用开发的敏捷性及效率,让海量数据业务从T+1走向T+0。

巨杉数据库联合创始人兼CTO王涛表示,“湖仓一体”是一类技术架构的统称,而不是某个产品。巨杉数据库对这类技术架构的布局最早可追溯到2015年,在业界形成统一认知的概念之前,就利用其特点提前5年协助客户落地湖仓一体数据架构。当前巨杉数据库已经在民生银行、广发银行、恒丰银行、渤海银行等股份制银行;广东省农信、吉林省农信、四川省农信等省级农信行;上海银行、长沙银行、广州银行等城商农商行;以及PICC人保、中国结算等超过100家头部金融银行业客户规模化生产上线。

适配微服务架构,处理海量联机交易,助力企业提升研发“人效”

在传统的核心分户帐交易业务场景(如银行账户开户等)中,业务系统相对稳定,业务逻辑变化需求相对较少,因此并非是湖仓一体分布式数据库的重点应用场景。而在服务于各类移动业务、互联网业务、音视频银行的海量联机交易场景下,湖仓一体分布式数据库应用价值则优势显著,特别是在微服务数据融合管理场景中,可以有效提升研发的“人效”。

在数字化创新的过程中,微服务架构可以有效拆解业务流程,提升服务的重用效率,因而成为了企业主流的应用开发架构。但在企业对应用层进行微服务改造的过程中,传统一个应用对接一个数据库的架构被拆散成几十甚至上百个微服务,导致数据库出现难管理、难运维的问题。研发团队面对不同业务的需求时,往往需要选用不同的数据库引擎。同时,各业务间又需要保持逻辑上ACID一致性。这样互相冲突的需求,需要借助应用程序逻辑来进行大量的事务一致性保障,导致大量消耗开发人员的设计精力。

基于引擎级多模技术,巨杉数据库通过湖仓一体架构,可有效帮助企业增强数据复用能力,全方位提升管理及开发效率。具体而言,巨杉数据库主要通过以下两个方面的技术突破,帮助企业提升在线联机交易场景的研发“人效”。

一方面,巨杉数据库通过自有专利的序列时钟协议(STP)实现了低至纳秒级的时钟调用延迟,并且拥有和传统集中式数据库同等的RR事务隔离级别。开发者可以放心地将事务一致性逻辑交由数据库层进行处理,让开发人员回归到纯粹的业务设计中,提升企业研发效率,真正实现按需的资源扩展,让企业可以更为轻松地控制TCO整体拥有成本,提升IT管理部门的投资回报率。

另一方面,巨杉数据库借助分布式技术架构下的引擎级多模技术能力(Multi-Model),构建了面向微服务架构的数据融合管理能力,能够实现跨节点的事务一致。开发者可以跨越MySQL、MariaDB及PostgreSQL的引擎界限,通过“跨引擎事务一致性”,让不同的研发团队基于同一份数据进行业务处理,自由选择适合业务的SQL语言,提升开发及管理效率。

高并发的融合联机处理能力,助力非结构化数据治理,提升数据“能效”

传统的数据流向,通常以业务系统(SQL)作为数据入口,并基于结构化数据来驱动应用的运行。因此,以往企业内容管理系统和影像管理系统所产生的非结构化数据,往往只作为归档数据,难以发挥增量价值,被定义为IT系统中的存储成本“消耗大户”。

企业在数字化转型过程中,非结构化数据(如同:音视频、声纹指纹、人脸识别等)已经进入到在线业务系统中,成为了海量数据的新入口。这些数据不但容量上远超结构化数据,而且通过持续迭代的AI和机器学习处理,会不断产生海量的标签数据,对底层数据处理平台提出了更高的实时联机处理能力要求。

可以说,过去的非结构化数据就是个黑盒子,用户完全不知道里面存储的内容,所有的信息描述都在业务系统中存放。而现在,我们则需要将黑盒子打开,为里面存储的每一个对象赋予标签、描述和内容,同时能够基于这些信息进行统一有效的管理、分类、检索和查询,实现非结构化数据治理,提升数据整体“能效”。

王涛表示,企业中的非结构化对象数据,正从“资源消耗中心”,向“数据价值中心”进行转型。客户对非结构化数据处理的要求正在不断提升,促使数据库需要对数据处理流程进行全新思考。

为此,SequoiaDB提供在同一平台同时处理结构化、半结构化和非结构化数据的能力,打破了传统模式中不同数据模型需要分开独立建设的困局,简化数据管理模型。在湖仓一体的架构下,研发人员可以在统一的数据平台下,简化数据调用流程;而运维人员更可以轻松地在统一平台下管理跨中心的高可用容灾,简化运维复杂度。巨杉数据库更提供了专用的对象存储数据类型,支持分布式架构下横向的并行写入及读取能力,相比传统的外部存储,可为客户提供高达数十倍的读写性能。

跨多云部署,为企业客户云平台选型提供更大的灵活性

如今,越来越多企业开启了“上云之路”,云计算的重要性在业界毋庸置疑。企业的云计算落地往往会按企业的需求,选型不同能力的云厂商,甚至可能会选择多家产品共同建设,这就好比选择不同的服务器存储厂商构建基础平台一样。数据库作为最重要的IT基础设施之一,也同样需要对不同云厂商提供跨多云的平台级部署能力。

巨杉数据库早在2018年即开启了打通跨多云统一部署的研发,目前已经形成一套可以同时满足裸机、私有云以及公有云环境部署的平台架构。巨杉数据库已经在多家银行客户启动基于云平台的大规模生产环境落地,同时将在今年正式推出订阅模式,进一步实现跨腾讯云、华为云、亚马逊等公有云环境的数据库云服务。

数据库选型,需要企业级商业化产品

随着新一代数据库产品陆续推向市场,企业数字化首先面临产品选型的问题。企业在产品选型的过程中,从厂商的商业模式划分,可供选择的新一代分布式数据库产品一般分为两类:面向社区的开源技术产品和面向企业的商业化产品。

王涛表示,开源产品和企业级商业化产品都是有效的产品经营模式,造成两者目标受众差异的原因,在于产品的初心不同。企业级商业化产品,从设计之初就是面向企业级整体需求,从行业长期技术趋势出发进行规划设计,而非单纯面对最终用户的短期个体需求,也因此更能满足行业技术顶层设计的需求。

基于企业级商业化的数据库产品,其优势体现在企业级能力、服务和产品三个层面。

在企业级能力层面,企业级商业化产品以付费的企业客户作为直接服务对象,能力需求直接来源于企业客户的行业诉求。因此,企业级商业化产品相比面向粉丝玩家的开源发展模式,更具备行业通用性,也更聚焦于企业级长期发展的功能及监管需求。

在服务层面,基于企业级自主研发的产品厂商,能够提供源代码级别的支持服务。企业通过购买其产品及服务,可以获得原厂商最直接的服务承诺和支持,不会受到第三方或技术社区的制约。

在产品层面,基于自研原生分布式数据库架构而设计的产品,天生具备云原生能力,可以实现数据库内核与硬件、网络及云IaaS层的分布式策略调度,可以更好地适应分布式与云计算架构的未来发展。

随着企业数字化转型的深入,企业对海量大数据的实时联机处理(包括联机交易和联机分析)需求越来越迫切。一方面,面对这些全新的应用需求,企业级的商业化产品可从企业的核心诉求出发,稳健地满足企业的应用需求。另一方面,面对业务场景带来的挑战,企业该如何应对底层的数据架构进行变革,湖仓一体无疑提供了明确的变革方向,可以有效的帮助企业提升“人效”与“能效”,帮助企业快速抓住机会,获得行业优势。

伴随着全新的数字化业务逐渐渗透到传统业务并成为核心场景,相信未来分布式数据库技术以及基于湖仓一体的数据架构应用将迎来爆发。