01 引言
莫听监控繁杂声,何妨观测且徐行。
智能诊断快胜马,一键运维定乾坤。
—— 引用龙蜥社区品文(毛文安)的诗
21世纪,以数字技术为代表的第四次工业革命正在加速改变世界,数字化浪潮对各行各业成席卷之势,网络化、信息化和智能化的深度融合引领着生产模式和组织方式的变革。数字化已经不是—个企业、—个行业的使命,而是全行业、全社会的共同发展趋势。如何用数据为企业赋能,如何利用数字技术实现企业业务的转型、创新和增长,已经成为当下全球企业所面临的重要课题。
数字化正在重新定义企业的未来导向,这与企业的业务模式、业务体系及客户体验息息相关,也为持续提升企业竞争力提供了核心动力。而云计算已经逐渐成为企业数字化转型的最佳选择尤其是在2020年疫 情爆发的背景之下,企业上云这—进程被按下了加速键。
云计算时代下,企业的应用交付链路越来越复杂,云原生、微服务、大型分布式等新技术给企业带来竞争力的同时,也带来了全新的挑战,“云深不可见”难题突显。这些高度动态化、分布式的云原生技术与以往截然不同,这导致复杂性变得一发不可收拾。这些复杂性已经超出了现代IT管理团队的能力极限,并且还在不断扩大。若想解决这些复杂的挑战、并随时了解瞬息万变的环境中所发生的一切,需要全新的技术出现,“可观测性(Observability)” 应运而生。
可观测性是当今IT领域最热门的话题之一,Gartner将其列为 “2023年度企业十大重要战略技术趋势”之一,并指出可观测性可以帮助企业实现数据价值最大化、加速企业数字化转型。尤其是近年来云计算的广泛普及,“可观测性”逐渐取代“监控”,成为了企业IT建设与运营的不可或缺的核心能力。可观测性作为一种技术和方法,具有广阔的发展空间,除了在IT运维领域,还可以在许多其他领域发挥作用并取得突破,为社会发展带来积极影响。
02 为什么需要可观测性成熟度模型
自2018年,云原生计算基金会(Cloud Native Computing Foundation,CNCF)正式将可观测性引入IT领域以来,可观测性市场迅速发展,涌现出一大批可观测性解决方案,企业也在寻求不同的方式打造可观测性。然而比较棘手的是,传统的监控厂商与新生的可观测性厂商,均使用了相同的术语与概念,这导致客户对于可观测性的定义变得模糊,甚至很难区分哪些是真正的可观测性方案。
随着软件系统的复杂性不断增加,以及对数字化体验的高质量需求日益增强,可观测性工具的增多成为了必然趋势。根据Enterprise Strategy Group (ESG)的一项调查,超过63%的企业组织拥有超过10种以上的工具,但即使拥有这么多工具、故障排查依然面临着困难。
图1:Enterprise Strategy Group. echTarget, (ESG)- Observability from Code to Cloud ,2022年2月
各不相同的点式工具或方案组合在一起,反而会放大孤岛效应,这些负面影响会蔓延到每一个环节,使得团队被迫忙于处理各种局部问题或孤岛噪音。由于缺乏联系纽带,团队只能将截然不同的数据模型强行整合在一起,这不仅费时费力,还容易出错。
在测试环境或生产环境采用孤岛式的可观测,会影响到DevOps或SRE团队“测试前移”工作的速度和质量。对基础设施和平台运营者而言,在多重云或混合云平台上使用多种工具会导致可观测能力存在盲区。一旦团队接收到未覆盖区域的警报和征兆,其他团队就可能会面临“翻墙而过”的问题和指责。因此可观测性能力的成长,并不能简单的依赖工具的堆砌。
随着动态云、容器、微服务和无服务器架构的趋势发展,以及需要维护企业现有的遗留系统的需求,对可观测性更高级能力的需求日益增加。在这样的背景下,建立一套可观测性成熟度模型变得非常必要。
基于对生产环境实际问题的丰富处理经验、与不同行业客户的深入交流、对最新技术的持续研究,以及与Gartner、爱分析等领先机构的对话,我们创建了可观测性成熟度模型。我们希望通过制作这个可观测性成熟度模型,帮助企业确定在可观测性道路上的位置,并为前进方向提供指引。
可观测性成熟度模型能够为组织提供一种系统性的方法来评估、改进和提升其可观测性体系建设。它帮助组织更有针对性地发展可观测能力、优化资源分配并持续改进。通过合理应用模型,可以更好地应对现代软件系统复杂性带来的挑战,实现更出色的用户体验,提高系统可靠性,并在竞争激烈的市场中取得优势。
03 可观测性成熟度模型介绍
图2:可观测性成熟度模型图
本次设计的可观测性成熟度模型,是一种用于衡量和评估企业软件系统内部可观测性的框架或方法,同时也是一种用于反馈企业可观测性体系建设成熟度水平的框架或方法。
Level 1 —— 监控(Monitoring)
Level 2 —— 基础可观测性(Basic Observability)
Level 3 —— 因果可观测性(Causal Observability)
Level 4 —— 主动可观测性(Proactive Observability)
Level 5 —— 业务可观测性(Business Observability)
可观测性成熟度模型的每个级别都必须建立在前一级别已经建立的基础之上,不能凭空构建,每个级别新增的能力,都应该有助于实现更深度的可观测性能力。
级别的提升不是渐进式的,而是明显的跨越式提升(类似量子跃迁)。尽管我们可以通过改进流程、修补问题,在一个级别之内稍微改善结果,但若想实现级别的实质性提升,需要实质性地增强多项里程碑式能力,企业为了级别的提升甚至有可能要求重构现有的可观测。
下面对可观测性成熟度模型各级别的目标与功能做简要概括: