以下将通过具体场景对比,进一步阐述全栈智能可观测中心的核心价值与落地实践。
02.全栈智能可观测中心与Tivoli的监控场景对比
IBM Tivoli需通过多个子产品组合实现监控(ITM负责基础架构、ITCAM侧重组件监控、Omnibus处理事件管理),复杂度高且维护成本大。而全栈智能可观测中心作为现代化国产运维监控系统,旨在提供一个更现代化、更统一、更能开箱即用的全栈可观测平台,在大部分的监控场景中,全栈智能可观测中心一个产品就能实现Tivoli三个子产品的效用:
1)基础架构与组件监控
国产运维监控系统全栈智能可观测中心提供开箱即用的监控能力,覆盖操作系统、数据库、中间件等基础组件,支持通过插件化方式对接各类信创环境。相较于ITM的基础资源监控和ITCAM的组件级监控,全栈智能可观测中心通过统一数据模型实现指标、日志、追踪、告警数据的融合采集,显著降低了多系统集成的复杂度。平台提供SDK、标准协议和自定义插件三种接入方式,满足国产运维监控系统的企业级全栈观测需求。
2)虚拟化与容器监控
全栈智能可观测中心这款国产运维监控系统不仅支持OpenStack、VMware ESX等虚拟化平台监控,还能一体化纳管云环境,通过插件化扩展实现公有云、私有云的全面监控。在容器监控领域,其支持原生Kubernetes接入,提供从基础设施到PaaS层的完整监控链路,有效支撑企业云原生转型,而Tivoli对容器技术的适配能力薄弱,难以满足国产运维监控系统用户的现代化架构需求。
3)硬件设备监控
在硬件设备监控领域,Tivoli主要依赖SNMP协议监控网络设备,对物理机、存储设备的监控能力有限。而作为国产运维监控系统,全栈智能可观测中心支持SNMP、IPMI、SMI-S、Trap和Syslog等多协议,实现硬件设备的指标、日志、告警统一监控,覆盖网络、物理机、存储等全品类硬件,体现国产运维监控系统的全面性。
4)应用性能监控
Tivoli体系中的ITCAM虽然提供APM能力,但常局限于对特定应用的监控,如SAP和其他企业资源规划 (ERP) 应用程序。与其他APM工具相比,ITCAM的集成能力非常有限,且安装复杂,用户界面陈旧等原因难以在国内推广。
而国产运维监控系统全栈智能可观测中心则采用现代化的探针埋点服务进程的方式,自动探测分布式服务端到端调用链路,自动生成服务调用拓扑,从应用、服务、接口、调用4个层次层层深入,监控应用的健康状态和调用性能;并支持基础资源监控进行联动和下钻分析,辅助问题根因分析,提升问题定位效率。同时还支持应用服务调用视角、应用资源关联视角、服务分析视角、接口分析视角、Trace调用链路视角多视角分析查看和追踪问题。
5)告警事件闭环能力
Tivoli将高级事件处理能力(如去重、丰富、关联)集中于Netcool/OMNIbus,子产品ITM中只具备基本的告警列表、规则和处理能力,并且事件规则的配置需要专门的技能进行脚本化配置和维护。
全栈智能可观测中心则将从告警管理、规则配置、处理、自动化转工单到抑制、屏蔽、丰富、关联分析等全流程能力内建于平台。其核心优势在于提供了可视化的告警规则配置界面,大幅降低了使用门槛,使普通运维人员也能轻松掌握和维护,促进告警规则的持续优化和知识沉淀,从而不断提升告警的准确性和有效性。
Omnibus复古的配置页面,理解和配置门槛都很高
03.全栈智能可观测中心替换Tivoli事件规则实操
截至目前,已有近十个项目成功将IBM Tivoli替换为国产运维监控系统全栈智能可观测中心。一个核心且常见的需求是将Tivoli系统中长期积累的事件规则迁移至全栈智能可观测中心平台。然而,这项任务面临一个关键挑战:Tivoli的事件规则通常以脚本形式存在,这些脚本往往缺乏清晰的文档记录,甚至客户自身也难以完全解读其复杂的逻辑。这种不透明性直接导致在全栈智能可观测中心中准确、完整地复现这些关键规则变得异常困难。
过去,这一迁移过程高度依赖具备深厚Tivoli专业知识的专业人员进行人工分析和解读,不仅耗时费力,实施效率也因此受到极大限制,项目周期常常被拉长。
幸运的是,随着大语言模型(LLM)技术的兴起与应用,全栈智能可观测中心团队探索并实践了一套创新的解决方案。我们现在可以利用大模型对Tivoli的规则脚本进行自动化分析,智能地生成一份详尽且易于理解的规则说明清单。
具体操作流程得以显著简化:实施团队现在只需将客户提供的Tivoli规则脚本文件,输入大模型进行分析,即可快速获得一份清晰、结构化的规则逻辑描述文档。基于这份文档,运维人员便可以参照具体的说明,在全栈智能可观测中心友好的可视化界面中高效、准确地完成相应告警规则的配置。
Tivoli导出的规则脚本清单
自动化分析后的脚本说明清单
04.更多全栈可观测能力
全栈智能可观测中心作为嘉为蓝鲸倾力打造的一款全栈可观测产品,作为成熟的国产运维监控系统,经过持续迭代,已覆盖业务全栈系统资源监控、K8s容器监控、云平台监控、硬件设备监控、网站服务拨测、日志统一管理、应用性能观测、业务场景监控、告警闭环管理等多个领域的可观测场景,满足国产运维监控系统用户的多样化需求。
为了实现上述各种观测场景的落地,产品设计上结合PaaS+SaaS的理念,抽象各个场景的公共能力,融合成一套底层能力框架,并且能够和企业内的运维体系工具联动集成,支撑上层的场景扩展,以适应企业不断变化的可观测场景和管理诉求。
图中由下而上,依次是监控对象、数据集成、数据中台、能力中心、观测场景五层以及外部集成模块。
监控对象:按照业务系统分层逻辑,划分归纳企业内需要监控对象,分别有数据中心的机房机柜动环对象,计算、存储、网络、安全等硬件设备,虚拟化、云、OS、容器等系统资源,数据库、中间件等通用基础组件,业务、应用场景、服务等业务应用,全面覆盖国产运维监控系统的监控范畴。
数据集成:基于Agent、Plugin、SNMP、Script、JMX、JDBC/ODBC、OT协议、SDK探针、拨测、数据上报管道等多种数据接入的渠道,实现性能指标数据、日志数据、Trace链路数据、事件数据、告警数据的集中接入,保障国产运维监控系统的数据全面性。
数据中台:集中提供数据清洗、数据传输、数据存储、数据查询、数据计算能力,为国产运维监控系统的高效运行提供支撑。
能力中心:按数据类型提供不同的数据处理能力。例如指标数据的检测、预测、关联、检索能力;日志数据的解析、关键字、聚类、检索能力;Trace数据的链路、拓扑、关系、分析能力;告警数据的去重、收敛、关联、根因分析能力;以及面向用户的仪表盘、报表、数据检索的视图能力,构建国产运维监控系统的核心技术壁垒。
观测场景:按照可观测领域划分的监控中心、日志中心、应用观测中心、业务监控、告警中心五大核心场景,基于这些通用场景之上的数据联动分析场景,以及用户基于观测能力自行构造的场景,丰富国产运维监控系统的应用维度。
外部集成:可以两部分考虑:一是从外部系统采集数据,例如对接第三方的监控、告警、日志系统获取对应的数据进行集中管理;二是对接外部的系统进行联动管理,例如对接外部CMDB进行监控对象管理,对接外部的自动化系统和工单系统进行告警处置等,增强国产运维监控系统的生态适配性。
05.结论
总的来说,在国产化替代与云原生转型趋势下,全栈智能可观测中心作为领先的国产运维监控系统,凭借一体化云原生架构、全栈端到端可观测能力及信创生态支持,全面突破IBM Tivoli因架构陈旧、国产化适配不足、多产品割裂导致的运维瓶颈,助力企业通过优先替换容器监控、云平台监控及业务观测等Tivoli薄弱环节,快速实现从“被动救火”到“智能预防”的运维模式升级,彰显国产运维监控系统在数字化转型中的核心价值。返回搜狐,查看更多