菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 思科IT可观测性成本削减86%消除重大故障
其他资讯 可观测性

思科IT可观测性成本削减86%消除重大故障

2026-06-09
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

思科IT整合可观测性平台,将日志、指标等数据统一至Splunk,实现成本削减86%,重大事故减

当观测数据孤立时,再多的告警也无法避免故障

当多个数据库集群同时发生故障时,思科IT团队实际上已握有解决问题所需的所有数据。预警信号早已触发,工程师们也注意到了。但核心矛盾在于——这些信号分散在多个互不关联的独立系统中,彼此之间缺乏数据联动,事故发生时团队无法进行实时关联分析。

思科IT通过统一可观测性平台将成本降低86%并消除关键网络中断

后续发生了什么?一场持续三小时的“紧急作战会议”,分裂出三条独立的电话线路。工程师们在一条线上争论问题归属,应用负责人在另一条线上等待数据库恢复,高管们则在第三条线上向业务合作伙伴解释用户为何无法下单。根因最终被定位,但宕机造成的业务损失已成为既定事实。

正是这次事件,催生了一项关键整合项目。思科IT可观测性团队产品经理Anusha Nataraj在思科Live大会上完整分享了这一历程。

项目的成果十分显著:重大事故数量减少25%,连续六个季度实现零重大网络故障。这套系统覆盖超过1500个应用程序(其中71个以上面向外部用户),横跨10万余个端点,每月处理超过1.5万次变更。而支撑这一切的核心平台,正是思科在2024年完成收购的Splunk。如今,思科IT正在自己的全球基础设施上运行着这套自研产品。

“数据我们都有,所有数据都在,但就是没有被串联起来,无法看到全局。”Nataraj如是说。

整合前的碎片化困境

整合之前,思科IT的可观测性环境并非只有一个缺口,而是处处存在断裂。日志数据零散地分布在部分部署的Splunk实例和Elastic实例中;指标数据则横跨Prometheus、Grafana和自研方案。事件管理跑在另一套独立的自研平台上。这些系统之间互不关联,数据如同孤岛各自为政。

团队并非没有考虑过继续沿用原有的混合方案——包括Datadog和Elastic,也评估过拼凑起来的开源替代品。最终放弃这些方案,是因为三个硬伤:无法扩展到思科IT的运营规模、缺乏所需的AI能力,以及没有一条思科IT作为客户能够参与影响的产品路线图。

“它们在部门层面能运转,但根本撑不起整个IT体系的需求,AI成熟度也达不到我们的预期。”Nataraj说。

她特别强调,这个决策与2024年的收购事件无关。团队是基于自身需求独立评估了Splunk,最终因其契合度、可扩展性和AI路线图才作出的选择。

值得注意的是,这次整合遵循了清晰的三步推进顺序:

第一步,日志整合:将所有日志迁移至Splunk Cloud,同步退役Elastic和其他日志实例。

第二步,指标整合:目前正在推进中,随着工作逐步完成,Prometheus、Grafana和自研技术栈将陆续退役。

第三步,通过ITSI引入业务上下文:团队正在部署IT服务智能平台(ITSI),在统一的日志与指标数据之上叠加业务维度的洞察。

可观测性总体拥有成本削减86%的成果,正是来自第一阶段。超过400台本地服务器及其关联存储设备被下线退役,多平台许可证得以整合,负责监控这些服务器的承包商人员数量也随之缩减。“我们下线了大量本地服务器,超过400台,相关的存储设备也全部关停,这省下了很大一笔钱。”Nataraj说。

从“紧急作战会议”到单屏处置

运营模式的变革,在事故响应方式上体现得最直观。大会期间播放的一段演示视频完整呈现了现在的流程:当ITSI触发告警时,只需单击一下,就能启动一个定制化AI智能体。这个智能体实时查询日志、指标、链路追踪数据、拓扑结构和近期变更记录,然后以自然语言输出一份故障摘要——说明“故障是什么、为何发生、如何修复”,并为DevOps、应用和SRE团队分别提供针对性的处置建议。如果需要升级处理,智能体还会自动为值班工程师起草交接说明。整个过程在一个界面里完成,甚至不需要创建事故工单。

效果立竿见影。一旦出现问题,三线并行的“紧急作战会议”已彻底成为历史。团队可以直接定位问题所在,响应行动只涉及真正需要处理的人。“事故数量实际上下降了25%,过去六个季度里没有发生过任何重大网络故障。”Nataraj说。

对同规模IT运营团队的实践启示

Nataraj为同等规模的IT运营团队梳理了这次项目的几个实用经验:

先统一数据,再引入AI。没有统一的数据平台,AI连可靠的基础都没有。必须先把所有数据纳入统一架构,一切才有意义。

实现跨团队数据共享。数据关联分析只有相关团队都能访问数据才有价值,所以从一开始就要构建跨域数据共享机制。

将变更与发布数据纳入可观测性体系。打通变更管理记录和可观测性数据,使团队能够把故障追溯回引发问题的具体变更,并维护相应的回滚方案。

将成本节约转化为创新预算。总体拥有成本的大幅削减,为团队从日常监控工作中解放出来提供了资源保障。原本负责容量管理和服务器监控的工程师,如今基于Splunk的MCP工具构建AI智能体,参与新工具的Alpha和Beta测试,并将产品反馈直接输送给思科Splunk团队。“以前他们纯粹是在关闭工单,”Nataraj说,“现在他们是创新者,戴上了产品经理的帽子,对自己的工作真的感到满意。”

工作满意度提升、人才留存率改善、承包商数量减少——Nataraj把这些都列为项目可量化的投资回报。“让团队保持积极性、让他们感到满意,对每一个组织来说都是实实在在的投资回报。”她说。

Q&A

Q1:思科IT的可观测性整合项目具体取得了哪些成果?

A:可观测性总体拥有成本削减86%,主要来自退役超过400台本地服务器及其存储设备、整合多平台许可证以及减少承包商人员。与此同时,重大事故数量下降25%,过去六个季度内零重大网络故障。覆盖范围涵盖超过1500个应用程序、逾10万个端点,每月处理超过1.5万次变更。

Q2:思科IT为什么选择Splunk作为可观测性整合的核心平台?

A:团队评估了Datadog、Elastic及开源替代方案等多个选项。放弃它们的原因有三:无法扩展至思科IT的运营规模、AI能力成熟度不足、缺乏思科IT作为客户能够参与影响的产品路线图。Splunk凭借契合度、可扩展性及AI发展路线图脱颖而出,这一决策独立于2024年的收购事件。

Q3:思科IT在事故响应中使用的AI智能体是如何工作的?

A:当ITSI触发告警时,工程师只需单击一下即可启动定制化AI智能体。该智能体实时查询日志、指标、链路追踪、拓扑及变更记录,以自然语言输出故障原因与修复建议,并为DevOps、应用和SRE团队提供针对性操作指引。如需升级,智能体还会自动起草值班交接说明,整个过程在单一界面内完成。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多