案例分享|交通银行:基于运维大模型的系统健康巡检与告警处理智能化实践
本文内容由交通银行数据中心系统部的施翔和杨达楷两位专家共同分享与贡献。
导语 从年初爆火的deepseek,到现在混元,千问各个大模型层出不穷,AI也一下子走进了大家的视野,也几乎彻底的改变了我们生活。 交通银行作为国有大银行之一,“数智融合”也成为了 2025年的必选课题。交通银行作为全球系统重要性银行,以“建设具有特色优势的世界一流银行集团”为战略目标,着力谱写科技金融、绿色金融、普惠金融、养老金融、数字金融五篇大文章。数据中心则侧重于数字金融方面,如何充分利用数字技术和数据要素,不断加大应用创新,持续优化资源配置,面向客户提供智能化金融服务,面向经营管理实现数字化金融展业,更好地服务经济社会高质量发展,也是我们每个运维人员的重要工作方向之一。在这个AI时代,如何深化人工智能应用是关键一步,那我们就要充分运用算力、算法、数据这三大要素。 目录 一、为什么选择MCP? 二、MCP服务开发 三、Dify嵌入Zabbix 四、“一键诊断”与“运维机器人”的场景探索 五、后续场景规划
一、为什么选择MCP? 目前交行的监控体量,仅总行的监控项就达到6百万级别,触发器数量也达到了数百万个,传统的Zabbix搜索数据和手工巡检模式在这样的海量大数据下已经难以为继。但是这些数以亿计的监控数据也为我们提供了数据基础。在算力上,交通银行搭建了以AI服务器为主的算力集群,通过算、网、存高效协同,实现算力资源动态分配和随需调度,高效支撑以大模型为代表的AI训练和推理需求。而在算法上,交行数据中心也吸收了各类通用大模型、行业大模型的优势和特点,建设符合自身需求的大模型。 1.1 什么是MCP MCP(Model Context Protocol ,模型上下文协议),是由 Anthropic 公司于2024年提出的开放标准协议 ,是一种开放的通信协议,是人工智能领域的 “ USB 接口”。MCP在大模型和外部数据源(数据、工具、开发环境等) 之间建立了双向且更加安全的连接 ,使用单一的标准协议取代碎片化的集成方式。如果把 LLM 比作人的大脑 ,MCP 就是手脚,LLM 不断提升智能下限 ,MCP则是不断提升创意上限。 1.2 MCP的优势 增强互操作性:MCP可以促进不同系统或组件之间的有效沟通与协作, 能够更方便地共享数据和服务。 简化系统集成:采用标准协议, MCP可以减少将新模块或组件集成到现有系统中的复杂性和成本 ,缩短开发周期。 灵活性与扩展性:能够支持系统的动态扩展 ,使系统能够更好的适应新的技术需求和技术变化。 优化资源管理:涉及资源分配和管理 ,可以帮助实现更高效的资源利用 ,优化性能并减少浪费。 加强安全性:遵循特定的协议有助于确保数据传输的安全性,保护敏感信息不受未授权访问的影响。

二、MCP服务开发 2.1 Zabbix健康度MCP服务实现步骤 2.2 具体实施操作 a.MCP服务环境构建 UV环境部署: UV版本信息查询: UV Python环境变量配置:




b.创建MCP服务项目 创建初始项目: 创建并进入虚拟环境: 依赖安装包: 创建Zabbix健康性巡检脚本:



c.MCP服务脚本开发 Zabbix服务状态检查: Zabbix前端状态检查: 数据库服务状态检查: 操作系统关键资源检查: Zabbix关键项检查 d.生成HTML文件 HTML文件关键代码: e.MCP服务tool定义和调用








f.MCP服务启动 MCP项目文件: 激活UV环境: 启动MCP服务:


三、Dify嵌入Zabbix 3.1 Dify Dify是一款开源的大语言模型应用开发平台,支持数百款模型,有直观Prompt编排界面,能帮用户快速搭建生产级AI应用,让非技术人员也能参与AI应用开发。 3.2 Dify容器化部署 省略Dify部署步骤 ,参考链接: https://docs.dify.ai/en/getting-started/install-self-hosted/docker-compose 3.3 Dify插件安装 关键插件安装 , MCP SSE StreamableHTTP、 Agent策略(支持MCP工具) 、通义千问、 深度求索等插件。 3.4 Dify配置AI大模型 3.5 Dify配置MCP服务 3.6 Dify配置ChatFlow 3.7 复制Dify嵌入代码 3.8 复制Dify嵌入代码 这里我们需要修改Zabbix前端的少量PHP代码,将Dify嵌入我们的Zabbix网页中,我们的网页就可以进行大模型对话了,我们需要修改Zabbix前端指定目录下的两个PHP文件,分别是/usr/share/zabbix/app/views目录下的layout.htmlpage.php文件和/usr/share/zabbix/include目录下的page_footer.php文件,分别把Dify服务中的前端内嵌代码复制粘贴到以上两个PHP文件中。 3.9 Dify巡检助手MCP嵌入 文件更新完成后,刷新一下Zabbix前端页面,右下角多出了一个小助手按钮,用户可以单击此按钮调用Dify,输入关键字利用AI大模型的分析能调用对应的MCP服务,来实现对Zabbix系统关键项的巡检并给出健康性报告。 3.10 MCP服务Zabbix健康性报告 我们输入一个Zabbix巡检给大模型,大模型就可以给出我们的一个巡检报告,如图,Zabbix健康性报告伴随着环境的变化 ,调用MCP服务自动、 及时更新数据。









四、“一键诊断”与“运维机器人”的场景探索 4.1 一键“诊断功能”:从“被动救火”到“精准快反” 通过 “Zabbix 实时监控 + 智能体 + 企业知识库精准匹配” 的组合方案,实现故障处置全流程提效。集成在 Zabbix 事件菜单中的 “AI 故障诊断” 按钮,是价值最直观的核心功能 —— 相当于在运维人员日常依赖的告警控制台中,新增了 “一键专家会诊” 的高效入口。 其核心价值在于,将零散且专业的告警事件,实时转化为结构化、可直接落地的诊断报告,彻底革新故障处理的起点与效率。当运维人员遇到 “数据库缓慢” 等具体告警时,只需点击该按钮,数秒内便能获取包含根因分析、分步排查指南及修复命令的完整报告,显著提升应急响应专业性与故障处置效率。 效果如下: “AI故障诊断”诊断结果如下: 4.2 Zabbix 运维机器人:从 “隐性沉淀” 到 “资产复用”,构筑组织级运维核心能力 Zabbix 与 Dify 应用程序的集成,核心解决 “监控数据智能转化” 核心诉求;而深度融合企业运维知识库后,方案核心价值升级为 “构建企业专属智能运维生态”——Zabbix 作为 “实时数据采集入口”,保障告警信息的精准性与时效性;Dify 智能体担当 “智能分析核心引擎”,实现数据与知识的联动推演;企业运维知识库筑牢 “专属价值底座”,确保诊断结果的个性化与精准度。三者协同联动,不仅高效破解企业运维现有痛点,更实现 “故障处置提效、经验资产沉淀、管理精益化、成本优化” 的多重价值闭环,推动企业运维水平从 “基础保障型” 向 “核心竞争力支撑型” 跨越式升级。 示例:输入主机192.168.171.128 cpu使用率超过90%,当前值96.2%,dify调用模型的故障回复如下:



五、后续场景规划 Zabbix平台本身主机、主机组、监控项、触发器、模板、事件管理、用户管理等等均可以尝试通过MCP方法来巡检。同样巡检只是大模型提高我们工作效率的一小部分。学会如何快速上手配置Zabbix平台,如何快速处理Zabbix发出的告警,目前大模型都可以为大家给出一个很好的解决方案。 交行的工作也在积极拥抱数智时代,通过科技创新推动金融业务智能化升级,除了刚刚提到的监控巡检,其他领域也以行内已有的数据湖/数据中台为基础,在丰富数据种类、强化数据治理、强化数据标注,构建高质量TB级数据集。同时完善全行知识运营机制,建立企业级统一知识库,实现模型训练和场景应用多源数据高效供给。AI技术已在智能运维、风险防控、智能客服、办公辅助等领域广泛应用。希望未来和大家一起积极探索Zabbix在AI时代下的创新案例!