
摘要:2025年7月23日,由中國通信標準化協(xié)會主辦的 “2025可信云大會” 在京舉行,《運維智能體(SRE AGENT)能力要求》標準正式發(fā)布,杭州乘云數(shù)字作為運維智能體及可觀測領(lǐng)域領(lǐng)導(dǎo)者,重點參與了本次報告的編寫。
2025年12月23日,由中國通信標準化協(xié)會主辦、中國信通院承辦的 “2025可信云大會-軟件工程智能化分論壇” 在北京中關(guān)村國家自主創(chuàng)新示范區(qū)會議中心舉行,《運維智能體(SRE AGENT)能力要求》正式發(fā)布。杭州乘云數(shù)字作為可觀測性領(lǐng)域領(lǐng)導(dǎo)者,重點參與了本次報告的編寫。該標準參與編寫單位包括:中國信息通信研究院、移動云、華為云、螞蟻、農(nóng)業(yè)銀行、杭州乘云數(shù)字、小米、神州靈云、農(nóng)商銀行、中電普華、百度、恒為科技、福建移動、宜通衡睿、銀信、長三角數(shù)鏈。本標準文件由云計算開源產(chǎn)業(yè)聯(lián)盟提出并歸口。

報告介紹
隨著AI技術(shù)、運維自動化能力的不斷發(fā)展,基于智能體的運維能力作為一種高效、自主的新型運維工具,能夠?qū)崿F(xiàn)更智能的資源調(diào)度、自動化運維和精準的故障預(yù)測,從而降低運營成本并提高系統(tǒng)穩(wěn)定性。
本標準規(guī)范了在開展運維智能體建設(shè)或度量時,如何指導(dǎo)運維場景應(yīng)用、協(xié)同能力構(gòu)建、智能體能力建設(shè)和基智能體底座建設(shè)。
本標準規(guī)范了在開展運維智能體建設(shè)或度量時,如何指導(dǎo)運維場景應(yīng)用、協(xié)同能力構(gòu)建、智能體能力建設(shè)和基智能體底座建設(shè)。

本標準同時適用于服務(wù)商提供的運維智能體服務(wù)和運維智能體軟件產(chǎn)品,即面向公共用戶提供的運維智能體服務(wù)和私有環(huán)境下的軟件產(chǎn)品或解決方案;依據(jù)交付形式的差異,本標準針對不同的使用場景其技術(shù)指標要求略有不同。

圖1 運維智能體(SRE Agent)技術(shù)分級能力要求框架圖
該架構(gòu)以?場景需求為牽引??,通過協(xié)同層打通系統(tǒng)壁壘,以智能體層的感知-決策-行動閉環(huán)為核心能力載體,最終由底座提供工程化支撐。四層能力環(huán)環(huán)相扣,既明確了技術(shù)能力邊界,又強調(diào)實際落地場景的適配性,為企業(yè)構(gòu)建智能運維體系提供清晰的模塊化建設(shè)路徑。
- 運維場景層(頂層)?
覆蓋智能體服務(wù)的核心業(yè)務(wù)場景,包含:
? ?流程管理??:自動化運維流程執(zhí)行
? ?變更管理??:系統(tǒng)變更的智能化控制
? ?故障管理??:異常檢測、根因定位與自愈
? ?風(fēng)險管理??:預(yù)判性監(jiān)控與容錯控制
? ?運維管理??:資源調(diào)度與配置優(yōu)化
定位:直接對接企業(yè)實際運維需求,定義智能體價值出口。 - 協(xié)同能力層(承上啟下)?
支撐智能體在復(fù)雜環(huán)境中的協(xié)作能力:
? ?多智能體協(xié)同??:集群任務(wù)分配與聯(lián)動作業(yè)
? ?跨系統(tǒng)協(xié)同??:對接CMDB、監(jiān)控系統(tǒng)等第三方平臺
? ?智能體安全??:數(shù)據(jù)加密、權(quán)限控制與行為審計
定位:破除系統(tǒng)孤島,確保人-機-系統(tǒng)安全交互。 - 智能體層(核心技術(shù)層,橫向三模塊)?
? ?感知能力??:
- ?運維數(shù)據(jù)??(指標/日志/鏈路)
- ?環(huán)境數(shù)據(jù)??(硬件狀態(tài)/網(wǎng)絡(luò)拓撲)
- ?交互數(shù)據(jù)??(用戶指令/反饋)
(注:多源數(shù)據(jù)融合感知)
? ?控制能力??:
- ?信息理解??:數(shù)據(jù)語義解析與特征提取
- ?記憶能力??:知識圖譜構(gòu)建與經(jīng)驗存儲
- ?計劃能力??:任務(wù)拆解與決策路徑生成
? ?行動能力??:
- 自動執(zhí)行修復(fù)、擴縮容等物理操作
- 支持工單生成、告警通知等人機協(xié)同 - 智能體底座(基礎(chǔ)設(shè)施)?
? ?模型接入??:兼容AI大模型與專業(yè)算法引擎
? ?軟件質(zhì)量??:高可用架構(gòu)與性能保障
? ?自維護??:智能體自監(jiān)控、自升級與故障隔離
作為?國內(nèi)首個聚焦SRE Agent的專項能力標準??,該報告具有三大核心價值:
- 統(tǒng)一規(guī)則:? 為產(chǎn)品開發(fā)與評估提供清晰依據(jù),規(guī)范市場秩序。
- 賦能企業(yè):? 指導(dǎo)企業(yè)高效選型和建設(shè)SRE Agent能力,提升運維智能化水平。
- 引領(lǐng)發(fā)展:? 樹立行業(yè)技術(shù)標桿,加速智能運維技術(shù)成熟與應(yīng)用創(chuàng)新。
篇章預(yù)覽:
5.3.2故障定位 描述:故障定位是指故障發(fā)生以后能夠采取多種手段找到問題原因。一般故障定位能力分為現(xiàn)象定位、對象定位、原因定位三種。智能體應(yīng)該與企業(yè)當(dāng)前故障定位能力結(jié)合,在故障處理過程中通過大模型能力快速判斷、整合,從而提升故障定位效率。 1級:應(yīng)具備故障現(xiàn)象定位能力,通過現(xiàn)象關(guān)聯(lián)分析,實現(xiàn)故障初步定位及影響范圍識別。 2級: a) 智能體應(yīng)具備故障對象定位能力。以及部分故障原因定位能力。 b) 智能體應(yīng)具備結(jié)合多源數(shù)據(jù)進行多維度根因分析的能力。 3級:智能體應(yīng)具備精準分析故障原因與趨勢,輸出處置預(yù)測報告的能力 |
乘云數(shù)字運維智能體介紹
乘云數(shù)字,作為數(shù)字化可觀測性領(lǐng)域的領(lǐng)軍企業(yè),持續(xù)專注于可觀測性、現(xiàn)代AIOps、數(shù)字化經(jīng)營等先進產(chǎn)品與技術(shù)的研究與應(yīng)用,深入自主研發(fā),聚焦解決國內(nèi)企業(yè)全面上云帶來的數(shù)字化運維、數(shù)字化經(jīng)營的全新挑戰(zhàn)。
憑借在領(lǐng)域的技術(shù)創(chuàng)新與行業(yè)領(lǐng)跑實力,乘云數(shù)字被評選為 “國家高新技術(shù)企業(yè)”、“浙江省專精特新企業(yè)”、“浙江省科技型企業(yè)”,并連續(xù)獲得多輪融資。
乘云數(shù)字運維智能體引擎,結(jié)合預(yù)測性、因果關(guān)系和生成式 AI,能夠?qū)崿F(xiàn)分鐘級的根因定位,利用大模型生成精準的處建建議,并可在問題對客戶造成影響之前進行預(yù)測。
憑借在領(lǐng)域的技術(shù)創(chuàng)新與行業(yè)領(lǐng)跑實力,乘云數(shù)字被評選為 “國家高新技術(shù)企業(yè)”、“浙江省專精特新企業(yè)”、“浙江省科技型企業(yè)”,并連續(xù)獲得多輪融資。
乘云數(shù)字運維智能體引擎,結(jié)合預(yù)測性、因果關(guān)系和生成式 AI,能夠?qū)崿F(xiàn)分鐘級的根因定位,利用大模型生成精準的處建建議,并可在問題對客戶造成影響之前進行預(yù)測。

預(yù)測AI :融合機器學(xué)習(xí)與多模態(tài)數(shù)據(jù)分析,實時處理指標、日志、追蹤等運維數(shù)據(jù),構(gòu)建動態(tài)基線,提前預(yù)警潛在故障(如資源瓶頸、性能衰退),并定位根因、提供修復(fù)建議。通過仿真推演與智能決策,優(yōu)化資源規(guī)劃與發(fā)布策略,降低故障率,推動運維從“被動響應(yīng)”邁向“主動預(yù)防”的價值驅(qū)動模式。
因果AI :分析指標、日志、追蹤等數(shù)據(jù)間的因果關(guān)系,精準定位故障根因(如配置錯誤、依賴故障),區(qū)分直接與間接誘因,減少誤報。通過回溯故障傳播路徑、量化影響并推薦修復(fù)方案,助力運維從“經(jīng)驗猜測”轉(zhuǎn)向“因果可解釋”的精準決策,提升故障處理效率與系統(tǒng)穩(wěn)定性。
生成式AI :結(jié)合大語言模型(LLM)與知識圖譜,實現(xiàn)基于自然語言的查詢分析、報告生成、數(shù)據(jù)可視化等能力。通過沉淀歷史經(jīng)驗和專家知識,推動運維自動化與知識高效復(fù)用,提升故障處理與系統(tǒng)優(yōu)化效率。
具體實現(xiàn)效果可參考閱讀以下內(nèi)容:
databuff與dynatrace 的智能體故障定位能力對比 https://databuff.com/resourceDetail/blog101
評論