使能運維更智能:華為AIOps讓電信網絡簡單高效、輕裝上陣

C114訊 4月27日專稿(蔣均牧)數字化浪潮洶涌而至,越來越“重資產”的電信網絡,如何才能輕裝上陣?華為以AIOps使能服務給出了答案。
所謂AIOps,即智能運維(Artificial Intelligence for IT Operations),指的是通過大數據、人工智能技術解決IT運維問題。這個最初由Gartner 2016年提出并定義、起源于算法IT運維(Algorithmic IT Operations)的概念,在今天已經成為了一個非常火爆的話題。
在將AIOps應用于電信網絡方面,華為顯然有著獨到的視野與優勢。一方面,華為深耕ICT行業多年,對于電信業務以及網絡的“規、建、維、優”有著深刻的理解和豐富的實踐;另一方面,這家公司在各種數字技術上長期投入,具備有全棧全場景的人工智能能力。
華為開發者大會2021(Cloud)期間,華為NAIE AI模型與訓練服務部部長楊建接受了C114等媒體的采訪,就電信網絡運維所面臨的挑戰,以及華為NAIE AIOps服務的能力、進展和成功實踐作出分享。
數字經濟時代,AIOps勢在必行
牛津經濟研究院的《數字溢出,衡量數字經濟的真正影響力》報告指出,在過去三十年里,數字技術投資每增加1美元,便可撬動GDP增加20美元;數字化技術的長期投資回報是非數字化技術的6.7倍,數字經濟的增速是全球GDP增速的2.5倍。傳統行業可以借助“+智能”引擎,實現數字溢出最大化。
“數字化”業已成為世界范圍新一輪技術革命與產業變革的焦點,全球已有50多個國家制定了數字化發展戰略,我國亦發布了一系列相關政策。5G商用和新冠疫情刺激下,更是加快了生產消費線上化、經濟運行數字化乃至社會治理智能化的進程。
電信網絡作為“底座基石、行業動脈”,擔負著將數據、算力輸送到社會各個角落的職能,重要性日益彰顯。與此同時,伴隨網絡基礎設施的升級、聯接對象的變化和所承載業務的驟增,網絡問題復雜化與業務質量高要求成為了數字經濟時代兩大挑戰,運維能力的演進將是電信網絡能否持續發揮效能的關鍵因素。
Gartner調研發現,當前,60%運營商的運維系統處于割裂狀態,致使新功能上線周期長;75%的問題通過用戶投訴發現,運維模式被動;運維人員90%的時間都用在識別故障發生的原因上,人工積累的經驗難以應對網絡復雜化帶來的新問題。
在這樣的背景下,傳統以人力為主的工具、流程、模式變得難以跟上運維轉型的腳步,已經有63%的電信運營商開始投資人工智能、大數據分析等技術,實現故障“自愈”與進行主動維護。AIOps被廣泛視作一項關鍵手段——其核心價值就在于由人工智能取代人力決策,快速給出故障處理建議,或者提前規避故障。
但在硬幣的另一面,人工智能技術的應用仍面臨技術門檻高、投入產出難、數據準備度低等挑戰。2019年,企業人工智能實際應用率為19%,較上年僅增長了5%,遠低于行業23%的預估增長。單以電信網絡運維智能化本身而論,亦存在人員技能缺乏、開發周期較長等痛點亟需攻克。
華為AIOps讓開發更簡單,應用更高效
“我們的目標就是讓網絡人功智能開發更簡單、應用更高效,從而支持運營商及合作伙伴快速降低門檻,更好地應對瞬息萬變的市場需求。”楊建談到。
2019年4月,華為iMaster NAIE正式對外發布,同時NAIE亦是華為自動駕駛網絡(ADN)的人工智能引擎,AIOps使能服務則是其中的核心組成。基于三十余年的ICT專業積累,經過“點-線-面”的運維智能化能力拓展,華為目前已經構建起完善的AIOps框架,基本完成電信網絡運維的全流程覆蓋。
據介紹,華為AIOps架構包含數據管理層、原子能力層、編排層和應用層四個層面,相對應地提供四大價值能力。
首先是多場景的數據采集治理:華為AIOps預制數據采集治理能力,提供一站式的數據采集、解析、治理等基礎工具鏈,以及智能輔助數據標注能力,從源頭上提升數據質量。在數據產生上,支持通用接口采集、通信領域端管云數據采集,可與30多類網元、100多種主流設備自動對接;在數據治理上,內置10多種通信業務場景治理模板,可節省90%數據準備時間;在數據標注上,通過智能輔助,可提升10倍標注效率、降低80%標注成本。
其次是豐富的人工智能原子能力:作為最核心的競爭力,華為AIOps沉淀核心人工智能資產,采用自主研發+生態合作相結合的方式,提供數字化基礎組件,不僅提高了人工智能應用開發效率、降低開發門檻,也避免了公共能力的重復開發所造成的資源浪費。當前,華為AIOps能夠提供超過20種人工智能原子能力,涉及預測、檢測、診斷、識別等運維全場景,支持多種類型數據,具備廣泛的適用性,且開放生態合作。
第三是靈活的組合編排與DevOps能力:運維場景靈活多變,如果人工編碼開發不同組網的人工智能應用將極為耗時耗力,華為AIOps提供零編碼流程編排能力,針對不同場景,只需從組件庫中拖拽數據及原子能力進行組合,即可完成應用場景端到端的圖形化編排,并支持進行業務泛化的參數配置,大幅提升應用開發效率。同時,其編排框架提供數據可視化服務,支持輕松按需搭建可視化大屏,還集成了RPA功能,實現跨系統工作流程自動化對接。
最后是開箱即用的APP:華為AIOps針對典型運維場景,提供10多類開箱即用的APP,包括KPI異常檢測與分析、IT應用健康監控分析等,支持公有云和私有云部署、云地協同,還支持合作伙伴自行開發APP和一鍵發布到華為人工智能應用市場上。
服務超110個現網局點,成功實踐解讀
經過一年多時間發展,華為AIOps使能服務贏得了眾多運營商的青睞,進入到規模應用階段。截至今年1月份,已應用于運營商網絡、園區網絡、數據中心和IT應用四大領域,服務110多個現網局點,管理10萬多個KPI,核心API月調用次數超過4.1億次,每天處理千萬量級的告警和3T的日志。
在采訪中,楊建還介紹了華為AIOps一些實踐案例。以無線接入智能故障管理為例,無線網絡包含無線、傳輸、動環多個環節,一旦出現故障,告警量大、人工派單效率低、工單準確率差;同時跨域定位難,電力等問題會導致各域都派單,依賴跨部門專家協同,效率低下。借助華為AIOps的能力,可以顯著提升根因定位效率、消除重復無效派單、縮短定位定位時間和恢復時長。在某運營商的應用中,早在2019年7月就能減少10%的工單,提升監控室30%的工作效率。
核心網KPI異常檢測方面,運營商普遍面臨的挑戰包括,核心網重復故障少、定位難、故障分析耗時較長;人工設置閾值工作量巨大,且KPI難以全面監控;靜態闕值無法適配業務動態變化,存在漏報、誤報。部署華為AIOps后,可基于AI/ML生成動態閾值,適應各種日常KPI監控場景;通過多指標關聯分析,分鐘級內給出TopN根因指標;支持智能動態閾值自動調整,指標監控對象可擴大到10萬個以上。在某運營商的應用中,去年4月提前5小時識別異常并主動預警,降低業務損失,7月在DNS腳本指向配置錯誤的情況下第一時間上報變更異常并發送告警短信,保障5G高端用戶上網體驗。
數據中心硬盤異常檢測方面,眾所周知硬盤故障后數據修復難度高,需要投入大量人力物力,并且傳統的運維模式高度依賴人工,無法提前規避硬盤硬件故障對業務造成的不良影響。華為AIOps能夠從歷史數據中識別硬盤不同屬性的突變模式,對當前狀態進行預測;結合用戶反饋數據,定期執行模型自優化,持續提升預測精度。目前為止可以做到提前14天預測故障,變被動運維為主動智能運維。現已服務于全球200多家企業,累計預測硬盤超過18萬塊、每年識別故障盤4000余塊、識別數據備份場景1000多個。
“工欲善其事,必先利其器”,選擇適合自身的AIOps產品顯然是電信網絡運維智能化轉型的重要一步。而華為NAIE AIOps憑借在ICT和人工智能兩大領域的創新積累,完美契合運營商的網絡現狀與轉型訴求;并且基于機器學習、開放生態等方式,未來還能不斷迭代、常用常新,必將助力運營商的智能化之路走得更快更遠。
作者:蔣均 牧來源:C114通信網