了解最新公司動態(tài)及行業(yè)資訊
在數(shù)字化浪潮下,運維能力逐漸成為現(xiàn)代企業(yè)的競爭力之一。
在過去的幾十年里,運維經(jīng)歷了幾個階段。從早期的人工運維到標準化運維、自動化運維、AIOps,全過程追溯不難發(fā)現(xiàn),隨著技術(shù)的不斷發(fā)展,運維方式正在逐漸智能化。
2016年,為運維提供了一個新概念——“AIOps”,中文意思是智能運維。即以AI等手段為核心,為運維提供更加智能化、數(shù)字化的支持。也就是說,運維應(yīng)該從“人”元素中分離出來it運維技術(shù),更多地放在“數(shù)據(jù)”端。包含更多場景,包括異常告警、告警收斂、故障分析、趨勢預(yù)測、故障畫像等。
所謂AIOps,簡單理解,就是基于自動化運維,將AI和運維很好的結(jié)合起來。
AIOps 的實施直接擊中了傳統(tǒng)運維多方面的痛點。 AI算法承擔(dān)著分析海量運維數(shù)據(jù)的重任,能夠自動準確地發(fā)現(xiàn)和定位問題,從決策層面提升運營效率,助力企業(yè)運營運營。維護工作在成本、質(zhì)量和效率方面的優(yōu)化提供了重要支持。
在市場方面,全球IT研究機構(gòu)預(yù)測:“到2022年,40%的大型企業(yè)將部署AIOps(智能運維)平臺?!?/p>
可見,AIOps在企業(yè)中的作用進一步放大。但實際上,很多企業(yè)并不清楚AIOps能解決什么問題。今天我們就從華晨數(shù)據(jù)的AIOps的三種場景和算法入手。
Brill Data 的 AIOps 實踐
作為領(lǐng)先的APM應(yīng)用性能管理廠商,在AIOps實踐方面,華晨數(shù)據(jù)多年來積極擁抱人工智能、機器學(xué)習(xí)等新技術(shù)浪潮,并以AI和機器學(xué)習(xí)技術(shù)為基礎(chǔ),自主研發(fā)了“數(shù)據(jù)接口”。 “傳入、處理、存儲、分析技術(shù)”核心技術(shù)體系,全面部署智能基線、異常檢測、智能告警、關(guān)聯(lián)分析、根因分析等豐富廣泛的智能運維功能,集成AIOps能力融入端到端全棧監(jiān)控產(chǎn)品線可為傳統(tǒng)企業(yè)提供強大的數(shù)據(jù)處理、存儲和分析軟件工具,幫助客戶整合各種IT運維監(jiān)控數(shù)據(jù),實現(xiàn)數(shù)據(jù)統(tǒng)一存儲和關(guān)聯(lián)分析,打破數(shù)據(jù)孤島,構(gòu)建統(tǒng)一的IT運維。運維管理平臺讓企業(yè)的IT運維更加智能化、自動化。
在此基礎(chǔ)上,華晨數(shù)據(jù)還依托完善的IT運維監(jiān)控能力,利用大數(shù)據(jù)和機器學(xué)習(xí)技術(shù),不斷打造先進的智能運維監(jiān)控產(chǎn)品。 2021年,將推出新一代AI能力。 APM產(chǎn)品.0和新版統(tǒng)一智能運維平臺繼續(xù)實現(xiàn)智能異常檢測、根因分析、故障預(yù)測等場景?;贏I的能力在運維監(jiān)控場景中實現(xiàn)信息整合、特征關(guān)聯(lián)和業(yè)務(wù)洞察,幫助企業(yè)保障數(shù)字化業(yè)務(wù)的順利運營和良好的數(shù)字化體驗。
博瑞數(shù)據(jù)AIOps場景與算法
目前,華晨數(shù)據(jù)在AIOps技術(shù)上主要實現(xiàn)了三個場景。即智能基線預(yù)測、異常檢測和告警收斂。
首先看看智能基線預(yù)測。
智能基線預(yù)測是指基于歷史數(shù)據(jù),利用智能算法進行深度學(xué)習(xí),準確預(yù)測未來每個時間點的值,并將預(yù)測值作為基線進行監(jiān)控和告警。
如上圖所示,未來24小時的數(shù)據(jù)預(yù)測結(jié)果用虛線表示,灰色區(qū)域表示正常數(shù)據(jù)的波動范圍。如果實際值超出灰色區(qū)域,則會出現(xiàn)異常。
當IT運維人員發(fā)現(xiàn)業(yè)務(wù)服務(wù)數(shù)據(jù)出現(xiàn)問題時,通常會使用動態(tài)基線來測試和測量實時數(shù)據(jù)。如果實時數(shù)據(jù)和動態(tài)基線數(shù)據(jù)兩條曲線擬合度相近,則服務(wù)相對健康;如果動態(tài)基線與實時數(shù)據(jù)的離散程度較大,則說明當前服務(wù)存在問題。
目前華晨數(shù)據(jù)在智能基線預(yù)測中使用的算法包括實時預(yù)測算法、離線算法預(yù)測和流式算法預(yù)測三種。
讓我們再看看異常檢測。
異常檢測是指通過對歷史數(shù)據(jù)的機器學(xué)習(xí)來動態(tài)預(yù)測數(shù)據(jù)的趨勢。無需手動設(shè)置閾值,可根據(jù)指標數(shù)據(jù)特征自動識別異常。
如圖,灰色區(qū)域代表正常數(shù)據(jù)的波動范圍,紅色數(shù)據(jù)點為異常數(shù)據(jù)點。
在檢測應(yīng)用服務(wù)運行狀態(tài)的過程中,IT運維人員可以通過AIOps異常檢測算法判斷圖中紅色區(qū)域的數(shù)據(jù)為異常數(shù)據(jù),深灰色條形區(qū)域為業(yè)務(wù)波動的可容忍范圍。同時,運維人員還可以通過數(shù)據(jù)集的特征數(shù)據(jù)對當前事件周期內(nèi)的數(shù)據(jù)進行聚合,綜合分析當前事件對應(yīng)用的整體影響和波動范圍。
目前華晨數(shù)據(jù)在異常檢測中應(yīng)用的算法有靜態(tài)基線(絕對靜態(tài)基線+差分靜態(tài)基線)、智能基線+判別等。
最后,我們來看看警報收斂。
所謂告警收斂,是指基于多個相關(guān)告警信息,組合成一個故障,可以預(yù)測判斷當前處于故障狀態(tài)的告警可能產(chǎn)生的影響,從而實現(xiàn)預(yù)警故障并減少冗余報警事件。干擾運維工作。
目前華晨數(shù)據(jù)在告警收斂中使用和規(guī)劃的算法包括事件熵、頂點熵、時域相關(guān)、文本相似相關(guān)、拓撲相關(guān)、NMF+等。
為AIOps行業(yè)的發(fā)展做出貢獻
進一步擴展和豐富華晨數(shù)據(jù)現(xiàn)有的AIOps場景、算法和能力,打磨日志異常檢測、根因分析、影響分析、自然語言處理、DIY算法等能力,用AI算法賦能日志業(yè)務(wù)場景管理、一體化運維、應(yīng)急自愈快速恢復(fù)等,算法實驗室助力企業(yè)加速數(shù)字化轉(zhuǎn)型進程。
隨著企業(yè)業(yè)務(wù)規(guī)模的擴大以及云原生和微服務(wù)的興起,企業(yè)IT架構(gòu)的復(fù)雜性呈指數(shù)級增長。但是,傳統(tǒng)的IT運維方式在故障發(fā)生后很難找到故障原因,且故障平均修復(fù)時間長,已經(jīng)不能滿足新的運維需求。因此,不可避免地要用人工智能賦能運維,替代緩慢易出錯的人為決策,快速給出運維決策建議,減少問題影響,提前預(yù)警問題. AIOps作為當前運維發(fā)展的最高目標,未來將賦能運維,為用戶帶來全新體驗。
但需要注意的是,目前智能運維的很多產(chǎn)品和項目在企業(yè)端并不理想。原因可以歸結(jié)為三點:一是數(shù)據(jù)采集與AI平臺分離,多源數(shù)據(jù)之間缺乏關(guān)聯(lián),導(dǎo)致AI平臺缺乏優(yōu)質(zhì)數(shù)據(jù),從而導(dǎo)致模型訓(xùn)練結(jié)果不佳;二是數(shù)據(jù)采集主要基于和日志,導(dǎo)致應(yīng)用場景狹窄和數(shù)據(jù)孤島問題;第三it運維技術(shù),AI平臺能力仍存在提升空間。目前落地場景多以異常檢測和智能告警為主。未來需要進一步提高根本原因分析和故障預(yù)測能力。
因此,未來企業(yè)首先要搭建一體化的監(jiān)控運維平臺,而一體化是智能化的基礎(chǔ)。基于綜合監(jiān)控運維平臺采集的優(yōu)質(zhì)可觀測數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)聯(lián)性,將AIOps能力進一步落實到綜合監(jiān)控運維平臺中,實現(xiàn)精準問題定位和洞察能力。
另外,在實際應(yīng)用中,根據(jù)中國信息通信研究院的相關(guān)調(diào)查,被調(diào)查企業(yè)中具備智能監(jiān)控和運維決策能力的企業(yè)不到20%,超過70%的企業(yè)是應(yīng)用系統(tǒng)故障的第10起。在幾分鐘內(nèi)什么都不做。
各行業(yè)的數(shù)字化轉(zhuǎn)型正在改變這一現(xiàn)狀。不僅是互聯(lián)網(wǎng)企業(yè),更多傳統(tǒng)企業(yè)的數(shù)字化轉(zhuǎn)型,為智能運維開辟了更廣闊的市場。智能運維有著巨大的發(fā)展空間?,F(xiàn)在是等待行業(yè)領(lǐng)先公司努力的好時機。
提升創(chuàng)新能力,推進智能運維,既是相關(guān)服務(wù)商自身發(fā)展的要求,也是提升中國企業(yè)應(yīng)用管理和運維水平的使命。
中國企業(yè)數(shù)字化轉(zhuǎn)型的加速,無論是前端應(yīng)用服務(wù)的迭代更新,還是后端IT運維架構(gòu)復(fù)雜度的提升,都在加速智能運維的成長.