了解最新公司動態(tài)及行業(yè)資訊
云原生時代,企業(yè)IT運維面臨架構復雜、業(yè)務需求多樣化、運維數(shù)據(jù)海量等挑戰(zhàn)。已成為企業(yè)數(shù)字化轉(zhuǎn)型的迫切需求。
9月26日,阿里巴巴高級技術專家滕勝波在“GOPS全球運維大會”上發(fā)表了題為“云服務器無人值守與自助服務”的主題演講,分享了阿里云彈性計算團隊如何利用人工智能。智能技術實現(xiàn)自動化運維,實現(xiàn)云端服務器無人值守,幫助用戶降低云服務器實例管理復雜度,保障實例服務穩(wěn)定高效運行。本文是根據(jù)滕勝波的講話改編的。
本文內(nèi)容結構:
1、為什么云服務器需要無人值守?
2、阿里巴巴云無人值守自助實戰(zhàn)
3、無人值守背后的數(shù)據(jù)和AI
1、為什么云服務器需要無人值守?
運維是一種服務,既包括基礎設施軟件服務,也包括人工服務。服務的對象是企業(yè)中使用基礎設施的業(yè)務團隊,而云計算IaaS是一種運維服務,而服務的對象已經(jīng)開發(fā)為使用云服務的開發(fā)人員和運營團隊。隨著云計算的廣泛實施,大多數(shù)企業(yè)已經(jīng)遷移到云端。目前,有超過100萬用戶的業(yè)務在阿里云平臺上運行,阿里云平臺服務的用戶也越來越多。
隨著平臺用戶的擴大,我們發(fā)現(xiàn)平臺用戶在運維ECS實例時普遍面臨三個痛點:
(1)后臺通信成本高,為什么我的實例有問題?
(2)手工處理時間長,為什么這個問題這么久沒有解決?
(3)客戶端操作不透明,問題好像解決了,但是你剛剛做了什么?
為此,我們需要在客服人員上投入巨資,讓用戶的問題得到高效的解決。為了避免用戶規(guī)模擴大帶來的客戶端運維成本線性增加,我們開始使用人工智能技術賦能用戶運維管理。當無人零售、無人駕駛成為趨勢時,我們相信未來云端服務器也將無人值守。

事實上,阿里云彈性計算產(chǎn)品推出十年,積累了很多ECS實例運維管理經(jīng)驗和異常“行為”規(guī)則。因此,依托機器學習的數(shù)據(jù)驅(qū)動特性,我們通過對異常“行為”數(shù)據(jù)的分析,為云端服務器搭建無人值守架構,推出一系列自助服務,實現(xiàn)自診斷、自愈合、自優(yōu)化和自運維幫助用戶降低ECS實例管理的復雜度,從而保證實例服務的穩(wěn)定高效運行。
2、無人值守自助實戰(zhàn)

云計算IaaS的運維可以分為服務端運維和客戶端運維。服務端運維是云平臺的運維工作,通常用戶看不到,主要涉及基礎設施、基礎產(chǎn)品和上層管控。三個層次,包括機房和物理設備的運維、資源虛擬化、資源調(diào)度、熱遷移。隨著用戶規(guī)模的擴大,這些運維任務會越來越復雜。用戶側(cè)運維工作對用戶是可見的,主要是用戶對ECS實例的修改和自動化,包括擴容、重啟、監(jiān)控、客服、
我們搭建的云服務器無人值守架構,為阿里云平臺用戶提供了一系列的自助服務。從廣義上講,阿里云的自助服務包括四個維度:ECS實例本身、實例生命周期管理、系統(tǒng)管理與自動化、市場與生態(tài),如下圖所示。


圖:廣義的自助服務
狹義的阿里云自助服務是為用戶實現(xiàn)ECS實例的診斷、修復、推薦等功能。當天,阿里云自助提供了實例診斷工具、實例優(yōu)化推薦、自動修復工具、最佳模板推薦、ECS事件自動化等一系列自助工具服務器運維技術,覆蓋了80%的常見ECS問題,將平均問題解決時間從幾小時縮短到幾分鐘。全程無需客服人員人工參與,不存在隱私泄露風險。云上的服務器是無人值守的。未來服務器運維技術,隨著AI+數(shù)據(jù)的不斷驅(qū)動,ECS實例的診斷和修復會越來越精準。
ECS實例智能診斷
根據(jù)平臺統(tǒng)計,用戶在使用ECS實例時主要面臨四類問題:
(1)無法遠程訪問實例
(2)實例無法啟動/停止

(3)實例性能異常
(4)擴盤不生效
因此,在智能診斷能力方面,我們涵蓋了ECS系統(tǒng)服務、磁盤健康服務、網(wǎng)絡健康服務、Guest OS系統(tǒng)配置等維度。用戶可以一鍵完成實例的智能健康診斷。
ECS實例自動修復
智能診斷完成后,我們還將為用戶提供ECS實例的自動修復解決方案。前者定位問題后,自動修復可在1-3分鐘內(nèi)解決問題,主要完成ECS系統(tǒng)服務修復、網(wǎng)絡問題修復和磁盤修復。.
僅僅實施自動化修復是不夠的,我們認為自動化修復還應該是透明和合規(guī)的。我們通過運維編排服務OOS提供自動化引擎,通過云助手命令提供內(nèi)部執(zhí)行能力。運維編排服務OOS+云助手命令共同幫助用戶完成自動修復;同時開源運維編排服務OOS+云助手命令。代碼,使所有修復邏輯對用戶可見;所有修復操作也可以通過ECS實例鏡像、快照、數(shù)據(jù)備份進行回滾;所有權限都可以通過阿里云RAM角色控制來控制,

3、無人值守背后的AI和數(shù)據(jù)能力
使我們能夠?qū)崿F(xiàn)智能診斷和自動修復的,是冰山下的強大技術支撐——AI+數(shù)據(jù)。依托底層數(shù)據(jù)中心,完成了物理機數(shù)據(jù)、虛擬化數(shù)據(jù)、網(wǎng)絡數(shù)據(jù)、控制面數(shù)據(jù)、內(nèi)部數(shù)據(jù)等數(shù)據(jù)的采集、清洗、分析和模型構建;再加上AI算法的不斷優(yōu)化,我們構建了用戶畫像、決策樹、預測推薦模型等,確保異常診斷和自動修復更加精準高效。

目前,在整個ECS自助服務架構中,控制監(jiān)控中心主要依靠日志服務的實時監(jiān)控、中間件監(jiān)控、API請求監(jiān)控、控制臺監(jiān)控和自診斷數(shù)據(jù),實現(xiàn)問題預警和通過機器學習引擎進行處理,進而驅(qū)動運維編排服務OOS,實現(xiàn)問題的自動修復。

通過這種AI驅(qū)動的自助服務架構,目前阿里云ECS實時內(nèi)存異常感知準確率超過70%,實現(xiàn)預測鏈路延遲控制在100s以內(nèi);此外,整合專家經(jīng)驗、案例庫和知識庫,構建強大的診斷決策樹,為加快問題定位和修復提供有力依據(jù)。
近兩年,阿里云彈性計算團隊不斷投入異常行為數(shù)據(jù)集的建設。未來計劃將其演化為阿里巴巴集團異常預測的“數(shù)據(jù)集”并開源,希望對行業(yè)異常預測的發(fā)展有所幫助。貢獻更大的價值。